Il existe une
variété de différentes explorations de données méthodes utilisées dans les deux
options logicielles et des concepts théoriques. Ceux-ci permettent aux
utilisateurs d'extraire des informations à partir de données recueillies par
les particuliers et les entreprises utilisant une variété d'outils. De grandes
quantités de données peuvent être utilisées pour déterminer divers facteurs
dans un seul sujet ou des sujets variés. Ces méthodes d'exploration de données
sont les plus couramment utilisées dans les champs de protection contre la fraude,
de la commercialisation et de la surveillance.
Pendant des
centaines d'années, les méthodes de fouille de données ont été utilisées pour
extraire des informations à partir de sujets. Les techniques modernes,
cependant, utilisent des concepts automatisés pour fournir des données
importantes via des ressources informatiques. En sciences informatiques sont
apparus au cours du 20e siècle, le concept de méthodes d'extraction de données
développé dans un effort pour surmonter des tendances cachées dans de grandes
étendues de données recueillies. Un bon exemple de cela est lorsqu’une agence
de publicité analyser les habitudes d'achat d'un client en ligne. Cette société
peut alors commercialiser certains produits que l'individu peut être intéressé
à acheter.
Une technique
d'exploration de données couramment utilisée dans l'industrie est appelée
Knowledge Discovery in Databases (KDD). Développé en 1989 par Gregory
Piatetsky-Shapiro, KDD permet aux utilisateurs de traiter les données brutes,
analyser l'information pour les données nécessaires et interpréter les
résultats. Cette méthode permet aux utilisateurs de trouver des modèles dans
les algorithmes, cependant, les données générales n'est pas toujours exacte et
peut être mis en place de manière compromettantes. Ceci est connu comme
surapprentissage.
Les méthodes
d'exploration de données de base comportent quatre types particuliers de
tâches:... Classification, clustering, régression, et association de
classification prend l'information présente et les fusionne en groupes définis
Clustering supprime les groupes définis et permet aux données de se classer par
articles similaires régression se concentre sur la base de l'information, la
modélisation des données sur le concept. La méthode d'extraction de données
finale, association, tente de trouver des relations entre les différents flux
de données.
Lors de
l'utilisation des différentes méthodes d'exploration de données, certaines
normes sont utilisées pour déterminer les paramètres qui peuvent être utilisés
dans le processus. L'Association pour le groupe d'intérêt spécial de Computing
Machinery sur la découverte de connaissances et d'exploration de données
(SIGKDD) tient une réunion annuelle de déterminer quels processus sont
appropriés. Facteurs éthiques sont pesés avec des applications pratiques pour
trouver la meilleure information sur les individus et les entreprises. Cette
information est publiée dans une revue de l'industrie appelé SIGKDD
Explorations.