Le nettoyage de données, parfois appelé le nettoyage des données , est le processus de détection et d'élimination ou de corriger toute information dans une base de données qui a une sorte d'erreur. Cette erreur peut être parce que les données sont inexactes, incomplètes, mal configurés, ou est un duplicata d'une autre entrée. Beaucoup de données intensif domaines d'activité tels que la banque, l'assurance, commerce de détail, le transport et les télécommunications peuvent utiliser ces applications logicielles sophistiquées pour nettoyer les informations de la base de données.
Les erreurs sont des bases de données peuvent être le résultat d'une erreur humaine dans la saisie des données, la fusion des deux bases de données, le manque de données de l'entreprise ou de l'industrie de large échelle normes de codage, ou en raison d'anciens systèmes qui contiennent des données inexactes ou obsolètes. Avant que les ordinateurs avaient les capacités à trier et nettoyage des données, la plupart lavage a été fait à la main.Non seulement cette longue et coûteuse, mais c'est souvent conduit à des erreurs encore plus humain.
La nécessité pour le nettoyage de données est évident quand on sait avec quelle facilité les erreurs peuvent être faites. Dans une base de données des noms et des adresses, par exemple, un nom peut-être Bobby Johnson, de Needham, MA, tandis qu'un autre est Bob Johnson de Needham, MA. Cette variation de noms est probablement une erreur et se réfère à une seule personne. Un ordinateur traiterait normalement les informations comme s'il s'agissait de deux personnes différentes, cependant. Logiciel de nettoyage de données spécialisée est capable de distinguer l'écart et de le corriger.
Bien que ces petites erreurs peuvent sembler un problème trivial, lors de la fusion des données corrompues ou erronés dans des bases de données multiples, le problème peut être multiplié par les millions. Ce soi-disant " données sales "a été un problème aussi longtemps que il y a eu des ordinateurs, mais il est de plus en plus critique que les entreprises sont de plus en plus complexe et les entrepôts de données sont la fusion des données provenant de sources multiples. Il est inutile d'avoir une base de données complète si cette base de données est rempli d'erreurs et l'information contestée.
Les entreprises qui utilisent des logiciels spécialisés peuvent soit développer en interne ou acheter à partir d'une variété de fournisseurs. Le logiciel n'est pas pas cher et peut aller n'importe où à partir d'un prix de 20.000 dollars à 300.000 dollars américains (USD). Il nécessite souvent aussi une certaine personnalisation de sorte que le logiciel ne fonctionnera aux besoins spécifiques de l'entreprise. Elle passe par un processus d'utilisation des algorithmes de normaliser, de rectification, match, et consolider les données et est capable de travailler avec des ensembles uniques ou multiples de données.
lavage des données est parfois ignorée dans le cadre d'un ensemble de données entrepôt mise en œuvre, mais elle est l'une des étapes les plus importantes à avoir un bon produit final précis. Parce que les erreurs seront toujours prises dans la saisie de données , il y aura toujours un besoin pour ce processus.