Data Cleansing (Nettoyage de données)

Points-Clés

Le Data Cleansing, ou nettoyage de données, est le processus visant à garantir l'exactitude et la correction des données stockées en effectuant des modifications telles que la suppression des données obsolètes, incomplètes ou en double.

Que signifie le Data Cleansing ?

Le Data Cleansing, ou “Nettoyage de données” en français, est le processus d’altération des données dans une ressource de stockage donnée afin de garantir qu’elles soient précises et correctes. Il existe de nombreuses façons de procéder au Data Cleansing dans diverses architectures logicielles et de stockage de données ; la plupart d’entre elles se concentrent sur l’examen minutieux des ensembles de données et des protocoles associés à une technologie de stockage de données particulière.

Le Data Cleansing est également connu sous le nom de Data Cleaning ou Data Scrubbing.

Techopedia explique le Data Cleansing

Le Data Cleansing est parfois comparé à la purge de données, où des données anciennes ou inutiles sont supprimées d’un ensemble de données. Bien que le Data Cleansing puisse impliquer la suppression de données anciennes, incomplètes ou dupliquées, il diffère de la purge de données en ce sens que cette dernière se concentre généralement sur la libération d’espace pour de nouvelles données, tandis que le Data Cleansing vise à maximiser l’exactitude des données dans un système. Une méthode de Data Cleansing peut utiliser le parsing ou d’autres méthodes pour éliminer les erreurs de syntaxe, les erreurs typographiques ou les fragments d’enregistrements. Une analyse minutieuse d’un ensemble de données peut montrer comment la fusion de plusieurs ensembles a conduit à une duplication, auquel cas le Data Cleansing peut être utilisé pour résoudre le problème.

De nombreux problèmes liés au Data Cleansing sont similaires aux problèmes auxquels les archivistes, le personnel administratif de base de données et d’autres personnes sont confrontés dans des processus tels que la maintenance des données, l’exploration de données ciblée et la méthodologie Extract, Transform, Load (ETL), où d’anciennes données sont rechargées dans un nouvel ensemble de données. Ces problèmes concernent souvent la syntaxe et l’utilisation spécifique des commandes pour effectuer des tâches liées dans des technologies de base de données et de serveur telles que SQL ou Oracle. L’administration de bases de données joue un rôle très important dans de nombreuses entreprises et organisations qui dépendent de grands ensembles de données et d’enregistrements précis pour le commerce ou toute autre initiative.

Margaret Rouse

Margaret Rouse est une écrivaine technique primée et enseignante reconnue pour sa capacité à expliquer des sujets techniques complexes à un public non technique et commercial. Au cours des vingt dernières années, ses explications ont été publiées sur les sites Web de TechTarget et elle a été citée comme une autorité dans des articles du New York Times, du Time Magazine, de USA Today, de ZDNet, de PC Magazine et de Discovery Magazine. L'idée que Margaret se fait d'une journée amusante est d'aider les professionnels de l'informatique et des affaires à apprendre à parler leurs langages hautement spécialisés respectifs. Si…