Wat betekent Data Cleansing?
Data cleansing is het proces waarbij data in een bepaalde opslagbron worden gewijzigd om ervoor te zorgen dat ze nauwkeurig en correct zijn. Er zijn veel manieren om data op te schonen in verschillende software- en databases; de meeste zijn gericht op het zorgvuldig beoordelen van datassets en de protocollen die horen bij een bepaalde databasetechnologie.
Het opschonen van data wordt ook wel data cleaning of data scrubbing genoemd.
Techopedia legt Data Cleansing uit
Het opschonen van data is een proces waarbij oude of nutteloze gegevens uit een dataset worden verwijderd. Hoewel gegevensopruiming het verwijderen van oude, onvolledige of dubbele gegevens kan omvatten, is het specifiek gericht op het maximaliseren van de nauwkeurigheid van gegevens in een systeem. Een methode voor gegevensopruiming is ‘parsing’, waarbij syntaxisfouten, typografische fouten of fragmenten van gegevens kunnen worden geëlimineerd. Een grondige analyse van een dataset kan onthullen hoe het samenvoegen van meerdere datasets heeft geleid tot duplicaties. In dat geval kan gegevensopruiming worden toegepast om het probleem op te lossen.
Veel uitdagingen bij het opschonen van gegevens vertonen gelijkenissen met kwesties waarmee archivarissen, databasebeheerders en anderen te maken krijgen in processen zoals gegevensonderhoud, gerichte datamining en de ETL-methodologie (extractie, transformatie, laden), waarbij oude gegevens opnieuw worden ingeladen in een nieuwe dataset. Deze problemen hebben vaak betrekking op de syntaxis en het specifieke gebruik van commando’s om verwante taken uit te voeren in database- en servertechnologieën, zoals SQL of Oracle. Databasebeheer speelt een uiterst belangrijke rol in tal van bedrijven en organisaties die afhankelijk zijn van omvangrijke datasets en nauwkeurige gegevens voor handelsdoeleinden of andere initiatieven.