Datakwaliteit

Wat is datakwaliteit?

Datakwaliteit, ook wel bekend als gegevenskwaliteit, is de mate waarin een gegeven dataset voldoet aan de behoeften van een gebruiker. Datakwaliteit is een belangrijk criterium om ervoor te zorgen dat datagestuurde beslissingen zo nauwkeurig mogelijk worden genomen.

Gegevens van hoge kwaliteit zijn kwantitatief en gedetailleerd genoeg om ze te kunnen gebruiken waarvoor ze bedoeld zijn. Ze zijn consistent met andere bronnen, worden op de juiste manier gepresenteerd en zijn zeer volledig. Andere belangrijke componenten van datakwaliteit zijn onder andere:

  • Nauwkeurigheid – De mate waarin gegevens gebeurtenissen in de echte wereld accuraat weergeven.
  • Geloofwaardigheid – De mate waarin gegevens als betrouwbaar en waar worden beschouwd.
  • Actualiteit – De mate waarin gegevens voldoen aan de huidige behoeften van de gebruiker.
  • Consistentie – De mate waarin dezelfde gegevens dezelfde waarde hebben in verschillende datasets.
  • Integriteit – De mate waarin alle gegevensreferenties nauwkeurig zijn samengevoegd.

Op dit moment is er geen wereldwijde standaard voor het evalueren en verifiëren van datakwaliteit. In plaats daarvan benaderen de meeste organisaties de verbetering van datakwaliteit op organisatorische of projectbasis, waarbij ze beleid en kaders gebruiken om ervoor te zorgen dat gegevens op de juiste manier worden verzameld, behandeld en verwerkt in alle stadia van de informatie-levenscyclus.

Richtlijnen voor datakwaliteit

Om betrouwbare en bruikbare informatie uit een grote hoeveelheid gegevens te kunnen halen, moeten de gegevens zo volledig en foutloos mogelijk zijn. Wanneer de kwaliteit van gegevens onbetrouwbaar is, kan dit leiden tot slechte beslissingen en verspilling van budget. Als gegevens van slechte kwaliteit worden gebruikt om beslissingen te nemen over bijvoorbeeld een online advertentiecampagne, is het waarschijnlijk een waardevol budget wordt uitgegeven aan consumenten die niet tot de doelgroep behoren.

De kwaliteit van data moet voortdurend worden beoordeeld en opnieuw worden beoordeeld op een iteratieve manier om ervoor te zorgen dat de juiste kwaliteitsniveaus worden gehandhaafd op een acceptabele en transparante manier. Het vereist dat organisaties richtlijnen opstellen voor datakwaliteit voor datamanagers, datamanagers en andere belanghebbenden die de data gebruiken. Dit omvat:

  • Het vroeg en vaak beoordelen van datakwaliteit.
  • Het aannemen van een raamwerk voor het evalueren van datakwaliteit om ervoor te zorgen dat alle aspecten van datakwaliteit consistent worden geëvalueerd en geverifieerd. Datakwaliteitsbeoordelingen (DQA’s) kunnen managers helpen begrijpen hoeveel vertrouwen ze in specifieke datasets moeten hebben.
  • Het beleid voor datakwaliteit periodiek herzien om er zeker van te zijn dat het de nalevingsregels ondersteunt.
  • Een neutrale derde partij inhuren om de datakwaliteit te bewaken. Zoek een partner die zowel de expertise als de middelen heeft om te bepalen welke datasets van hoge kwaliteit zijn en voldoen aan de privacyregels, en welke inherent gebreken vertonen en problemen zullen opleveren.

Het interne datakwaliteitsbeleid moet richtlijnen bevatten voor het invoeren van data, het controleren van bewerkingen, het valideren en controleren van data, het corrigeren van datafouten en het verwijderen van de hoofdoorzaken van datavervuiling. De richtlijnen moeten ook beleid en procedures bevatten voor wijzigingsbeheer, het standaardiseren van gegevensformaten en het oplossen van geschillen over gegevens.

Techopedia legt datakwaliteit uit

Er is een toenemend aantal factoren waarmee rekening moet worden gehouden als het gaat om datakwaliteit en degenen die data gebruiken worden vaak overgelaten aan het evalueren van datakwaliteit op een onsamenhangende ad hoc manier. Het is belangrijk voor organisaties om belanghebbenden uit alle relevante gebieden van een bedrijf te betrekken om overeenstemming te bereiken over het volgende:

  • Hoe wordt de gegevenskwaliteit bewaakt?
  • Welke doelen en doelstellingen kunnen beter worden bereikt als de gegevenskwaliteit wordt verbeterd?
  • Hoe worden de inspanningen om de datakwaliteit te verbeteren geprioriteerd?
  • Wat zijn de risico’s van slechte datakwaliteit met betrekking tot kosten, naleving en productiviteit?
  • Wie zal de verbeteringsinspanningen leiden en coördineren?
  • Hoe worden de verbeteringen in datakwaliteit gemeten, geanalyseerd en gerapporteerd?

Als processen, methoden en procedures onafhankelijk van elkaar worden ontwikkeld voor elke inspanning, loopt de organisatie het risico:

  • Een gebrek aan bewustzijn bij het bedrijfspersoneel over kwaliteitsbehoeften tijdens de gehele levenscyclus van gegevens;
  • Onnodige inspanningen en dubbele kosten;
  • Inefficiënte implementaties (bijvoorbeeld het herhaaldelijk opschonen van data in een downstream data store terwijl de datakwaliteit aan de bron niet wordt verbeterd).

Kwaliteit en naleving van gegevens

Datakwaliteit speelt een belangrijke rol bij privacy compliance. Regelgeving zoals GDPR en COPPA zijn ontworpen om ervoor te zorgen dat consumentengegevens transparant worden verzameld en dat alle persoonlijk identificeerbare informatie op een veilige manier wordt behandeld. Slechte praktijken op het gebied van gegevenskwaliteit, zoals het verzamelen van gegevens zonder de juiste toestemming van de consument, kunnen leiden tot hoge boetes voor niet-naleving.

Wanneer bedrijven gegevens kopen van iemand die data verkoopt, hebben ze geen transparantie over hoe de gegevens zijn verzameld of worden opgeslagen en beveiligd. Door transparanter te zijn over hoe de gegevens zijn verkregen en opgeslagen en de algehele kwaliteit van de gegevens te benadrukken, zullen de werknemers die de gegevens gebruiken meer vertrouwen hebben in de resultaten.

Dit is een belangrijke zakelijke overweging omdat een gebrek aan vertrouwen een negatieve invloed kan hebben op het reputatierisico. Het is nu belangrijker dan ooit dat bedrijven kunnen aantonen dat ze gegevens vooraf op een transparante en veilige manier verzamelen en dat ze gegevens tijdens het transport en na het verzamelen op de juiste manier beveiligen.

Datakwaliteit is in ontwikkeling. Naarmate de privacyregelgeving verder wordt uitgebreid, zal het verifiëren van de gegevenskwaliteit een nog belangrijker onderdeel worden van de bedrijfsvoering. In een grote organisatie kan de planning enkele weken in beslag nemen. In een kleine organisatie kan de strategische planning voor datakwaliteit worden afgerond in een paar korte vergaderingen.

Gerelateerde begrippen

Margaret Rouse

Margaret Rouse is een bekroond technisch schrijver en docent die bekend staat om haar vermogen om complexe technische onderwerpen uit te leggen aan een niet-technisch, zakelijk publiek. In de afgelopen twintig jaar is haar uitleg verschenen op vele websites en is ze als autoriteit aangehaald in artikelen van de New York Times, Time Magazine, USA Today, ZDNet, PC Magazine en Discovery Magazine. Margaret geniet ervan om IT- en business professionals te helpen om elkaars zeer gespecialiseerde talen te begrijpen. Als je een suggestie hebt voor een nieuwe definitie of hoe je een technische uitleg kunt verbeteren, stuur Margaret dan een…