Dataset

Wat is een dataset?

Een dataset is een gestructureerde verzameling gegevenspunten met betrekking tot een bepaald onderwerp. Een verzameling gerelateerde datasets wordt een database genoemd.

Gegevenssets kunnen in tabelvorm of niet in tabelvorm voorkomen. Gegevenssets in tabelvorm bevatten gestructureerde gegevens die zijn georganiseerd door rijen en kolommen. Datasets zonder tabellen bevatten ongestructureerde gegevens tussen haakjes.

Gegevenssets kunnen ook worden gecategoriseerd op basis van het type informatie dat ze bevatten. Populaire soorten datasets zijn onder andere:

  • Numeriek – gegevens worden uitgedrukt in getallen en niet in natuurlijke taal.
  • Bivariaat – bevat twee soorten verwante gegevens.
  • Multivariaat – bevat drie of meer dan drie typen verwante gegevens.
  • Categorisch – gegevensvariabelen kunnen een of twee waarden hebben.
  • Correlatie – waarden in de gegevensreeks hebben een relatie met elkaar.

Techopedia verklaart dataset

In de computerwereld is de term dataset ontstaan bij IBM mainframes, waar de betekenis vergelijkbaar was met die van bestand. Tegenwoordig wordt de term vaak geassocieerd met big data analytics, machine learning (ML) en kunstmatige intelligentie (AI).

Machine learning

Er zijn grote datasets nodig om algoritmen voor machine learning te trainen. Na de initiële training worden aanvullende datasets gebruikt om te controleren op overfitting en om het vermogen van het model om nieuwe gegevens nauwkeurig te interpreteren te valideren.

Datasets voor het trainen van algoritmen voor machine learning kunnen intern worden gemaakt of worden verkregen uit een datasetarchief. Als er geen grote datasets beschikbaar zijn, kunnen datawetenschappers kleinere datasets gebruiken die door middel van willekeurige steekproeven zijn gemaakt.

Gemiddelde, mediaan, modus

De labels gemiddelde, mediaan en modus zijn metingen van de centrale tendens van een dataset. Het concept van centrale tendens is om de inhoud van een grote dataset weer te geven met een enkele waarde die de middelste verdeling van de dataset aangeeft.

Het gemiddelde wordt gevonden door alle getallen in de gegevensreeks op te tellen en de som te delen door het aantal waarden in de reeks. De mediaan is de middelste waarde van een gegevensverzameling die is gerangschikt van minst naar hoogst. De modus is het getal dat het vaakst voorkomt in een gegevensreeks.

Gerelateerde begrippen

Margaret Rouse

Margaret Rouse is een bekroond technisch schrijver en docent die bekend staat om haar vermogen om complexe technische onderwerpen uit te leggen aan een niet-technisch, zakelijk publiek. In de afgelopen twintig jaar is haar uitleg verschenen op vele websites en is ze als autoriteit aangehaald in artikelen van de New York Times, Time Magazine, USA Today, ZDNet, PC Magazine en Discovery Magazine. Margaret geniet ervan om IT- en business professionals te helpen om elkaars zeer gespecialiseerde talen te begrijpen. Als je een suggestie hebt voor een nieuwe definitie of hoe je een technische uitleg kunt verbeteren, stuur Margaret dan een…