Wat zijn trainingsgegevens?
Trainingsgegevens zijn buitengewoon grote datasets die dienen voor de ontwikkeling van een machine learning (ML) model. Ze stellen ML-algoritmen in staat om te leren hoe ze kenmerken kunnen identificeren die relevant zijn voor specifieke zakelijke doelen en om voorspellingsmodellen te ontwikkelen. In het geval van ML-modellen met supervisie, zijn de trainingsgegevens voorzien van labels. Daarentegen ontbreken labels bij de gegevens die worden gebruikt om ML-modellen zonder supervisie te trainen.
Het concept van het gebruik van trainingsgegevens in machine learning-programma’s is eenvoudig, maar tegelijkertijd van essentieel belang voor de werking van deze technologieën. Trainingsgegevens vormen de initiële dataset die wordt gebruikt om een programma te instrueren hoe het technieken zoals neurale netwerken kan toepassen om te leren en geavanceerde resultaten te produceren. Deze initiële dataset kan worden aangevuld met opvolgende gegevensverzamelingen, die vaak bekend staan als validatie- en testsets.
Trainingsgegevens worden ook wel aangeduid als een trainingsset, trainingsdataset of leerset.
Techopedia legt uit wat trainingsgegevens zijn
De trainingsgegevens vormen het materiaal waarmee de computer leert hoe hij informatie moet verwerken. Machine learning maakt gebruik van algoritmes om het vermogen van het menselijk brein na te bootsen, namelijk het opnemen van verschillende inputs en deze wegen om activaties in de hersenen, in individuele neuronen, te produceren. Kunstmatige neuronen bootsten dit proces grotendeels na met software in de vorm van machine learning en neurale netwerkprogramma’s, die zeer gedetailleerde modellen bieden van hoe onze menselijke denkprocessen werken.
Met dat in gedachten kunnen trainingsgegevens op verschillende manieren worden gestructureerd. Voor sequentiële beslissingsbomen en vergelijkbare algoritmen kunnen dit bijvoorbeeld verzamelingen ruwe tekst of alfanumerieke gegevens zijn die worden geclassificeerd of anderszins bewerkt. In het geval van neurale netwerken die beeldverwerking uitvoeren, bestaat de trainingsset vaak uit grote hoeveelheden afbeeldingen. Het idee is dat, omdat het machine learning-programma zo complex en geavanceerd is, iteratieve training wordt toegepast op elk van die afbeeldingen om uiteindelijk kenmerken, vormen en zelfs onderwerpen zoals mensen of dieren te kunnen herkennen. De trainingsgegevens zijn absoluut essentieel voor dit proces, je kunt ze zien als de “brandstof” die het systeem gebruikt om te functioneren.