De valkuilen van het trainen van AI met verzonnen gegevens

IN HET KORT

Omdat kunstmatige intelligentie (AI) vaak wordt belemmerd door een gebrek aan toegang tot echte gegevens, worden modellen vaak getraind met behulp van door AI gegenereerde gegevens. Hoewel de indrukwekkende mogelijkheden van AI berusten op diepgaand leren van gegevens, wordt vaak gebruik gemaakt van synthetische gegevens, die geen perfecte match zijn, maar wel de meest effectieve methode blijven voor het trainen van AI-modellen in verschillende taken.

AI wordt volwassen en doet zijn intrede in ons leven en op het werk nu de mogelijkheden van een Einstein in je broekzak steeds meer doordringen.

Of het nu gaat om het schrijven van een essay, het maken van complexe kunstwerken, het beoordelen van beleid, het maken van aangepaste code of het schrijven van een toespraak na het eten, AI begint onze manier van werken en leven al te veranderen.

Kunstmatige intelligentie (AI) is echter geheel afhankelijk van data om te doen wat het doet.

Laten we een voorbeeld nemen van de prompt: “Maak voor mij een afbeelding van een roos”. AI moet eerst de verschillende aangeboden gegevens leren kennen voordat het aan de slag gaat.

Ze moet leren over de typische vorm van de roos, de kleuren, het ontwerp, de rangschikking van de bloemblaadjes – alle kenmerken die van een roos een roos maken.

Wat is de bron van de gegevens waarvan het leert? De gegevens worden geleverd door AI-gegenereerde gegevens of synthetische gegevens.

Een kunstmatige intelligentie trainen

Hoewel we ons vandaag richten op het trainen van een AI-systeem met door AI gegenereerde data, wordt een AI-systeem over het algemeen getraind met een mix van door AI gegenereerde en echte data.

Het proces is ontworpen rond de beperkingen van wettelijke, ethische en geheimhoudingsoverwegingen bij het verkrijgen van echte gegevens.

Maar gegevens zijn cruciaal als je realistische AI-systemen wilt genereren – bijvoorbeeld synthetische nieuwslezers – en gezien het gebrek aan echte data wordt het genereren van synthetische gegevens, die echte gegevens nabootsen, van groot belang.

Een AI-systeem kan bijvoorbeeld een gedetailleerd beeld van een cockpit in een vliegtuig genereren, maar het zal niet exact overeenkomen met het beeld van een echte cockpit.

Stap 1: Synthetische gegevens genereren

Het bronsysteem van de AI genereert synthetische data die gebruikt wordt om het bepaalde AI model te trainen, wat een neural network of een ander machine learning algoritme kan zijn.

De synthetische data komt zo dicht mogelijk bij de echte data en stelt het AI-doelsysteem in staat om te leren over het object waar de data over gaat. Het kent dingen als vormen, kleuren en configuratiedetails.

Stap 2: Voorbereiding van trainingsdata

De synthetische data worden gemengd met geschikte data uit de echte wereld. De door AI gegenereerde afbeelding van het dashboard van een cockpit van een vliegtuig wordt bijvoorbeeld gecombineerd met de werkelijke afbeelding van een cockpit dashboard.

Dit is een kans voor het AI-leermodel om te leren van de data. Het kan niet alleen de samenstellende delen van de gegevens identificeren, bijvoorbeeld de brandstofmeter en de hoogtemeter, maar ook onderscheid maken tussen synthetische en echte data.

Stap 3: Het AI-model trainen

Het AI-model leert van de gemengde dataset.

Het doel is bijvoorbeeld om het AI-model te laten leren over verschillende soorten afbeeldingen van honden. Het aanvaardbare antwoord is dat het de namen van de honden kan identificeren en deze kan categoriseren als herdershonden, jachthonden, enz.

Het AI-model levert een beperkte verzameling echte hondenafbeeldingen en een bredere verzameling synthetische data.

Het leermodel bestudeert en begrijpt de verschillende kenmerken en parameters en leert om conclusies en patronen te trekken.

Honden met korte staarten kunnen bijvoorbeeld worden geïdentificeerd als Dobermanns, of honden met opvallende en driehoekige oren als Duitse herders.

Het leermodel leert ook om niet te generaliseren op basis van de parameters. Bijvoorbeeld, Dobermanns hebben korte staarten, maar honden met korte staarten zijn niet allemaal Dobermanns.

Data gebruiken in de echte wereld

Een van de meest opmerkelijke voorbeelden in de echte wereld van AI die wordt getraind door AI-gegenereerde data is PilotNet, het zelfrijdende autoproject van NVIDIA.

PilotNet is een deep learning-systeem dat leert over real-time autorijden op basis van zowel synthetische data als het observeren van menselijke bestuurders die in een speciale auto rijden die is ontworpen om informatie te verzamelen over autorijden, wegomstandigheden, verkeersborden, rijstrookmarkeringen, voertuigen en voetgangers.

Rijden is een complexe taak omdat er zowel vaardigheden als besluitvorming bij komen kijken binnen een extreem korte tijd. Terwijl de menselijke bestuurder de auto bestuurt, verzamelt PilotNet gegevens en wordt de relevante data gemarkeerd als gemarkeerde pixels.

Het deep learning-systeem achter de zelfrijdende auto moet het rijden regelen op basis van de gemarkeerde pixels die verschillende objecten op de weg identificeren, zoals voetgangers, verkeerssignalen en voertuigen.

Voordelen van synthetische data

De belangrijkste voordelen van het trainen van AI met synthetische data zijn:

  • Zoals gezegd is echte data moeilijk te verkrijgen vanwege verschillende beperkingen, waardoor synthetische data de beste keuze is. Hoogwaardige synthetische data die zo dicht mogelijk bij echte data kan komen, zijn de beste leerbron voor AI-leermodellen.
  • Met synthetische data heb je niet de risico’s van schending van vertrouwelijkheid of geheimhouding die je loopt met echte data. Aan echte data, die legaal en met toestemming zijn verkregen, zijn voorwaarden verbonden.
  • Synthetische data maken meerdere scenario’s mogelijk. In een zelfrijdende auto kunnen synthetische gegevens bijvoorbeeld helpen bij het verkennen van het rijden in een drukke straat of op een snelweg – zonder dat je de weg op hoeft.

Beperkingen en problemen

Synthetische data is zowel een voordeel als een beperking, omdat het geen gegevens uit de echte wereld zijn, ongeacht de kwaliteit.

Een AI-model heeft meer tijd nodig om te leren over objecten in de echte wereld met synthetische data.

De kans bestaat dat synthetische data foutieve en bevooroordeelde data bevat, die kunnen leiden tot onbedoelde trainingsresultaten omdat de data niet overeenkomt met echte gebruikssituaties.

Synthetische gegevens over kredietscores en leningaanvragen kunnen bijvoorbeeld verkeerde en bevooroordeelde gegevens tegen specifieke gemeenschappen bevatten of onnauwkeurig zijn, omdat ze niet in overeenstemming zijn met de laatste wijzigingen in de gegevenswetten.

Het resultaat kan niet alleen onbedoeld zijn, maar ook gevaarlijk.

Ondanks de beperkingen is synthetische data nog steeds de beste beschikbare gegevensbron waarop AI-modellen kunnen leren.

Zakelijke organisaties kunnen echter zeer terughoudend zijn met het gebruik van AI in gevoelige toepassingen zoals medische behandelingen, sociale kwesties en kredietaanvragen.

De onderste regel

Het verwerven van gegevens uit de echte wereld lijkt een grote belemmering te zijn bij het leren van AI-modellen, en het verwerven van data kent vele obstakels in vele vormen.

Gezien het feit dat AI opmerkelijke dingen kan doen, moeten grote instellingen zoals overheden, bedrijven en onderzoeksinstituten uitzoeken hoe ze AI-systemen in staat kunnen stellen om realtime data te analyseren en delen te verwijderen die, als ze worden verwerkt, problemen in de echte wereld zouden kunnen veroorzaken.

In de tussentijd is synthetische data – mits zorgvuldig gebruikt – echter beter dan niets.

Gerelateerde begrippen

Kaushik Pal

Kaushik is een technisch architect en software consultant met meer dan 20 jaar ervaring in software analyse, ontwikkeling, softwarearchitectuur, ontwerp, testen en training. Hij is geïnteresseerd in nieuwe technologieën en innovatiegebieden. Hij richt zich op webarchitectuur, webtechnologieën, Java/J2EE, open source, WebRTC, Big Data en semantische technologieën. Kaushik is ook de oprichter van TechAlpine, een technologieblog/consultancy gevestigd in Kolkata. Het team van TechAlpine werkt voor verschillende klanten in India en daarbuiten. Het team heeft expertise in Java/J2EE/Open Source/Web/WebRTC/Hadoop/Big Data technologieën en het schrijven van technische artikels.