Wat betekent ‘Machine Learning’ (ML)?
Machine learning (ML) is de subcategorie van kunstmatige intelligentie (AI) die algoritmische modellen bouwt om patronen en relaties in gegevens te identificeren. In deze context is het woord ‘machine’ een synoniem voor computerprogramma en beschrijft het woord ‘learning’ hoe ML-algoritmen nauwkeuriger worden naarmate ze meer gegevens ontvangen.
Het concept van machine learning is niet nieuw. Echter was de praktische toepassing ervan in het bedrijfsleven financieel niet haalbaar tot de komst van het internet en de recente vooruitgang in big data analytics en cloud computing. Dat komt omdat het trainen van een ML-algoritme om patronen te vinden in gegevens veel rekenkracht en toegang tot big data vereist.
De termen ‘kunstmatige intelligentie’ en ‘machine learning’ worden soms als synoniemen gebruikt. Dit kom omdat, tot recentelijk, de meeste AI-initiatieven klein waren en de meeste ML-modellen werden gebouwd om een enkele taak uit te voeren waarbij ze gebruik maakten van ‘supervised learning’ en grote, gelabelde datasets nodig hadden voor training. Tegenwoordig kan robotische procesautomatisering (RPA) worden gebruikt om de voorbewerking van gegevens te automatiseren en daardoor het trainen van een ML-algoritme veel sneller te laten verlopen.
Techopedia verklaart Machine Learning (ML)
Hoogwaardige modellen voor ML vereisen hoogwaardige trainingsgegevens en toegang tot grote gegevenssets. Zo kunnen ze de kenmerken extraheren die het meest relevant zijn voor specifieke bedrijfsdoelen en daarnaast ook zinvolle associaties onthullen.
Modellen voor Machine Learning
Een machine-learningmodel is simpelweg de output van een ML-algoritme dat is uitgevoerd op gegevens. De stappen die je nodig hebt om een machine-learningmodel te bouwen, zijn onder andere de volgende:
- Verzamel trainingsgegevens.
- Gegevens voorbereiden voor training.
- Beslis welk leeralgoritme te gebruiken.
- Train het leeralgoritme.
- Evalueer de uitvoer van het leeralgoritme.
- Indien nodig, pas de variabelen (hyperparameters) die het trainingsproces regelen aan om de uitvoer te verbeteren.
In een typische ML-omgeving hebben gesuperviseerde algoritmen voor ML een dataset nodig die bestaat uit voorbeelden waarbij elk voorbeeld bestaat uit een invoer en een uitvoer. In een dergelijke omgeving is een typisch doel van het trainen van een ML-algoritme het bijwerken van de parameters van een voorspellend model om ervoor te zorgen dat de beslisbomen van het model consistent de gewenste uitkomsten produceren. Dit is waar entropie om de hoek komt kijken.
Entropie is een wiskundige formule die wordt gebruikt om de wanorde en willekeurigheid in een gesloten systeem te kwantificeren. In machine-learningprojecten is het een belangrijk doel om ervoor te zorgen dat de entropie zo laag mogelijk blijft, omdat deze maat zal bepalen hoe de beslisbomen van het model ervoor zullen kiezen om gegevens op te splitsen.
Machine-learning trainen
Er zijn drie hoofdtypen algoritmen die worden gebruikt om modellen voor ML te trainen: leren onder toezicht, leren zonder toezicht en leren op basis van versterking.
- Supervised learning (gecontroleerd leren) – het algoritme krijgt gelabelde trainingsgegevens (invoer) en krijgt het juiste antwoord te zien (uitvoer). Dit type leeralgoritme gebruikt uitkomsten van historische gegevenssets om uitvoerwaarden te voorspellen voor nieuwe, binnenkomende gegevens.
- Niet-gelabeld leren (leren zonder toezicht)- het algoritme krijgt trainingsgegevens die niet gelabeld zijn. In plaats van te worden gevraagd om de juiste uitvoer te voorspellen, gebruikt dit type leeralgoritme de trainingsgegevens om patronen te detecteren. Dit kan vervolgens worden toegepast op andere groepen gegevens die vergelijkbaar gedrag vertonen. In sommige situaties kan het nodig zijn om tijdens de training een kleine hoeveelheid gelabelde gegevens te gebruiken met een grotere hoeveelheid ongelabelde gegevens. Dit type training wordt vaak aangeduid als ‘semi-supervised machine learning.’
- Versterkend leren – in plaats van trainingsgegevens te krijgen, krijgt het algoritme een beloningssignaal en gaat het op zoek naar patronen in gegevens die de beloning opleveren. De input van dit type leeralgoritme wordt vaak afgeleid van de interactie van het leeralgoritme met een fysieke of digitale omgeving.
Wat veroorzaakt vertekening bij Machine Learning?
Er is een groeiende wens van het grote publiek dat kunstmatige intelligentie – en machine learning algoritmen in het bijzonder – transparant en verklaarbaar zijn. Echter kan algoritmische transparantie voor ML ingewikkelder zijn dan alleen het delen van welk algoritme is gebruikt om een bepaalde voorspelling te doen.
Veel mensen die nieuw zijn met ML zijn verrast om te ontdekken dat het niet de wiskundige algoritmen zijn die geheim zijn; in feite zijn de meeste populaire ML algoritmen die vandaag de dag gebruikt worden vrij beschikbaar. Het zijn dus de trainingsgegevens die gepatenteerde waarde hebben, niet het gebruikte algoritme.
Helaas kunnen de gegevens die worden gebruikt om een leeralgoritme te trainen, aangezien deze door een mens worden geselecteerd, onbedoeld vooroordelen introduceren in het ML-model dat wordt gebouwd. De iteratieve aard van leeralgoritmen kan het ook moeilijk maken voor ‘ML engineers’ om terug te gaan en de logica achter een bepaalde voorspelling te achterhalen.
Als het voor een datawetenschapper of ML-engineer mogelijk is om uit te leggen hoe een specifieke voorspelling tot stand is gekomen, kan een ML-model worden aangeduid als ‘verklaarbare AI’. Als het niet mogelijk is om uit te leggen hoe een specifieke voorspelling tot stand is gekomen – omdat de wiskunde te ingewikkeld wordt of omdat de trainingsgegevens vertrouwelijk zijn – wordt het ML-model aangeduid als ‘black box AI.’
MLops
Machine-learningprojecten staan meestal onder toezicht van datawetenschappers en ML-engineers. Het werk van de datawetenschapper bestaat meestal uit het creëren van een hypothese en het schrijven van code die hopelijk bewijst dat de hypothese waar is. Het werk van een ML engineer richt zich op machine learning operations (MLOps).
Machine learning operations is een aanpak voor het beheren van de volledige levenscyclus van een machine learning model – inclusief de training, afstemming, dagelijks gebruik in een productieomgeving en uiteindelijk buitengebruikstelling. Daarom moeten ML-engineers een goede kennis hebben van datamodellering, feature engineering en programmeren – naast een sterke achtergrond in wiskunde en statistiek.
Idealiter werken datawetenschappers en ML-engineers in dezelfde organisatie samen bij de beslissing welk type leeralgoritme het beste werkt om een bepaald bedrijfsprobleem op te lossen. Echter blijft in sommige bedrijfstakken de taak van de ML-engineer beperkt tot het beslissen welke data moet worden gebruikt voor training en hoe de uitkomsten van machine-learningmodellen moeten worden gevalideerd.
Free Download: AI in the Insurance Industry: 26 Real-World Use Cases |