Wat is reinforcement learning?
Reinforcement learning, in de context van machine learning en kunstmatige intelligentie (AI), is een vorm van dynamisch programmeren waarbij algoritmen worden getraind met behulp van een systeem van beloning en straf.
Een algoritme voor reinforcement learning, dat ook een agent kan worden genoemd, leert door interactie met zijn omgeving. De agent krijgt beloningen als hij goed presteert en straffen als hij fout presteert. De agent leert zonder tussenkomst van een mens door zijn beloning te maximaliseren en zijn straf te minimaliseren.
Techopedia legt reinforcement learning uit
Reinforcement learning is een benadering van machine learning die is geïnspireerd door de gedragspsychologie. Het is vergelijkbaar met hoe een kind leert om een nieuwe taak uit te voeren. Reinforcement learning staat in contrast met andere benaderingen van machine learning omdat het algoritme niet expliciet wordt verteld hoe het een taak moet uitvoeren, maar het probleem zelf doorloopt.
Als een agent, wat een zelfrijdende auto of een schaakprogramma kan zijn, interageert met zijn omgeving, ontvangt hij een beloningsstatus afhankelijk van hoe hij presteert, zoals veilig naar de bestemming rijden of een spel winnen. Omgekeerd krijgt de agent een straf als hij verkeerd presteert, zoals van de weg raken of schaakmat gezet worden.
Na verloop van tijd neemt de agent beslissingen om zijn beloning te maximaliseren en zijn straf te minimaliseren met behulp van dynamisch programmeren. Het voordeel van deze benadering van kunstmatige intelligentie is dat een AI-programma kan leren zonder dat een programmeur voorschrijft hoe een agent de taak moet uitvoeren.