Was ist Verstärkungslernen?
Verstärkungslernen oder auch “operante Konditionierung” ist im Zusammenhang mit maschinellem Lernen und künstlicher Intelligenz (KI) eine Art der dynamischen Programmierung, bei der Algorithmen mithilfe eines Systems aus Belohnung und Bestrafung trainiert werden.
Ein Algorithmus mit Verstärkungslernen, der auch als Agent bezeichnet werden kann, lernt durch Interaktion mit seiner Umgebung. Der Agent erhält Belohnungen für korrektes Verhalten und Bestrafungen für falsches Verhalten. Der Agent lernt ohne das Eingreifen eines Menschen, indem er seine Belohnung maximiert und seine Strafe minimiert.
Techopedia erklärt das Verstärkungslernen
Verstärkungslernen ist ein Ansatz für maschinelles Lernen, der von der behavioristischen Psychologie inspiriert ist. Er ist vergleichbar mit der Art und Weise, wie ein Kind lernt, eine neue Aufgabe auszuführen.
Verstärkungslernen unterscheidet sich von anderen Ansätzen des maschinellen Lernens dadurch, dass dem Algorithmus nicht ausdrücklich gesagt wird, wie er eine Aufgabe ausführen soll, sondern dass er das Problem selbständig löst.
Ein Agent, z. B. ein selbstfahrendes Auto oder ein Schachprogramm, interagiert mit seiner Umgebung und erhält je nach Leistung eine Belohnung, z. B. wenn er sicher zum Ziel fährt oder ein Spiel gewinnt. Umgekehrt erhält der Agent eine Bestrafung für falsches Verhalten, z. B. wenn er von der Straße abkommt oder schachmatt gesetzt wird.
Der Agent trifft im Laufe der Zeit Entscheidungen, um seine Belohnung zu maximieren und seine Strafe zu minimieren, indem er dynamische Programmierung einsetzt. Der Vorteil dieses Ansatzes für die künstliche Intelligenz besteht darin, dass ein KI-Programm lernen kann, ohne dass ein Programmierer vorschreibt, wie der Agent die Aufgabe auszuführen hat.