¿Qué significa aprendizaje por refuerzo?
El aprendizaje por refuerzo, en el contexto del machine learning y la inteligencia artificial (IA), es un tipo de programación dinámica que entrena algoritmos mediante un sistema de recompensa y castigo.
Un algoritmo de aprendizaje por refuerzo, que también puede denominarse agente, aprende interactuando con su entorno. El agente recibe recompensas por actuar correctamente y castigos por actuar incorrectamente. El agente aprende sin intervención humana maximizando su recompensa y minimizando su penalización.
Definición de aprendizaje por refuerzo
El aprendizaje por refuerzo es un enfoque del aprendizaje automático inspirado en la psicología conductista. Es similar a cómo un niño aprende a realizar una nueva tarea. El aprendizaje por refuerzo contrasta con otros enfoques de aprendizaje automático en que al algoritmo no se le dice explícitamente cómo realizar una tarea, sino que resuelve el problema por sí mismo.
A medida que un agente, que puede ser un coche autoconducido o un programa que juega al ajedrez, interactúa con su entorno, recibe un estado de recompensa en función de su rendimiento, como conducir hasta su destino de forma segura o ganar una partida. A la inversa, el agente recibe una penalización por actuar incorrectamente, como salirse de la carretera o ser jaqueado.
A lo largo del tiempo, el agente toma decisiones para maximizar su recompensa y minimizar su penalización mediante programación dinámica. La ventaja de este enfoque de la inteligencia artificial es que permite que un programa de IA aprenda sin necesidad de que un programador le explique cómo debe realizar la tarea.