Aprendizaje por refuerzo

Fiabilidad

¿Qué significa aprendizaje por refuerzo?

El aprendizaje por refuerzo, en el contexto del machine learning y la inteligencia artificial (IA), es un tipo de programación dinámica que entrena algoritmos mediante un sistema de recompensa y castigo.

Un algoritmo de aprendizaje por refuerzo, que también puede denominarse agente, aprende interactuando con su entorno. El agente recibe recompensas por actuar correctamente y castigos por actuar incorrectamente. El agente aprende sin intervención humana maximizando su recompensa y minimizando su penalización.

Definición de aprendizaje por refuerzo

El aprendizaje por refuerzo es un enfoque del aprendizaje automático inspirado en la psicología conductista. Es similar a cómo un niño aprende a realizar una nueva tarea. El aprendizaje por refuerzo contrasta con otros enfoques de aprendizaje automático en que al algoritmo no se le dice explícitamente cómo realizar una tarea, sino que resuelve el problema por sí mismo.

A medida que un agente, que puede ser un coche autoconducido o un programa que juega al ajedrez, interactúa con su entorno, recibe un estado de recompensa en función de su rendimiento, como conducir hasta su destino de forma segura o ganar una partida. A la inversa, el agente recibe una penalización por actuar incorrectamente, como salirse de la carretera o ser jaqueado.

A lo largo del tiempo, el agente toma decisiones para maximizar su recompensa y minimizar su penalización mediante programación dinámica. La ventaja de este enfoque de la inteligencia artificial es que permite que un programa de IA aprenda sin necesidad de que un programador le explique cómo debe realizar la tarea.

Temas relacionados

Margaret Rouse
Technology expert
Margaret Rouse
Experta en tecnología

Margaret Rouse es una galardonada escritora técnica y profesora conocida por su habilidad para explicar temas técnicos complejos a una audiencia de negocios no técnica. Durante los últimos veinte años, sus explicaciones han aparecido en sitios web de TechTarget y ha sido citada como autoridad en artículos del New York Times, Time Magazine, USA Today, ZDNet, PC Magazine y Discovery Magazine. La idea de diversión de Margaret es ayudar a profesionales de TI y negocios a aprender a hablar los idiomas altamente especializados de cada uno. Si tienes una sugerencia para una nueva definición o cómo mejorar una explicación técnica,…