강화학습이란?
머신러닝 및 인공지능(AI)의 맥락에서 강화 학습은 보상과 처벌 시스템을 사용하여 알고리즘을 훈련하는 동적 프로그래밍의 한 유형이다.
에이전트라고도 하는 강화학습 알고리즘은 환경과 상호 작용하면서 학습한다. 에이전트는 올바르게 수행하면 보상을 받고, 잘못 수행하면 벌칙을 받는다. 에이전트는 보상을 극대화하고 페널티를 최소화함으로써 사람의 개입 없이 학습한다.
테코피디아가 설명하는 강화학습
강화학습은 행동주의 심리학에서 영감을 얻은 머신 러닝 접근 방식이다. 이는 아이가 새로운 과제를 수행하는 방법을 배우는 것과 유사하다. 강화학습은 알고리즘에 작업 수행 방법을 명시적으로 알려주지 않고 스스로 문제를 해결한다는 점에서 다른 머신 러닝 접근 방식과 대조적이다.
자율 주행 자동차나 체스를 두는 프로그램 등 에이전트는 환경과 상호작용하면서 목적지까지 안전하게 운전하거나 게임에서 승리하는 등의 성과에 따라 보상 상태를 받게 된다. 반대로 에이전트는 도로를 이탈하거나 검문을 받는 등 잘못 수행하면 페널티를 받는다.
에이전트는 시간이 지남에 따라 동적 프로그래밍을 사용하여 보상을 극대화하고 페널티를 최소화하는 결정을 내린다. 이러한 인공지능 접근 방식의 장점은 프로그래머가 에이전트가 어떻게 작업을 수행해야 하는지 설명하지 않아도 인공지능 프로그램이 학습할 수 있다.