강화학습

테코피디아 신뢰성

강화학습이란?

머신러닝인공지능(AI)의 맥락에서 강화 학습은 보상과 처벌 시스템을 사용하여 알고리즘을 훈련하는 동적 프로그래밍의 한 유형이다.

에이전트라고도 하는 강화학습 알고리즘은 환경과 상호 작용하면서 학습한다. 에이전트는 올바르게 수행하면 보상을 받고, 잘못 수행하면 벌칙을 받는다. 에이전트는 보상을 극대화하고 페널티를 최소화함으로써 사람의 개입 없이 학습한다.

테코피디아가 설명하는 강화학습

강화학습은 행동주의 심리학에서 영감을 얻은 머신 러닝 접근 방식이다. 이는 아이가 새로운 과제를 수행하는 방법을 배우는 것과 유사하다. 강화학습은 알고리즘에 작업 수행 방법을 명시적으로 알려주지 않고 스스로 문제를 해결한다는 점에서 다른 머신 러닝 접근 방식과 대조적이다.

자율 주행 자동차나 체스를 두는 프로그램 등 에이전트는 환경과 상호작용하면서 목적지까지 안전하게 운전하거나 게임에서 승리하는 등의 성과에 따라 보상 상태를 받게 된다. 반대로 에이전트는 도로를 이탈하거나 검문을 받는 등 잘못 수행하면 페널티를 받는다.

에이전트는 시간이 지남에 따라 동적 프로그래밍을 사용하여 보상을 극대화하고 페널티를 최소화하는 결정을 내린다. 이러한 인공지능 접근 방식의 장점은 프로그래머가 에이전트가 어떻게 작업을 수행해야 하는지 설명하지 않아도 인공지능 프로그램이 학습할 수 있다.

Margaret Rouse
Technology expert
Margaret Rouse
기술 전문가

본 작가는 수상 경력에 빛나는 기술 작가이자 강사로, 복잡한 기술 주제를 비전문가인 비즈니스 청중에게 설명하는 능력으로 유명합니다. 지난 20년 동안 그녀의 설명은 TechTarget 웹사이트에 게재되었으며, 뉴욕 타임즈, 타임 매거진, USA 투데이, ZDNet, PC 매거진, 디스커버리 매거진의 기사에서 권위자로 인용되었습니다. 마가렛은 IT 및 비즈니스 전문가가 서로의 고도로 전문화된 언어를 사용하는 법을 배우도록 돕는 것을 즐겨합니다. 새로운 정의에 대한 제안이 있거나 기술 설명을 개선할 방법이 있으면 다음과 같이 알려주세요. 이메일, LinkedIn, Twitter.