[머신러닝] 06. 강화학습 (reinforcement learning)
강좌 출처
아래 링크의 강좌를 학습한 내용입니다.
강화학습
- 더 좋은 결과를 내기 위해 스스로 노력하며 수련하는 것
지도학습 vs. 강화학습
- 지도학습이 배움이라면 강화학습은 경험이다.
- 경험의 결과가 자신에게 유리한 것이었다면 상을 받고 불리한 것이었다면 벌을 받는다.
- 반복하면 할수록 더 많은 보상을 받을 수 있고 더 좋은 답을 찾아낼 수 있다는 것이 강화학습의 기본 아이디어
게임의 실력을 키우는 과정
게임의 실력을 키우는 과정은 강화학습의 과정을 그대로 보여준다.
- 게임은 게이머에게 게임화면을 통해 현재의 상태를 보여준다. (캐릭터의 위치나 장애물의 위치 등등)
- 현재의 점수도 알려준 뒤 게이머에게는 점수가 높아지는 것이 상이고 반대로 점수가 낮아지는 것이 벌이다.
- 플레이(관찰)를 하며 어떻게 하면 더 많은 보상을 얻게 되는지, 또한 더 적은 벌을 받게 되는지 알게 된다.
- 그로 인해 게이머의 판단력이 강화된다.
- 강화된 판단력에 따라 게임을 조작한다.
- 그 조작은 게임에 변화를 가져온다.
게임의 실력을 키우는 과정에서 다음과 같이 단어만 바꿔주면 강화학습의 과정이 된다.
- 게임 \(\rightarrow\) 환경 (environment)
- 게이머 \(\rightarrow\) 에이전트 (agent)
- 게임화면 \(\rightarrow\) 상태 (status)
- 게이머의 조작 \(\rightarrow\) 행동 (action)
- 상과 벌 \(\rightarrow\) 보상 (reward)
- 게이머의 판단력 \(\rightarrow\) 정책 (policy)
더 많은 보상을 받을 수 있는 정책을 만드는 것이 강화학습의 핵심이다.
Leave a comment