[머신러닝] 06. 강화학습 (reinforcement learning)

강좌 출처

아래 링크의 강좌를 학습한 내용입니다.

머신러닝1 - 강화학습 Reinforcement Learning

강화학습

  • 더 좋은 결과를 내기 위해 스스로 노력하며 수련하는 것

06_1

지도학습 vs. 강화학습

  • 지도학습이 배움이라면 강화학습은 경험이다.

06_2

  • 경험의 결과가 자신에게 유리한 것이었다면 상을 받고 불리한 것이었다면 벌을 받는다.
  • 반복하면 할수록 더 많은 보상을 받을 수 있고 더 좋은 답을 찾아낼 수 있다는 것이 강화학습의 기본 아이디어

게임의 실력을 키우는 과정

게임의 실력을 키우는 과정은 강화학습의 과정을 그대로 보여준다.

  1. 게임게이머에게 게임화면을 통해 현재의 상태를 보여준다. (캐릭터의 위치나 장애물의 위치 등등)
  2. 현재의 점수도 알려준 뒤 게이머에게는 점수가 높아지는 것이 이고 반대로 점수가 낮아지는 것이 이다.
  3. 플레이(관찰)를 하며 어떻게 하면 더 많은 보상을 얻게 되는지, 또한 더 적은 벌을 받게 되는지 알게 된다.
  4. 그로 인해 게이머의 판단력이 강화된다.
  5. 강화된 판단력에 따라 게임을 조작한다.
  6. 그 조작은 게임에 변화를 가져온다.

게임의 실력을 키우는 과정에서 다음과 같이 단어만 바꿔주면 강화학습의 과정이 된다.

  • 게임 \(\rightarrow\) 환경 (environment)
  • 게이머 \(\rightarrow\) 에이전트 (agent)
  • 게임화면 \(\rightarrow\) 상태 (status)
  • 게이머의 조작 \(\rightarrow\) 행동 (action)
  • 상과 벌 \(\rightarrow\) 보상 (reward)
  • 게이머의 판단력 \(\rightarrow\) 정책 (policy)

더 많은 보상을 받을 수 있는 정책을 만드는 것이 강화학습의 핵심이다.

Leave a comment