bandit algotithm1 1. 강화학습의 이해 : 강화학습의 수학적 기초와 알고리즘의 이해 k-mooc의 강의를 듣고 정리한 글임을 밝힙니다. 강화학습 주어진 상황(State)에서 보상(Reward)을 최대화할 수 있는 행동(Action)에 대해 학습하는 것을 의미한다. 학습 주체(agent)는 환경(Env)에 대해 모르는 상태에서 학습 적합한 행동 학습을 위한 시행착오 필요 (Trial & error) 현재 행동이 미래 순차적 보상에 영향 (delayed reward) 환경과 상호작용을 통해 얻은 보상(reward)으로부터 학습 대표적 EX) 벽돌깨기 게임 상황 / 상태(State) : 현재 벽돌의 상태, 구슬의 위치, 하단 바의 위치 등의 정보 행동(Action) : 상황 정보를 가지고 하단 바를 어떻게 움직일지 결정 보상(Reward) : 어떤 행동을 했을 때 벽돌이 깨지는 양 ex) a.. 2022. 10. 31. 이전 1 다음