Processing math: 100%
본문 바로가기

강화학습2

강화학습의 키, 가치함수 가치함수 어쩌다보니, 기본 개념인 가치 함수에 대한 포스팅을 늦게 작성하게 되었다..ㅎ 하지만 강화학습을 이해하는 데 있어 없어서는 안 될 개념이니 찬찬히 알아보자. 가치함수는 상태가치함수 Vπ와 행동가치함수 Qπ(xt,ut)가 있다. 상태가치함수 Vπ 상태가치 : 어떤 상태변수 xt에서 정책 π에 의해 행동이 가해졌을 때 기대할 수 있는 반환값 상태변수 xt에서 정책 π에 의해 행동이 가해졌을 때 기대할 수 있는 미래 보상의 총 합 \begin{matrix} V^\pi &=& \mathbb{E}_{\tau_{u_t:u_T \sim p(\tau_{u_t:u_T}|x_t)}} \left[ \sum\limits_{k=t}^T \gamma^{k-t}r(x.. 2023. 6. 21.
1. 강화학습의 이해 : 강화학습의 수학적 기초와 알고리즘의 이해 k-mooc의 강의를 듣고 정리한 글임을 밝힙니다. 강화학습 주어진 상황(State)에서 보상(Reward)을 최대화할 수 있는 행동(Action)에 대해 학습하는 것을 의미한다. 학습 주체(agent)는 환경(Env)에 대해 모르는 상태에서 학습 적합한 행동 학습을 위한 시행착오 필요 (Trial & error) 현재 행동이 미래 순차적 보상에 영향 (delayed reward) 환경과 상호작용을 통해 얻은 보상(reward)으로부터 학습 대표적 EX) 벽돌깨기 게임 상황 / 상태(State) : 현재 벽돌의 상태, 구슬의 위치, 하단 바의 위치 등의 정보 행동(Action) : 상황 정보를 가지고 하단 바를 어떻게 움직일지 결정 보상(Reward) : 어떤 행동을 했을 때 벽돌이 깨지는 양 ex) a.. 2022. 10. 31.