상태가치함수1 강화학습의 키, 가치함수 가치함수 어쩌다보니, 기본 개념인 가치 함수에 대한 포스팅을 늦게 작성하게 되었다..ㅎ 하지만 강화학습을 이해하는 데 있어 없어서는 안 될 개념이니 찬찬히 알아보자. 가치함수는 상태가치함수 $V^\pi$와 행동가치함수 $Q^\pi(x_t,u_t)$가 있다. 상태가치함수 $V^\pi$ 상태가치 : 어떤 상태변수 $x_t$에서 정책 $\pi$에 의해 행동이 가해졌을 때 기대할 수 있는 반환값 상태변수 $x_t$에서 정책 $\pi$에 의해 행동이 가해졌을 때 기대할 수 있는 미래 보상의 총 합 \begin{matrix} V^\pi &=& \mathbb{E}_{\tau_{u_t:u_T \sim p(\tau_{u_t:u_T}|x_t)}} \left[ \sum\limits_{k=t}^T \gamma^{k-t}r(x.. 2023. 6. 21. 이전 1 다음