가치함수
어쩌다보니, 기본 개념인 가치 함수에 대한 포스팅을 늦게 작성하게 되었다..ㅎ
하지만 강화학습을 이해하는 데 있어 없어서는 안 될 개념이니 찬찬히 알아보자.
가치함수는 상태가치함수 $V^\pi$와 행동가치함수 $Q^\pi(x_t,u_t)$가 있다.
상태가치함수 $V^\pi$
상태가치 :
- 어떤 상태변수 $x_t$에서 정책 $\pi$에 의해 행동이 가해졌을 때 기대할 수 있는 반환값
- 상태변수 $x_t$에서 정책 $\pi$에 의해 행동이 가해졌을 때 기대할 수 있는 미래 보상의 총 합
\begin{matrix}
V^\pi &=& \mathbb{E}_{\tau_{u_t:u_T \sim p(\tau_{u_t:u_T}|x_t)}}
\left[
\sum\limits_{k=t}^T \gamma^{k-t}r(x_k, u_k)|x_t
\right] \\
&=&
\int_{\tau_{u_t:u_T}}
\left(
\sum\limits_{k=t}^T \gamma^{k-t}r(x_k, u_k)\right)p(\tau_{u_t:u_T}|x_t)d\tau_{u_t:u_\tau}
\end{matrix}
$\tau_{u_t:u_T}$는 어떤 상태변수 $x_t$에서 정책 $\pi$에 의해 생성되는 궤적이다.
📌해당 상태 $x_t$의 중요성과 가치를 평가하는 데 사용된다.
행동가치함수 $Q^\pi(x_t,u_t)$
행동가치
- 어떤 상태변수 x_t에서 행동 u_t를 선택하고 정책 \pi에 의해 행동이 환경에 가해졌을 때 기대할 수 있는 미래 반환값의 기댓값
$$ \begin{matrix} Q^\pi(x_t,u_t) &=& \mathbb{E}{}\tau{x_{t+1}:u_T \ \sim \ p(\tau_{x_{t+1}:u_t}|x_t,u_t)} \left[ \sum\limits_{k=t}^{T}\gamma^{k-t}r(x_k,u_k)|x_t,u_t \right] \\ &=& \int_{\tau_{x_{t+1}:u_T}} \left( \sum\limits_{k=t}^{T}\gamma^{k-t}r(x_k,u_k) \right)p(\tau_{x_{t+1}:u_T}|x_t,u_t)d\tau_{x_{t+1}:u_T} \end{matrix} $$
📌상태와 행동의 조합에 대한 가치를 나타내므로, 어떤 상태에서 어떤 행동을 취할지 결정하는 데 사용된다.
상태가치와 행동가치 함수의 관계
이제 둘의 관계를 알아보자
확률의 연쇄법칙에 의해 아래와 같이 정리할 수 있는데
$$ \begin{matrix} p(\tau_{u_t:u_T}|x_t) &=& p(u_t, \tau_{x_{t+1}:u_T}|x_t) \\ &=& p(\tau_{x_{t+1}:u_T}|x_t,u_t)\pi(u_t|x_t) \end{matrix} $$
이를 상태가치 함수에 대입해보면,
$$ \begin{matrix} V^\pi(x_t)&=& \int_{\tau_{u_t:u_T}} \left( \sum\limits_{k=t}^T \gamma^{k-t}r(x_k, u_k)\right)p(\tau_{u_t:u_T}|x_t)d\tau_{u_t:u_T} \\ &=& \int_{u_t}\int_{\tau_{x_{t+1}:u_T}} \left( \sum\limits_{k=t}^T \gamma^{k-t}r(x_k, u_k)\right)p(\tau_{x_{t+1}:u_T}|x_t,u_t)\pi(u_t|x_t)d\tau_{x_{t+1}:u_T}du_t \\ &=& \int_{u_t} \left[ \int_{\tau_{x_{t+1}:u_T}} \left( \sum\limits_{k=t}^T \gamma^{k-t}r(x_k, u_k)\right)p(\tau_{x_{t+1}:u_T}|x_t,u_t)d\tau_{x_{t+1}:u_T}\right] \pi(u_t|x_t)du_t \\ &=& \int_{u_t}Q^{\pi}(x_t,u_t)\pi(u_t|x_t)du_t \\ &=& \mathbb{E}_{u_t\ \sim\ \pi(u_t|x_t)}\left[Q^{\pi}(x_t,u_t)\right] \end{matrix} $$
이처럼 정리할 수 있다.
그러므로 상태가치는 상태변수 $x_t$에서 선택 가능한 모든 행동 $u_t$에 대한 행동가치의 평균값임을 알 수 있다.
'Data Science > Reinforcement' 카테고리의 다른 글
A3C(Asynchronous advantage actor-critic) 알고리즘 (0) | 2023.07.18 |
---|---|
A2C 알고리즘 (0) | 2023.06.27 |
A2C의 어드밴티지 함수 (0) | 2023.06.20 |
A2C의 배경과 그래디언트의 재구성 (0) | 2023.06.13 |
목적함수 (0) | 2023.05.23 |
댓글