Data Science29 강화학습의 키, 가치함수 가치함수 어쩌다보니, 기본 개념인 가치 함수에 대한 포스팅을 늦게 작성하게 되었다..ㅎ 하지만 강화학습을 이해하는 데 있어 없어서는 안 될 개념이니 찬찬히 알아보자. 가치함수는 상태가치함수 $V^\pi$와 행동가치함수 $Q^\pi(x_t,u_t)$가 있다. 상태가치함수 $V^\pi$ 상태가치 : 어떤 상태변수 $x_t$에서 정책 $\pi$에 의해 행동이 가해졌을 때 기대할 수 있는 반환값 상태변수 $x_t$에서 정책 $\pi$에 의해 행동이 가해졌을 때 기대할 수 있는 미래 보상의 총 합 \begin{matrix} V^\pi &=& \mathbb{E}_{\tau_{u_t:u_T \sim p(\tau_{u_t:u_T}|x_t)}} \left[ \sum\limits_{k=t}^T \gamma^{k-t}r(x.. 2023. 6. 21. A2C의 어드밴티지 함수 3. 분산을 감소시키기 위한 방법 지난번에는 본격적으로 A2C를 들어가기 전에 배경과 그래디언트를 재구성하는 방법을 알아보았다. 이전 포스팅 : A2C의 배경과 그래디언트의 재구성 오늘은 목적함수 그래디언트의 분산을 줄이기 위한 방법을 알아보자. A2C 알고리즘은 다음시간에 알아볼 예정이다.ㅎㅎ 아래는 이전 포스팅에서 정리해 보았던 목적함수 그래디언트 식이다. $$ \begin{matrix} \nabla_\theta J(\theta) &=& \sum_{t=0}^{T}\limits \left( \int_{(x_t, u_t)} \nabla_\theta log\pi_\theta(u_t|x_t)Q^{\pi_\theta}(x_t,u_t)\pi_\theta(u_t|x_t)p_\theta(x_t)dx_tdu_t\ri.. 2023. 6. 20. A2C의 배경과 그래디언트의 재구성 1. 배경 REINFORCE 알고리즘 단점 정책을 업데이트하기 위해 에피소드가 끝날때까지 기다려야함 그래디언트의 분산이 매우 큼 위의 단점을 개선한 알고리즘이 A2C(advangate actor-critic)이다. 2. 그래디언트의 재구성 $$\begin{matrix} \nabla_\theta J(\theta) &=& \mathbb{E} _{t\sim p_\theta(\tau)} [ \sum_{t=0}^{T}\limits(\gamma^t\nabla_\theta log\pi_\theta(u_t|x_t)(\sum _{k=t}^{T}\limits\gamma^{k-t}r(x_k,u_k))] \\ &=& \sum_{t=0}^{T}\limits \left\{ \mathbb{E} _{t\sim p_\theta(\ta.. 2023. 6. 13. 목적함수 정책 그래디언트의 목표 정책을 파라미터화 누적보상을 파라미터화 된 정책으로 기술 -> 누적 보상과 정책 파라미터 간의 함수 관계 구축 최적화 방법을 통해 누적 보상 관계 함수 최대화 목적함수 반환값의 기댓값으로 이루어진 목적함수 $J$를 최대로 만드는 정책 $\pi(u_t|x_t)$을 구하는 것 정책 신경망(policy neural network) 신경망(neural network)으로 파라미터화한 정책 정책이 $\theta$로 파라미터화 됐다면, $\pi_\theta(u_t|x_t)$로 표기할 수 있다. 목적함수 $J$를 최대로 만드는 정책 파라미터 $\theta^*$를 계산하는 것 $$ \begin{matrix} \theta^* &=& argmax J(\theta)\\ J(\theta) &=& \ma.. 2023. 5. 23. 이전 1 2 3 4 5 6 ··· 8 다음