A2C1 A2C의 어드밴티지 함수 3. 분산을 감소시키기 위한 방법 지난번에는 본격적으로 A2C를 들어가기 전에 배경과 그래디언트를 재구성하는 방법을 알아보았다. 이전 포스팅 : A2C의 배경과 그래디언트의 재구성 오늘은 목적함수 그래디언트의 분산을 줄이기 위한 방법을 알아보자. A2C 알고리즘은 다음시간에 알아볼 예정이다.ㅎㅎ 아래는 이전 포스팅에서 정리해 보았던 목적함수 그래디언트 식이다. $$ \begin{matrix} \nabla_\theta J(\theta) &=& \sum_{t=0}^{T}\limits \left( \int_{(x_t, u_t)} \nabla_\theta log\pi_\theta(u_t|x_t)Q^{\pi_\theta}(x_t,u_t)\pi_\theta(u_t|x_t)p_\theta(x_t)dx_tdu_t\ri.. 2023. 6. 20. 이전 1 다음