본문 바로가기

분류 전체보기66

A2C의 어드밴티지 함수 3. 분산을 감소시키기 위한 방법 지난번에는 본격적으로 A2C를 들어가기 전에 배경과 그래디언트를 재구성하는 방법을 알아보았다. 이전 포스팅 : A2C의 배경과 그래디언트의 재구성 오늘은 목적함수 그래디언트의 분산을 줄이기 위한 방법을 알아보자. A2C 알고리즘은 다음시간에 알아볼 예정이다.ㅎㅎ 아래는 이전 포스팅에서 정리해 보았던 목적함수 그래디언트 식이다. $$ \begin{matrix} \nabla_\theta J(\theta) &=& \sum_{t=0}^{T}\limits \left( \int_{(x_t, u_t)} \nabla_\theta log\pi_\theta(u_t|x_t)Q^{\pi_\theta}(x_t,u_t)\pi_\theta(u_t|x_t)p_\theta(x_t)dx_tdu_t\ri.. 2023. 6. 20.
A2C의 배경과 그래디언트의 재구성 1. 배경 REINFORCE 알고리즘 단점 정책을 업데이트하기 위해 에피소드가 끝날때까지 기다려야함 그래디언트의 분산이 매우 큼 위의 단점을 개선한 알고리즘이 A2C(advangate actor-critic)이다. 2. 그래디언트의 재구성 $$\begin{matrix} \nabla_\theta J(\theta) &=& \mathbb{E} _{t\sim p_\theta(\tau)} [ \sum_{t=0}^{T}\limits(\gamma^t\nabla_\theta log\pi_\theta(u_t|x_t)(\sum _{k=t}^{T}\limits\gamma^{k-t}r(x_k,u_k))] \\ &=& \sum_{t=0}^{T}\limits \left\{ \mathbb{E} _{t\sim p_\theta(\ta.. 2023. 6. 13.
베타클럽 내가 사는 동네에 꽤 힙한 까페를 찾았다. 힙한 노래와 미니멀한 인테리어 적당히 트인 공간이 아주 마음에 드는 장소다. 다 핑계고, 지금 마시고 있는 치즈라떼가 맛있어서 그런거 같다. 오늘의 마지막 일정이 여기인건 꽤나 맘에드네. 근데 이제 집에 갈래요. 자주 나와서, 자주 들려야지. -베타클럽- 2023. 5. 26.
목적함수 정책 그래디언트의 목표 정책을 파라미터화 누적보상을 파라미터화 된 정책으로 기술 -> 누적 보상과 정책 파라미터 간의 함수 관계 구축 최적화 방법을 통해 누적 보상 관계 함수 최대화 목적함수 반환값의 기댓값으로 이루어진 목적함수 $J$를 최대로 만드는 정책 $\pi(u_t|x_t)$을 구하는 것 정책 신경망(policy neural network) 신경망(neural network)으로 파라미터화한 정책 정책이 $\theta$로 파라미터화 됐다면, $\pi_\theta(u_t|x_t)$로 표기할 수 있다. 목적함수 $J$를 최대로 만드는 정책 파라미터 $\theta^*$를 계산하는 것 $$ \begin{matrix} \theta^* &=& argmax J(\theta)\\ J(\theta) &=& \ma.. 2023. 5. 23.