Data Science/Reinforcement13 PPO(Proximal Policy Optimization) 알고리즘의 탄생배경과 목적함수 그래디언트 6.1 배경 A2C 개선점 REINFORCE 알고리즘의 단점인 mc 업데이트 문제, 목적함수 gradient의 분산 커진 점 개선 단점 on-policy policy로 실행시킨 sample 필요 → 효율성 떨어짐 정책 gradient를 이용하므로 파라미터 변화량이 작더라도 정책 자체는 크게 변할 수 있음 → 점진적 업데이트 필요 6.2 그래디언트의 재구성 A2C의 그래디언트 On-policy πθ(정책)로 발생시킨 샘플을 이용한 기댓값 계산 → 정책 업데이트 → 정책을 업데이트하면 이전 정책의 샘플을 폐기 후 업데이트 된 정책으로 새로운 샘플 발생 ❖ off-policy의 장점 다른 정책으로 발생시킨 샘플도 사용 가능 확률밀도함수 p(x)에 기반한 함수 f(x)의 기댓값을 다른 확률밀도.. 2023. 9. 5. A3C(Asynchronous advantage actor-critic) 알고리즘 A3C(Asynchronous advantage actor-critic) A2C의 한계 [장점] 샘플이 모이는 대로 바로 정책을 업데이트 할 수 있음 그래디언트의 분산을 줄임 [단점] 정책과 가치함스를 학습시킬 때 사용하는 샘플이 시간적으로 상관되어 있음 시간의 흐름에 따른 순차적 수집 순차적으로 모인 샘플만으로 정책 업데이트 → 상관관계 커짐 → 목적함수의 그래디언트를 편향시키고 학습을 불안정하게 만듬 서로 유사한 데이터는 유사한 방향으로 신경망 업데이트 비동기 A2C → A3C(Asynchronous advantage actor-critic) 그래디언트 계산 문제 어드밴티지 액터-크리틱(A2C)에서 사용한 목적함수의 그래디언트 식을 샘플링 기법을 이용하여 근사적으로 계산하면 아래처럼 쓸 수 있다. $.. 2023. 7. 18. A2C 알고리즘 A2C 알고리즘 목적함수 그래디언트는 샘플링 기법을 이용하면 다음과 같이 근사적으로 계산할 수 있다. M = 에피소드 개수, m = 에피소드 인덱스 ∇θJ(θ)≈M∑t=0[1MM∑m=1(∇θlogπθ(u(m)t|x(m)t)Aπθ(x(m)t,u(m)t))] 어드밴티지 함수를 계산하기 위해 행동가치 함수의 식을 이용해 보자 $$ Q^\pi(x_t,u_t) = r(x_t,u_t) + \mathbb{E}{x{t+1} \ \sim \ p(x_{t+1}|.. 2023. 6. 27. 강화학습의 키, 가치함수 가치함수 어쩌다보니, 기본 개념인 가치 함수에 대한 포스팅을 늦게 작성하게 되었다..ㅎ 하지만 강화학습을 이해하는 데 있어 없어서는 안 될 개념이니 찬찬히 알아보자. 가치함수는 상태가치함수 Vπ와 행동가치함수 Qπ(xt,ut)가 있다. 상태가치함수 Vπ 상태가치 : 어떤 상태변수 xt에서 정책 π에 의해 행동이 가해졌을 때 기대할 수 있는 반환값 상태변수 xt에서 정책 π에 의해 행동이 가해졌을 때 기대할 수 있는 미래 보상의 총 합 \begin{matrix} V^\pi &=& \mathbb{E}_{\tau_{u_t:u_T \sim p(\tau_{u_t:u_T}|x_t)}} \left[ \sum\limits_{k=t}^T \gamma^{k-t}r(x.. 2023. 6. 21. 이전 1 2 3 4 다음