Processing math: 100%
본문 바로가기
Data Science/Reinforcement

강화학습의 개념

by hyelog 2023. 5. 9.

강화학습의 개념

에이전트가 상태와 행동을 통해 환경과 상호작용을 하고, 그에 따라 보상 받는다.

1) 에이전트는 환경의 상태(xt)를 측정한다.
2) 상태를 측정한 환경에서 에이전트의 정책으로 선택한 행동(ut)을 한다.

  • 정책이란? 측정된 상태를 바탕으로 최선의 행동을 선택하기 위한 에이전트의 규칙 또는 방법

3) 행동에 의해 환경의 상태는 다음 상태(xt+1)로 전환한다. : State Transition
4) 전환된 상태를 바탕으로 다시 1~3을 반복한다.
5) 환경으로부터 주어지는 즉각적인 보상을 사용해 장기적인 성과를 계산 또는 예측해서 에이전트의 정책을 즉시 혹은 주기적으로 개선한다.

마르코프 결정 프로세스

마르코프 시퀀스(마르코프 성질)

: 미래의 상태를 알기 위해 현재의 상태와 행동정보만 필요하며 과거의 히스토리와는 관계없는 시퀀스라고 할 수 있다.
P(Xk+1|Xk,Kk1,)=P(Xk+1|Xk)
해당 개념의 자세한 부분에 대해서는 이미 올려둔 링크를 첨부한다.

마르코프 결정 프로세스

의사결정자(Agent)가 확률 과정을 관찰하고 행동(Action)을 선택함으로써 이후 프로세스에 영향을 미치는 확률 과정을

상태천이 확률밀도함수

라고 할 수 있다.

▶️ 상태천이 확률밀도함수

이 상태천이 확률밀도함수를 미래의 상태가 과거의 상태와 행동에 관계없이 현재의 상태와 행동에만 영향 받도록 정의했기 때문에
마르코프 시퀀스를 사용하는 결정 프로세스인 마르코프 결정 프로세스라고 말할 수 있다.

상태천이 확률밀도함수는 어떤 상태(xt)에서 어떤 행동을 선택했을 때 상태의 변롸를 나타내는, 즉 환경의 변화를 기술하는 함수 -> 환경의 수학적 모델이라고 한다.

▶️ 보상함수 r(xt,ut)

: 어떤 상태에서 에이전트가 행동을 선택했을 때 즉시 받을 수 잇는 보상(랜덤변수, 환경으로부터 주어짐)

▶️ 정책 π(ut|xt)

MDP 문제는 누적된 보상을 가장 많이 획득하기 위해 각 상태에서 어떤 행동을 취할것인가를 나타내는 조건부 확률밀도함수
π(ut|xt)=p(ut|xt)
를 구하는 것이다. π(ut|xt)를 정책이라고 한다.

정책의 정의에 따라 각 상태 변수에서 여러 개의 행동을 선택할 수 있는 가능성이 있다 -> 확률적 정책

아래 그림처럼 MDP가 전개된다.

image

이러한 순서로 반복적으로 진행되는데, 이를 궤적(trajectory) \tau는 상태변수와 행동의 연속적인 시퀀스로 구성된다.
τ=(x0,u0,x1,u1,,xT,uT)

  • 확률적 MDP : 환경 모델이 상태천이 확률밀도함수로 주어지는 경우
  • 확정적 MDP : 환경 모델과 정책이 모두 확정적으로 주어지는 경우
    • xt+1=f(xt,ut) : 시간스텝 t에서 상태와 행동이 주어지면 다음 상태를 확정적으로 알 수 있음
    • 보상 : r(xt,ut)
    • 정책 : ut=π(xt)

▶️ 반환값 G (discounted return)

Gt=r(xt,ut)+γr(xt+1,ut+1)+γ2r(xt+2,ut+2)++γT1r(xT,uT) =Tk=tγr(xk,uk)

γ는 감가율(discount factor)

  • 감가율아 작을수록 가까운 미래에 받을 보상에 더 큰 가중치를 둔다
  • 감가율은 T일 때 반환값이 무한대로 발산하는 것을 막는 수학적 장치역할

|Gt|=|k=tγktr(xt,uk)|k=tγkt|r(xk,uk)|rmaxk=tγk=rmax1r

  • 확률적 MDP : 보상이 랜덤변수 -> 반환값도 랜덤변수
  • 확정적 MDP : 보상이 확정된 값 -> 반환값도 확정된 값

댓글