강화학습의 개념
에이전트가 상태와 행동을 통해 환경과 상호작용을 하고, 그에 따라 보상 받는다.
1) 에이전트는 환경의 상태(xt)를 측정한다.
2) 상태를 측정한 환경에서 에이전트의 정책으로 선택한 행동(ut)을 한다.
- 정책이란? 측정된 상태를 바탕으로 최선의 행동을 선택하기 위한 에이전트의 규칙 또는 방법
3) 행동에 의해 환경의 상태는 다음 상태(xt+1)로 전환한다. : State Transition
4) 전환된 상태를 바탕으로 다시 1~3을 반복한다.
5) 환경으로부터 주어지는 즉각적인 보상을 사용해 장기적인 성과를 계산 또는 예측해서 에이전트의 정책을 즉시 혹은 주기적으로 개선한다.
마르코프 결정 프로세스
마르코프 시퀀스(마르코프 성질)
: 미래의 상태를 알기 위해 현재의 상태와 행동정보만 필요하며 과거의 히스토리와는 관계없는 시퀀스라고 할 수 있다.
P(Xk+1|Xk,Kk−1,…)=P(Xk+1|Xk)
해당 개념의 자세한 부분에 대해서는 이미 올려둔 링크를 첨부한다.
마르코프 결정 프로세스
의사결정자(Agent)가 확률 과정을 관찰하고 행동(Action)을 선택함으로써 이후 프로세스에 영향을 미치는 확률 과정을
상태천이 확률밀도함수
라고 할 수 있다.
▶️ 상태천이 확률밀도함수
이 상태천이 확률밀도함수를 미래의 상태가 과거의 상태와 행동에 관계없이 현재의 상태와 행동에만 영향 받도록 정의했기 때문에
마르코프 시퀀스를 사용하는 결정 프로세스인 마르코프 결정 프로세스라고 말할 수 있다.
상태천이 확률밀도함수는 어떤 상태(xt)에서 어떤 행동을 선택했을 때 상태의 변롸를 나타내는, 즉 환경의 변화를 기술하는 함수 -> 환경의 수학적 모델이라고 한다.
▶️ 보상함수 r(xt,ut)
: 어떤 상태에서 에이전트가 행동을 선택했을 때 즉시 받을 수 잇는 보상(랜덤변수, 환경으로부터 주어짐)
▶️ 정책 π(ut|xt)
MDP 문제는 누적된 보상을 가장 많이 획득하기 위해 각 상태에서 어떤 행동을 취할것인가를 나타내는 조건부 확률밀도함수
π(ut|xt)=p(ut|xt)
를 구하는 것이다. π(ut|xt)를 정책이라고 한다.
정책의 정의에 따라 각 상태 변수에서 여러 개의 행동을 선택할 수 있는 가능성이 있다 -> 확률적 정책
아래 그림처럼 MDP가 전개된다.
이러한 순서로 반복적으로 진행되는데, 이를 궤적(trajectory) \tau는 상태변수와 행동의 연속적인 시퀀스로 구성된다.
τ=(x0,u0,x1,u1,…,xT,uT)
- 확률적 MDP : 환경 모델이 상태천이 확률밀도함수로 주어지는 경우
- 확정적 MDP : 환경 모델과 정책이 모두 확정적으로 주어지는 경우
- xt+1=f(xt,ut) : 시간스텝 t에서 상태와 행동이 주어지면 다음 상태를 확정적으로 알 수 있음
- 보상 : r(xt,ut)
- 정책 : ut=π(xt)
▶️ 반환값 G (discounted return)
Gt=r(xt,ut)+γr(xt+1,ut+1)+γ2r(xt+2,ut+2)+⋯+γT−1r(xT,uT) =∑Tk=tγr(xk,uk)
γ는 감가율(discount factor)
- 감가율아 작을수록 가까운 미래에 받을 보상에 더 큰 가중치를 둔다
- 감가율은 T→∞일 때 반환값이 무한대로 발산하는 것을 막는 수학적 장치역할
|Gt|=|∑∞k=tγk−tr(xt,uk)|≤∑∞k=tγk−t|r(xk,uk)|≤rmax∑∞k=tγk=rmax1−r
- 확률적 MDP : 보상이 랜덤변수 -> 반환값도 랜덤변수
- 확정적 MDP : 보상이 확정된 값 -> 반환값도 확정된 값
'Data Science > Reinforcement' 카테고리의 다른 글
A2C의 배경과 그래디언트의 재구성 (0) | 2023.06.13 |
---|---|
목적함수 (0) | 2023.05.23 |
4.3 마르코브 보상 프로세스 : 강화학습의 수학적 기초와 알고리즘의 이해 (0) | 2022.11.07 |
4.1 마르코브 프로세스 개요 : 강화학습의 수학적 기초와 알고리즘의 이해 (2) | 2022.11.02 |
2.2 동적계획법, 중첩되는 부분문제와 역진귀납법 : 강화학습의 수학적기초와 알고리즘의 이해 (0) | 2022.11.01 |
댓글