마르코브보상프로세스1 4.3 마르코브 보상 프로세스 : 강화학습의 수학적 기초와 알고리즘의 이해 마르코브 보상 프로세스 마르코브 프로세스에 보상 개념을 도입한 것이다. 보상은 특정상태에 제공하는 인센티브로 볼 수 있다. 누적보상(리턴)에 대한 기대치 계산이 가능하다. ➢ $S$ = 상태집합 ➢ $P$ = 상태전이확률 $P[S_{t+1} = s^\prime | S_t = s]$ ➢ $R$ = 보상(Reward)함수 $R_s = E[R_t | S_t = s]$ ➢ $\gamma$ = 감가율(discounting factor) ➢ 에피소드(episode) ㅤㅤ특정 상태로부터 시작하여 종료 상태까지의 상태-보상 sequence ➢ $G_t$ = 리턴(Return) ㅤㅤt번째 시각 이후의 (감가율이 반영된) 누적 보상 ㅤㅤ에피소드에서 방문했던 상태별로 얻은 보상의 합 $$ \begin{mat.. 2022. 11. 7. 이전 1 다음