Data Science29 강화학습의 개념 강화학습의 개념 에이전트가 상태와 행동을 통해 환경과 상호작용을 하고, 그에 따라 보상 받는다. 1) 에이전트는 환경의 상태($x_t$)를 측정한다. 2) 상태를 측정한 환경에서 에이전트의 정책으로 선택한 행동($u_t$)을 한다. 정책이란? 측정된 상태를 바탕으로 최선의 행동을 선택하기 위한 에이전트의 규칙 또는 방법 3) 행동에 의해 환경의 상태는 다음 상태($x_{t+1}$)로 전환한다. : State Transition 4) 전환된 상태를 바탕으로 다시 1~3을 반복한다. 5) 환경으로부터 주어지는 즉각적인 보상을 사용해 장기적인 성과를 계산 또는 예측해서 에이전트의 정책을 즉시 혹은 주기적으로 개선한다. 마르코프 결정 프로세스 마르코프 시퀀스(마르코프 성질) : 미래의 상태를 알기 위해 현재의 .. 2023. 5. 9. ARIMA : AutoRegressive Integrated Moving Average (이동 평균을 누적한 자기회귀) AR 과 MA 모델의 역동성을 모두 동시에 포괄하는 자기회귀누적이동평균(ARIMA)은 데이터에 나타나는 자기상관(autocorrelation)을 표현하는데 목적이 있다. 이제까지 AR, MA, ARMA모델의 경우 시계열이 정상성이라는 가정이 있는 상황에서 진행했다면, ARIMA모델에서는 차분이라는 개념을 통해 non-stationary한 상황에서 좀 더 나은 예측을 하는 것이 목표다. ARIMA(p,d,q) 모형 d차 차분한 데이터에 위 AR(p) 모형과 MA(q) 모형을 합친 모형으로, 식은 다음과 같다. 💡 차분 : 시계열의 값을 시간에 따른 값의 변화로 바꾸는 것( 비정상성 데이터 → 정상성 데이터) → 현 시점 데이터에서 d시점 이전 데이터를 뺀 것 더보기 차분의 정도 대부분의 데이터가 2차 차분.. 2022. 11. 13. 4.3 마르코브 보상 프로세스 : 강화학습의 수학적 기초와 알고리즘의 이해 마르코브 보상 프로세스 마르코브 프로세스에 보상 개념을 도입한 것이다. 보상은 특정상태에 제공하는 인센티브로 볼 수 있다. 누적보상(리턴)에 대한 기대치 계산이 가능하다. ➢ $S$ = 상태집합 ➢ $P$ = 상태전이확률 $P[S_{t+1} = s^\prime | S_t = s]$ ➢ $R$ = 보상(Reward)함수 $R_s = E[R_t | S_t = s]$ ➢ $\gamma$ = 감가율(discounting factor) ➢ 에피소드(episode) ㅤㅤ특정 상태로부터 시작하여 종료 상태까지의 상태-보상 sequence ➢ $G_t$ = 리턴(Return) ㅤㅤt번째 시각 이후의 (감가율이 반영된) 누적 보상 ㅤㅤ에피소드에서 방문했던 상태별로 얻은 보상의 합 $$ \begin{mat.. 2022. 11. 7. 4.1 마르코브 프로세스 개요 : 강화학습의 수학적 기초와 알고리즘의 이해 강화학습의 수학적 기초와 알고리즘의 이해를 보고 정리한 글임을 밝힙니다. 확률(Probability) 주위에서 발생하는 여러 사건들 → 불확실성 내포 : 이런 불확실성을 표현하는 수단 확률변수 확률분포 → 확률변수가 취하는 값들에 따라 어느 정도의 가능성을 가지고 해당 event가 발생하는지 표현하기 위한 개념 EX) 날씨 X = 1(맑음), 2(흐림), 3(비) : 확률변수 P(X=1) = 0.6, P(X=3) = 0.2, P(X=3) = 0.2 : 확률분포 시간에 따른 날씨 시계열 불확실성 + 내일 날씨와 오늘 날씨의 상관관계 존재 → 시간의 흐름에 따라 불확실성 변동 시간에 따라 확률적으로 변화하는 프로세스를 모델링 하기위한 방법으로 사용하는 것이 무엇일까? 확률과정 (추계적 과정 : Stochas.. 2022. 11. 2. 이전 1 2 3 4 5 6 7 8 다음