본문 바로가기

분류 전체보기66

2.1 문제해결전략과 동적계획법 : 강화학습의 수학적 기초와 알고리즘의 이해 강화학습의 수학적 기초와 알고리즘의 이해 강의를 듣고, 정리한 글 임을 밝힙니다. 수학적 귀납법(Mathematical induction) $p_1, p_2, p_3, \dots$ 라는 참 또는 거짓인 명제가 있다고 하자 $p_1$이 참이고, 모든 $n \ge 1$ 에 대해 $p_n$이 참일 때 $p_{n+1}$도 참이라면, $p_1, p_2, \dots$ 모두 참이다 동적계획법(DP)으로 풀기 $$ V(i,j) = min \begin{cases} C_{ij} + V(i,j +1) \\ C_{ij} + V(i + 1, j) \end{cases} $$ 탐욕 알고리즘(Greedy Algorithm) 매 순간 최선의 선택 분할 정복 알고리즘(Divide-and-conquer Algorithm) 문제를 하나 이.. 2022. 11. 1.
1. 강화학습의 이해 : 강화학습의 수학적 기초와 알고리즘의 이해 k-mooc의 강의를 듣고 정리한 글임을 밝힙니다. 강화학습 주어진 상황(State)에서 보상(Reward)을 최대화할 수 있는 행동(Action)에 대해 학습하는 것을 의미한다. 학습 주체(agent)는 환경(Env)에 대해 모르는 상태에서 학습 적합한 행동 학습을 위한 시행착오 필요 (Trial & error) 현재 행동이 미래 순차적 보상에 영향 (delayed reward) 환경과 상호작용을 통해 얻은 보상(reward)으로부터 학습 대표적 EX) 벽돌깨기 게임 상황 / 상태(State) : 현재 벽돌의 상태, 구슬의 위치, 하단 바의 위치 등의 정보 행동(Action) : 상황 정보를 가지고 하단 바를 어떻게 움직일지 결정 보상(Reward) : 어떤 행동을 했을 때 벽돌이 깨지는 양 ex) a.. 2022. 10. 31.
AR, MA : 자기 회귀 모델과 이동 평균 모델 자기 회귀 모델 (AR, Autoregressive Model) 자기 회귀 모델은 변수의 과거 값의 선형 조합을 이용하여 현재 변수의 값을 예측한다. 즉, 과거의 자기 자신 값으로 현재 항을 찾는 모델이다. $$ y_{t} = c + \phi_{1}y_{t-1} + \phi_{2}y_{t-2} + \dots + \phi_{p}y_{t-p} + \varepsilon_{t} $$ $\varepsilon_{t}$ 는 백색 잡음(i.i.d를 따름)을 의미한다 다양한 AR(1) 모델 $$ y_t = c + \phi_1 y_{t-1} + \epsilon_t $$ ⋁ $\phi_1 = 0, \ c=0$ 일 때, $y_t$ : 백색 잡음 ⋁ $\phi_1 = 1,\ c = 0$ 일 때, $y_t$ : 확률 보행 모델 .. 2022. 10. 23.
이해가 안 돼서 다시 공부하는 WHITE NOISE, 정상성, ACF, PACF Time Series Process는 random variable이 각 순간(t)마다 존재하는 프로세스로, stochastic process라고 할 수 있다. 본격적으로 해당 내용에 들어가기 전에 알아두어야 할 통계지식을 보겠다. (깊이 다루진 않을거다..) 📍밑에 접혀 있다📍 더보기 🌱CDF(Cumulative Distribution Function, 누적 분포 함수) 주어진 확률분포에서 확률변수가 특정 값보다 작거나 같은 확률 $$ F_{x}(x) = P(X \le x) $$ 🌱PDF(Probability Density Function, 확률 밀도 함수) 연속적인 변수에 의한 확률분포함수, CDF를 미분하여 구할 수 있다. 이 두 가지 정보를 안다는 것은 어떤 변수에 대해 모든 정보를 아는것과 같다고.. 2022. 10. 10.