Time Series Process는 random variable이 각 순간(t)마다 존재하는 프로세스로, stochastic process라고 할 수 있다.
본격적으로 해당 내용에 들어가기 전에 알아두어야 할 통계지식을 보겠다. (깊이 다루진 않을거다..)
📍밑에 접혀 있다📍
🌱CDF(Cumulative Distribution Function, 누적 분포 함수)
주어진 확률분포에서 확률변수가 특정 값보다 작거나 같은 확률
$$ F_{x}(x) = P(X \le x) $$
🌱PDF(Probability Density Function, 확률 밀도 함수)
연속적인 변수에 의한 확률분포함수, CDF를 미분하여 구할 수 있다.
이 두 가지 정보를 안다는 것은 어떤 변수에 대해 모든 정보를 아는것과 같다고 할 수 있다.
하지만 3개 이상의 변수에서 CDF를 구하려면 매우 어렵거나, 현실적으로 불가능하다.
예를 들어,
50번을 키고 끌 수 있는 전구가 있다면 그 전구의 수명에 대해 설명하기 위해서는 50번을 관찰해야 한다.
만약 관찰 대상이 위의 전구와 50번의 수명을 가진 다른 전구로(총 2개) 증가한다면
이 현상을 설명하는 모든 정보를 알기 위해 50 X 50 = 2500 번의 관찰을 해야한다.
즉, 변수가 많아질수록 정보를 파악하기 어렵다는 것을 의미한다.
🌱Covariance(공분산)
두 변수가 얼마나 선형적(linear)으로 연관되어 있는지를 의미하는 값
$$ \begin{matrix} COV[X,Y] &=& E[(X-E(X)(Y-E(Y)]\\ &=&E[XY]-E[X]E[Y] \end{matrix} $$
이차 함수의 경우, x와 y가 독립적이지 않음에도 선형성을 찾아 내지 못한다.
이러한 관계를 확인하기 위해 다음의 correlation을 구한다.
🌱Correlation(상관성)
normalize된 covariance로 1차 선형관계를 의미하는 값
$$ -1 \le \rho_{XY} = Corr(X,Y) = {Cov(X,Y)\over\sqrt{Var(x)}\sqrt{Var(y)}} \le 1 $$
🌱Joint distribution(결합확률분포)
두 개 이상의 확률변수에 대한 확률분포
🧷WHITE NOISE(백색잡음)
이 세가지 조건을 만족하는 time series process를 백색잡음이라고 부른다.
$$ a_t\sim WhiteNoise(0,\sigma_a^2) $$
1️⃣ We assume it is uncorrelated
- $ Cov(a_{t},a_s) = 0 \ (t\ne s) $
*t, s는 시점 값
2️⃣ $ E[a_t] = 0 $
3️⃣ $ Var[a_t] = \sigma^2 $
더해 백색잡음은 대체로 $iid$를 따른다.
여기서 $iid$는
- $i$ : independet -> 독립이고,
- $id$ : identically distribution -> 동일한 확률분포를 따른다
는 것을 의미한다.
최종적으로,
$$ a_t\sim ^{iid} N(0,\sigma^2) $$
위의 수식처럼 작성할 수 있다.
그림으로 보면 정규분포선 위에 있는 빨간 점들이 각각의 백색잡음의 변수가 될 것이다.
🧷정상성(Stationary)
stationary를 영한사전에서 찾아보면 아래와 같이 '변하지 않는' 이라는 뜻을 갖는 것을 알 수 있다.
우리는 위에 cdf와 pdf를 설명할때 이야기 했듯이 많은 시계열 모형들의 모든 정보를 다 분석하지 못한다.
모형이 너무 많아 다루기 어렵기 때문이다.
그래서 변하지 않는 것만 같은(다루기 쉬운) 특정한 성질을 가진 time series 모형을 가정하여 분석한다.
이때 그 성질을 정상성이라고 부른다.
그렇다면 시계열에서 stationary한 것은 어떤 것을 의미할까?
$X_t$ is stationary ↔ $X_t$'s joint distribution does not change
$X_t$ is stationary ↔ $X_t$의 결합확률분포가 변하지 않는다
$X_t$ is stationary ↔ $X_t$의 확률적 성질이 변하지 않는다
를 의미한다.
정상성을 정의하는데는 2가지 방법이 있다.
1. Strict Stationary(강정상성)
$t_1, t_2, ..., t_n$의 변수 x에 대한 joint distribution(결합확률밀도함수)과 h만큼의 시간 축을 이동시켜 구한 변수 x에 대한
joint distribution이 동일 하다면 강정상성을 가진다고 말할 수 있다.
위처럼 수식이 성립한다는 것은
$$ Cov(X_t, X_s) = Cov(X_{t+h}, X_{s+h}) $$
와 같은 수식으로 표현할 수 있고,
이는 t시점과 s시점의 선형적인 관계와 t+h시점과 s+h시점의 선형적인 관계와 같다는 것을 의미한다.
하지만 분포에 대한 조건(결합확률밀도함수에 대한 개념이므로)이 동일해야하는 이 정의는
현실적으로 성립하기가 어렵다.
2. Weak Stationary(약정상성)
일반적으로 적용할 수 있는 약정상성의 정의가 나오게 되고,
우리가 흔히 말하는 정상적이다의 의미는 약정상성의 조건을 만족하는 시계열 모형을 의미한다.
1️⃣ $ E[X_t]\ $ is constant (상수이고,)
2️⃣ $ Cov(X_t, X_s) = Cov(X_{t+h}, X_{s+h}) $ for all s, t (선형적인 관계가 같은 경우)
$X_t$ has $Cov(X_t, X_{t+h})$
h(lag)에 의존적이며, t(시간)에 비의존적이다.
<Auto-Covariance Func>
$$ \gamma_x(h) = Cov(X_t, X_{t+h}) $$
잠깐, 생각해 보자. 그렇다면 백색 잡음은 정상성을 띄는가?
- $ E[a_t]=0 $ (평균이 일정하고,)
- $ Cov[a_t, a_s](=0) = Cov[a_{t+h}, a_{s+h}](=0) $ (어떠한 추세도 관측되지 않고,)
- $ Var(a_t) = Var(a_{t+h}) = \sigma_a^2 $ (분산이 일정하다.)
따라서, 정상성을 띄는 것을 확인할 수 있다.
🧷ACF(Autocorrelation Function)
한 변수 내 시간의 흐름에 따라 독립적이지 않고, 영향을 주는 관계를 자기상관관계라고 한다
x와 y관계 처럼 시계열에서는 과거와 현재 관계를 파악하기 위해 auto-covariance와 auto-correlation을 파악한다.
정상성에서 확인 했듯이 covariance 함수에서 유도할 수 있는데,
correlation이 covariance를 normalize한 값이므로
함수단에서도 동일한 방법으로 구할 수 있다.
$$ -1\le \rho_x(h) = {\gamma_x(h) \over \sqrt{\gamma_x(0)}\sqrt{\gamma_x(0)}} = {\gamma_x(h) \over \gamma_x(0)} \le 1 $$
$ \sqrt{\gamma_x(0)}\ \blacktriangleright \sqrt{Var(x)} $ 의 역할을 하는데,
lag가 0이면, Auto-Covariance함수의 공식에 의해 $X_t^2$의 평균이 되므로 분산을 의미하게 된다.
자주 사용되는 중요한 특징을 살펴보면,
1️⃣ $ \left\vert \gamma(h) \right\vert \le \gamma(0) $
2️⃣ $ \gamma(h) = \gamma(-h) $
🧷PACF(Partial Autocorrelation Function)
여기서 partial이 의미하는 바는 conditional이다.
그러므로 PACF는 conditional autocorrelation function이라고 볼 수 있는 것이다.
이는 시간의 효과를 제거한 상관 계수로서 추세(trend)를 제거한 통계량을 볼 수 있다.
🧵 REF
https://datalabbit.tistory.com/113?category=1146956
[시계열분석] 부분자기상관함수(Partial Autocovariance Function, PACF)
Review 참고 포스팅 : 2021.07.12 - [Statistics/Time Series Analysis] - [시계열분석] 자기상관함수(AutoCovariance Function; ACF) [시계열분석] 자기상관함수(AutoCovariance Function; ACF) 안녕하십니까, 간..
datalabbit.tistory.com
http://www.kocw.net/home/cview.do?cid=d4e25cf0521ac386
시계열 분석
이 과목에서는 시계열 분석의 기본 분석 방법을 소개하고 univariate의 ARMA/ARIMA 모형, (G)ARCH 모형, 예측, 모델 선택 등에 대한 내용을 다룬다.
www.kocw.net
'Data Science > TimeSeries' 카테고리의 다른 글
시계열 클러스터링의 방법들 (0) | 2023.12.24 |
---|---|
ARIMA : AutoRegressive Integrated Moving Average (이동 평균을 누적한 자기회귀) (0) | 2022.11.13 |
AR, MA : 자기 회귀 모델과 이동 평균 모델 (1) | 2022.10.23 |
[실전 시계열 분석] 정상성, 자기상관, 허위상관 (0) | 2022.09.25 |
[실전 시계열 분석] 시계열 데이터 정리하기 (1) | 2022.09.25 |
댓글