본문 바로가기
Data Science/TimeSeries

이해가 안 돼서 다시 공부하는 WHITE NOISE, 정상성, ACF, PACF

by hyelog 2022. 10. 10.

Time Series Process는 random variable이 각 순간(t)마다 존재하는 프로세스로, stochastic process라고 할 수 있다.

 

본격적으로 해당 내용에 들어가기 전에 알아두어야 할 통계지식을 보겠다. (깊이 다루진 않을거다..)

📍밑에 접혀 있다📍

더보기

🌱CDF(Cumulative Distribution Function, 누적 분포 함수)

주어진 확률분포에서 확률변수가 특정 값보다 작거나 같은 확률

$$ F_{x}(x) = P(X \le x) $$

🌱PDF(Probability Density Function, 확률 밀도 함수)

연속적인 변수에 의한 확률분포함수, CDF를 미분하여 구할 수 있다.

 

이 두 가지 정보를 안다는 것은 어떤 변수에 대해 모든 정보를 아는것과 같다고 할 수 있다.

하지만 3개 이상의 변수에서 CDF를 구하려면 매우 어렵거나, 현실적으로 불가능하다.

예를 들어,

50번을 키고 끌 수 있는 전구가 있다면 그 전구의 수명에 대해 설명하기 위해서는 50번을 관찰해야 한다.

만약 관찰 대상이 위의 전구와 50번의 수명을 가진  다른 전구로(총 2개) 증가한다면

이 현상을 설명하는 모든 정보를 알기 위해 50 X 50 = 2500 번의 관찰을 해야한다.

즉, 변수가 많아질수록 정보를 파악하기 어렵다는 것을 의미한다.

 

🌱Covariance(공분산)

두 변수가 얼마나 선형적(linear)으로 연관되어 있는지를 의미하는 값

$$ \begin{matrix} COV[X,Y] &=& E[(X-E(X)(Y-E(Y)]\\ &=&E[XY]-E[X]E[Y] \end{matrix} $$

이차 함수의 경우, x와 y가 독립적이지 않음에도 선형성을 찾아 내지 못한다. 

이러한 관계를 확인하기 위해 다음의 correlation을 구한다.

 

🌱Correlation(상관성)

normalize된 covariance로 1차 선형관계를 의미하는 값

$$ -1 \le \rho_{XY} = Corr(X,Y) = {Cov(X,Y)\over\sqrt{Var(x)}\sqrt{Var(y)}} \le 1 $$

 

🌱Joint distribution(결합확률분포)

두 개 이상의 확률변수에 대한 확률분포

 

🧷WHITE NOISE(백색잡음)

 

이 세가지 조건을 만족하는 time series process를 백색잡음이라고 부른다.

$$ a_t\sim WhiteNoise(0,\sigma_a^2) $$

1️⃣ We assume it is uncorrelated

  • $ Cov(a_{t},a_s) = 0 \ (t\ne s) $
    *t, s는 시점 값

2️⃣ $ E[a_t] = 0 $

3️⃣ $ Var[a_t] = \sigma^2 $

 

더해 백색잡음은 대체로 $iid$를 따른다

여기서 $iid$는 

  • $i$ : independet -> 독립이고,
  • $id$ : identically distribution -> 동일한 확률분포를 따른다

는 것을 의미한다. 

 

 

최종적으로, 

$$ a_t\sim ^{iid} N(0,\sigma^2) $$

위의 수식처럼 작성할 수 있다.

그림으로 보면 정규분포선 위에 있는 빨간 점들이 각각의 백색잡음의 변수가 될 것이다.

 

 

🧷정상성(Stationary)

stationary를 영한사전에서 찾아보면 아래와 같이 '변하지 않는' 이라는 뜻을 갖는 것을 알 수 있다. 

stationary 검색결과

우리는 위에 cdf와 pdf를 설명할때 이야기 했듯이 많은 시계열 모형들의 모든 정보를 다 분석하지 못한다.

모형이 너무 많아 다루기 어렵기 때문이다.

그래서 변하지 않는 것만 같은(다루기 쉬운) 특정한 성질을 가진 time series 모형을 가정하여 분석한다.

이때 그 성질을 정상성이라고 부른다.

 

그렇다면 시계열에서 stationary한 것은 어떤 것을 의미할까?

 

$X_t$ is stationary ↔ $X_t$'s joint distribution does not change

$X_t$ is stationary  $X_t$의 결합확률분포가 변하지 않는다

$X_t$ is stationary  $X_t$의 확률적 성질이 변하지 않는다

를 의미한다.

 

정상성을 정의하는데는 2가지 방법이 있다.

 

1. Strict Stationary(강정상성)

$t_1, t_2, ..., t_n$의 변수 x에 대한 joint distribution(결합확률밀도함수)과 h만큼의 시간 축을 이동시켜 구한 변수 x에 대한

joint distribution이 동일 하다면 강정상성을 가진다고 말할 수 있다. 

 

 

위처럼 수식이 성립한다는 것은

$$ Cov(X_t, X_s) = Cov(X_{t+h}, X_{s+h}) $$

와 같은 수식으로 표현할 수 있고,

이는 t시점과 s시점의 선형적인 관계와 t+h시점과 s+h시점의 선형적인 관계와 같다는 것을 의미한다.

 

하지만 분포에 대한 조건(결합확률밀도함수에 대한 개념이므로)이 동일해야하는 이 정의는

현실적으로 성립하기가 어렵다.

 

2. Weak Stationary(약정상성)

일반적으로 적용할 수 있는 약정상성의 정의가 나오게 되고,

우리가 흔히 말하는 정상적이다의 의미는 약정상성의 조건을 만족하는 시계열 모형을 의미한다.

 

1️⃣ $ E[X_t]\ $ is constant (상수이고,)

2️⃣ $ Cov(X_t, X_s) = Cov(X_{t+h}, X_{s+h}) $ for all s, t (선형적인 관계가 같은 경우)

 

$X_t$ has $Cov(X_t, X_{t+h})$

h(lag)에 의존적이며, t(시간)에 비의존적이다.

<Auto-Covariance Func>
$$ \gamma_x(h) = Cov(X_t, X_{t+h}) $$ 

 

잠깐, 생각해 보자. 그렇다면 백색 잡음은 정상성을 띄는가?

  • $ E[a_t]=0 $ (평균이 일정하고,)
  • $ Cov[a_t, a_s](=0) = Cov[a_{t+h}, a_{s+h}](=0) $ (어떠한 추세도 관측되지 않고,)
  • $ Var(a_t) = Var(a_{t+h}) = \sigma_a^2 $ (분산이 일정하다.)

따라서, 정상성을 띄는 것을 확인할 수 있다. 

🧷ACF(Autocorrelation Function)

한 변수 내 시간의 흐름에 따라 독립적이지 않고, 영향을 주는 관계를 자기상관관계라고 한다

x와 y관계 처럼 시계열에서는 과거와 현재 관계를 파악하기 위해 auto-covariance와 auto-correlation을 파악한다.

 

정상성에서 확인 했듯이 covariance 함수에서 유도할 수 있는데,

correlation이 covariance를 normalize한 값이므로 

함수단에서도 동일한 방법으로 구할 수 있다.

$$ -1\le \rho_x(h) = {\gamma_x(h) \over \sqrt{\gamma_x(0)}\sqrt{\gamma_x(0)}} = {\gamma_x(h) \over \gamma_x(0)} \le 1 $$

 

$ \sqrt{\gamma_x(0)}\ \blacktriangleright \sqrt{Var(x)} $ 의 역할을 하는데,

lag가 0이면, Auto-Covariance함수의 공식에 의해 $X_t^2$의 평균이 되므로 분산을 의미하게 된다.

 

자주 사용되는 중요한 특징을 살펴보면,

 

1️⃣ $ \left\vert \gamma(h) \right\vert \le \gamma(0) $

위의 식으로 유도할 수 있다.

 

2️⃣ $ \gamma(h) = \gamma(-h) $

수식으로 유도

🧷PACF(Partial Autocorrelation Function)

여기서 partial이 의미하는 바는 conditional이다.

그러므로  PACF는 conditional autocorrelation function이라고 볼 수 있는 것이다.

이는 시간의 효과를 제거한 상관 계수로서 추세(trend)를 제거한 통계량을 볼 수 있다.

 

🧵 REF

https://datalabbit.tistory.com/113?category=1146956 

 

[시계열분석] 부분자기상관함수(Partial Autocovariance Function, PACF)

Review 참고 포스팅 : 2021.07.12 - [Statistics/Time Series Analysis] - [시계열분석] 자기상관함수(AutoCovariance Function; ACF) [시계열분석] 자기상관함수(AutoCovariance Function; ACF) 안녕하십니까, 간..

datalabbit.tistory.com

http://www.kocw.net/home/cview.do?cid=d4e25cf0521ac386 

 

시계열 분석

이 과목에서는 시계열 분석의 기본 분석 방법을 소개하고 univariate의 ARMA/ARIMA 모형, (G)ARCH 모형, 예측, 모델 선택 등에 대한 내용을 다룬다.

www.kocw.net

 

댓글