Data Science/TimeSeries7 이해가 안 돼서 다시 공부하는 WHITE NOISE, 정상성, ACF, PACF Time Series Process는 random variable이 각 순간(t)마다 존재하는 프로세스로, stochastic process라고 할 수 있다. 본격적으로 해당 내용에 들어가기 전에 알아두어야 할 통계지식을 보겠다. (깊이 다루진 않을거다..) 📍밑에 접혀 있다📍 더보기 🌱CDF(Cumulative Distribution Function, 누적 분포 함수) 주어진 확률분포에서 확률변수가 특정 값보다 작거나 같은 확률 $$ F_{x}(x) = P(X \le x) $$ 🌱PDF(Probability Density Function, 확률 밀도 함수) 연속적인 변수에 의한 확률분포함수, CDF를 미분하여 구할 수 있다. 이 두 가지 정보를 안다는 것은 어떤 변수에 대해 모든 정보를 아는것과 같다고.. 2022. 10. 10. [실전 시계열 분석] 정상성, 자기상관, 허위상관 이번 포스팅에서는 시계열을 분류하는데 사용되는 개념인 정상성, 자체상관, 허위상관의 개념과 결과적 방법을 다룬다. 구체적인 내용을 알기 전에, 전반적인 흐름에 대해 먼저 알아야 한다. 시계열을 다룰 때 처음해야 하는 질문은 아래와 같을 것이다. 시계열이 시스템의 안정성을 반영하는가? 아니면 지속적인 변화를 반영하는가? 정상성은 안정성의 수준을 의미하고, 이를 평가하는 것 또한 아주 중요하다. 시스템이 보여준 과거의 장기적 행동이 미래의 장기적 행동에 얼마나 반영하는 지 알기 위해서이다. 안정성의 수준을 파악했다면 내부적인 역학의 존재를 결정해야 한다. 이는 자기상관을 찾기 위한 노력이라고 할 수 있다. 먼 과거 혹은 최근의 데이터가 얼마나 밀접한 연관성을 가졌는지 알기 위해서 이다. 특정 행동역학을 발견.. 2022. 9. 25. [실전 시계열 분석] 시계열 데이터 정리하기 「실전 시계열 분석」을 보고 정리한 글 임을 밝힙니다. # 타임스탬프 알아보기 시간의 기준이 무엇인지 확인하기 현지 시간 기준인지, 세계 시간(UTC) 기준인지 자동 생성 시간인지, 사용자 입력 시간인지 사용자가 조작 가능한 정보인가 시간을 무시할 수 있는 인터페이스가 존재하는가 시간이 사용자의 행동을 반영하는지, 연결과 같은 외부 제약을 반영하는지 시간 데이터가 어떤 형태로 기록되고, 관리되는지 또, 어떻게 1차원으로 가공했는지 알아두어야 한다. # 데이터 정리하기 👉사전관찰 : 미래의 데이터가 과거의 데이터 정보에 영향을 끼치는 상황 이를 방지하기 위해서는 끊임없이 경계하는 것 뿐! 앞으로 나올 모든 방법에 대해 유의해야 한다. 👉 누락된 데이터(결측치) 다루기 대치법(imputation) : 데이터.. 2022. 9. 25. 이전 1 2 다음