Data Science29 이해가 안 돼서 다시 공부하는 WHITE NOISE, 정상성, ACF, PACF Time Series Process는 random variable이 각 순간(t)마다 존재하는 프로세스로, stochastic process라고 할 수 있다. 본격적으로 해당 내용에 들어가기 전에 알아두어야 할 통계지식을 보겠다. (깊이 다루진 않을거다..) 📍밑에 접혀 있다📍 더보기 🌱CDF(Cumulative Distribution Function, 누적 분포 함수) 주어진 확률분포에서 확률변수가 특정 값보다 작거나 같은 확률 $$ F_{x}(x) = P(X \le x) $$ 🌱PDF(Probability Density Function, 확률 밀도 함수) 연속적인 변수에 의한 확률분포함수, CDF를 미분하여 구할 수 있다. 이 두 가지 정보를 안다는 것은 어떤 변수에 대해 모든 정보를 아는것과 같다고.. 2022. 10. 10. [실전 시계열 분석] 정상성, 자기상관, 허위상관 이번 포스팅에서는 시계열을 분류하는데 사용되는 개념인 정상성, 자체상관, 허위상관의 개념과 결과적 방법을 다룬다. 구체적인 내용을 알기 전에, 전반적인 흐름에 대해 먼저 알아야 한다. 시계열을 다룰 때 처음해야 하는 질문은 아래와 같을 것이다. 시계열이 시스템의 안정성을 반영하는가? 아니면 지속적인 변화를 반영하는가? 정상성은 안정성의 수준을 의미하고, 이를 평가하는 것 또한 아주 중요하다. 시스템이 보여준 과거의 장기적 행동이 미래의 장기적 행동에 얼마나 반영하는 지 알기 위해서이다. 안정성의 수준을 파악했다면 내부적인 역학의 존재를 결정해야 한다. 이는 자기상관을 찾기 위한 노력이라고 할 수 있다. 먼 과거 혹은 최근의 데이터가 얼마나 밀접한 연관성을 가졌는지 알기 위해서 이다. 특정 행동역학을 발견.. 2022. 9. 25. [실전 시계열 분석] 시계열 데이터 정리하기 「실전 시계열 분석」을 보고 정리한 글 임을 밝힙니다. # 타임스탬프 알아보기 시간의 기준이 무엇인지 확인하기 현지 시간 기준인지, 세계 시간(UTC) 기준인지 자동 생성 시간인지, 사용자 입력 시간인지 사용자가 조작 가능한 정보인가 시간을 무시할 수 있는 인터페이스가 존재하는가 시간이 사용자의 행동을 반영하는지, 연결과 같은 외부 제약을 반영하는지 시간 데이터가 어떤 형태로 기록되고, 관리되는지 또, 어떻게 1차원으로 가공했는지 알아두어야 한다. # 데이터 정리하기 👉사전관찰 : 미래의 데이터가 과거의 데이터 정보에 영향을 끼치는 상황 이를 방지하기 위해서는 끊임없이 경계하는 것 뿐! 앞으로 나올 모든 방법에 대해 유의해야 한다. 👉 누락된 데이터(결측치) 다루기 대치법(imputation) : 데이터.. 2022. 9. 25. [Collaborative Filtering Recommendation System] Collaborative Filtering(협업 필터링) collaborative filtering 알고리즘은 유저들의 행동에서 부터 시작합니다. 어떤 것에 대해 비슷한 취향을 갖는다면, 다른 것에 대해서도 비슷한 취향을 가질 것이다 라는 전제에 기반합니다. 이러한 전제 하에 user의 관심사 일 수 있는 정보를 예측하고, 추천합니다. 먼저, 추천하고자 하는 대상과 취향이 비슷한 집단이 있을 것이다 라고 가정합니다. 이때 두 가지 방법으로 나뉘는데, User Based : 비슷한 user를 찾아 비슷한 user가 공통적으로 소비(좋게 평가)한 내가 관심을 표하지 않은 item을 추천하는 방식 user data가 풍부한 경우, 정확한 추천이 가능하다. data 업데이트에 대한 결과 변동 위험성이 존재한다... 2022. 6. 26. 이전 1 ··· 3 4 5 6 7 8 다음