본문 바로가기

전체 글66

[실전 시계열 분석] 정상성, 자기상관, 허위상관 이번 포스팅에서는 시계열을 분류하는데 사용되는 개념인 정상성, 자체상관, 허위상관의 개념과 결과적 방법을 다룬다. 구체적인 내용을 알기 전에, 전반적인 흐름에 대해 먼저 알아야 한다. 시계열을 다룰 때 처음해야 하는 질문은 아래와 같을 것이다. 시계열이 시스템의 안정성을 반영하는가? 아니면 지속적인 변화를 반영하는가? 정상성은 안정성의 수준을 의미하고, 이를 평가하는 것 또한 아주 중요하다. 시스템이 보여준 과거의 장기적 행동이 미래의 장기적 행동에 얼마나 반영하는 지 알기 위해서이다. 안정성의 수준을 파악했다면 내부적인 역학의 존재를 결정해야 한다. 이는 자기상관을 찾기 위한 노력이라고 할 수 있다. 먼 과거 혹은 최근의 데이터가 얼마나 밀접한 연관성을 가졌는지 알기 위해서 이다. 특정 행동역학을 발견.. 2022. 9. 25.
[실전 시계열 분석] 시계열 데이터 정리하기 「실전 시계열 분석」을 보고 정리한 글 임을 밝힙니다. # 타임스탬프 알아보기 시간의 기준이 무엇인지 확인하기 현지 시간 기준인지, 세계 시간(UTC) 기준인지 자동 생성 시간인지, 사용자 입력 시간인지 사용자가 조작 가능한 정보인가 시간을 무시할 수 있는 인터페이스가 존재하는가 시간이 사용자의 행동을 반영하는지, 연결과 같은 외부 제약을 반영하는지 시간 데이터가 어떤 형태로 기록되고, 관리되는지 또, 어떻게 1차원으로 가공했는지 알아두어야 한다. # 데이터 정리하기 👉사전관찰 : 미래의 데이터가 과거의 데이터 정보에 영향을 끼치는 상황 이를 방지하기 위해서는 끊임없이 경계하는 것 뿐! 앞으로 나올 모든 방법에 대해 유의해야 한다. 👉 누락된 데이터(결측치) 다루기 대치법(imputation) : 데이터.. 2022. 9. 25.
[python] 코드 실행 시간 측정하기 👉 time 모듈 이용하기 import time start = time.time() # 시작시간 # 수행시간을 알고 싶은 코드 checked = [False, False] + [True]*98 for i in range(2,100): if checked[i]: for j in range(2*i, 100, i): checked[j] = False end = time.time() # 종료시간 print(end - start) # 소요시간(초 단위) 👉 timeit 이용하기 $ python -m timeit '수행시간을 재고 싶은 코드 조각' 10000 loops, best of 3: 28.6 usec per loop 1. 10000 loops : 수행시간을 알고 싶은 코드를 10000번 실행한다. 2. 10.. 2022. 8. 7.
[Colab] 코랩에서 .zip 압축 풀기 cd 압축을 풀 Path !unzip -qq "압축 파일 Path" !unzip -uq "압축 파일 Path" -d "압축을 풀 Path" 🚗 압축을 풀 경로 드라이브의 경우, 데이터가 크면 시간이 걸릴 수 있다. 2022. 7. 24.