본문 바로가기

Data Science29

시계열 클러스터링의 방법들 시계열 데이터 클러스터링이란 데이터 클러스터링은 다음과 같은 이유로 사용한다. 유사한 패턴을 가진 데이터를 그룹화하여 인사이트를 얻을 수 있다. 데이터의 구조와 특성을 이해하고 시계열 데이터의 특정 패턴을 발견할 수 있다. 데이터를 세분화하여 세부적인 분석과 예측을 수행할 수 있다. 이런 클러스터링을 시계열 데이터에 접목해보면 어떻게 될까 시계열 데이터 클러스터링에서 가장 중요한 포인트는 시퀀스 데이터를 사용한다는 점이다. 시간에 따라 변화하는 데이터 포인트들을 분석하여 유사한 패턴, 트렌드, 또는 주기적인 변화를 보이는 데이터 시퀀스를 그룹화하는 것이다. 그룹화를 진행할 때, 시간 종속성과 계절성 같은 시계열 고유 특성을 고려해야 한다. 이러한 그룹화는 다양한 분야에 접목시킬 수 있다. 예를 들면, 금.. 2023. 12. 24.

PPO(Proximal Policy Optimization) 알고리즘의 탄생배경과 목적함수 그래디언트 6.1 배경 A2C 개선점 REINFORCE 알고리즘의 단점인 mc 업데이트 문제, 목적함수 gradient의 분산 커진 점 개선 단점 on-policy policy로 실행시킨 sample 필요 → 효율성 떨어짐 정책 gradient를 이용하므로 파라미터 변화량이 작더라도 정책 자체는 크게 변할 수 있음 → 점진적 업데이트 필요 6.2 그래디언트의 재구성 A2C의 그래디언트 On-policy $\pi_\theta$(정책)로 발생시킨 샘플을 이용한 기댓값 계산 → 정책 업데이트 → 정책을 업데이트하면 이전 정책의 샘플을 폐기 후 업데이트 된 정책으로 새로운 샘플 발생 ❖ off-policy의 장점 다른 정책으로 발생시킨 샘플도 사용 가능 확률밀도함수 p(x)에 기반한 함수 f(x)의 기댓값을 다른 확률밀도.. 2023. 9. 5.

A3C(Asynchronous advantage actor-critic) 알고리즘 A3C(Asynchronous advantage actor-critic) A2C의 한계 [장점] 샘플이 모이는 대로 바로 정책을 업데이트 할 수 있음 그래디언트의 분산을 줄임 [단점] 정책과 가치함스를 학습시킬 때 사용하는 샘플이 시간적으로 상관되어 있음 시간의 흐름에 따른 순차적 수집 순차적으로 모인 샘플만으로 정책 업데이트 → 상관관계 커짐 → 목적함수의 그래디언트를 편향시키고 학습을 불안정하게 만듬 서로 유사한 데이터는 유사한 방향으로 신경망 업데이트 비동기 A2C → A3C(Asynchronous advantage actor-critic) 그래디언트 계산 문제 어드밴티지 액터-크리틱(A2C)에서 사용한 목적함수의 그래디언트 식을 샘플링 기법을 이용하여 근사적으로 계산하면 아래처럼 쓸 수 있다. $.. 2023. 7. 18.

A2C 알고리즘 A2C 알고리즘 목적함수 그래디언트는 샘플링 기법을 이용하면 다음과 같이 근사적으로 계산할 수 있다. M = 에피소드 개수, m = 에피소드 인덱스 $$ \nabla_\theta J(\theta) \approx \sum\limits_{t=0}^M \left[ {1 \over M} \sum\limits_{m=1}^{M} \left( \nabla_\theta log \pi_\theta(u_t^{(m)}|x_t^{(m)}) A^{\pi_\theta}(x_t^{(m)},u_t^{(m)}) \right) \right] $$ 어드밴티지 함수를 계산하기 위해 행동가치 함수의 식을 이용해 보자 $$ Q^\pi(x_t,u_t) = r(x_t,u_t) + \mathbb{E}{x{t+1} \ \sim \ p(x_{t+1}|.. 2023. 6. 27.

이전 1 2 3 4 5 ··· 8 다음

티스토리툴바