|

Time Series Vectorization and Embedding in AI/ML


Time Series Vectorization vs. Embedding 🔍

구분

Time Series Vectorization (벡터화)

Time Series Embedding (임베딩)

기본 개념

시계열 데이터를 수학적 모델이 이해할 수 있는 형태(고정된 길이의 벡터)로 변환하는 과정

고차원 시계열 데이터를 저차원의 밀집된 공간(Dense Space)으로 투영하여 의미적 관계를 학습하는 과정

변환 방식

주로 결정론적(Deterministic) 방식 (통계값, 주파수 변환 등)

학습 기반(Learning-based) 방식 (신경망, 딥러닝 모델 사용)

특징 추출

수작업 기반(Hand-crafted) 특성 (평균, 분산, 왜도, FFT 등)

모델이 스스로 유용한 패턴을 학습 (Hidden Representation)

공간의 특성

데이터의 통계적 속성을 나열함 (희소할 수 있음)

유사한 패턴을 가진 시계열이 기하학적으로 가깝게 배치됨 (밀집 벡터)

주요 사례

TSFRESH, 통계적 요약, 원-핫 인코딩

Time2Vec, Word2Vec 스타일의 시퀀스 학습, TS2Vec, RNN/Transformer의 Hidden State

1. Time Series Vectorization (벡터화)
  • 목적: 원시(Raw) 시계열 데이터를 머신러닝 알고리즘(SVM, Random Forest 등)의 입력값으로 쓰기 위해 일정한 길이의 배열로 만드는 데 집중합니다.
  • 특징:
    • 통계적 특징(Statistical features)을 추출하는 경우가 많습니다.
    • 예시: [최솟값, 최댓값, 평균, 표준편차, 트렌드 계수]와 같은 형태.
    • 도메인 지식이 많이 반영되며, 변환 과정이 투명하여 해석이 쉽습니다.
2. Time Series Embedding (임베딩)
  • 목적: 데이터 간의 ‘관계’와 ‘맥락’을 보존하면서 데이터를 압축하여 표현하는 데 집중합니다.
  • 특징:
    • 뉴럴 네트워크를 통해 데이터의 잠재적인(Latent) 특징을 포착합니다.
    • 예시: CNN이나 RNN의 마지막 층에서 나온 출력값.
    • 단순한 수치 나열을 넘어, 유사한 변동 패턴을 가진 시계열들이 임베딩 공간 내에서 가깝게 위치하도록 학습됩니다.
Our Score
Click to rate this post!
[Total: 1 Average: 5]
Visited 66 times, 1 visit(s) today

Leave a Comment

Your email address will not be published. Required fields are marked *