시계열 데이터
개념
- 하나의 변수를 시간에 따라 여러 번 관측한 데이터
- 목표: 변화 예측과 반복되는 패턴(e.g. 가격, 매출, 성장)에 대한 인사이트 도출
- 단위: 시간 또는 회차
- 시간 t는 절대적인 순서가 중요하므로 고정하고, 나머지 변수들의 여러 요인에 대해 분석
관련 용어
- 추세(trend): 장기적인 증가 or 감소
- 계절성(seasonality): 특정 요일/계절에 따른 영향
- 주기(cycle): 고정된 빈도가 아니지만 형태적으로 유사하게 나타나는 패턴
- 노이즈(noise): 측정 오류, 내부 변동성 등 다양한 요인으로 생기는 왜곡
- 시계열 데이터 = 규칙성 데이터(추세, 계절성, 주기) + 불규칙성 데이터(노이즈)
- 성분 분석 = 규칙성, 불규칙성 데이터를 통해 시계열을 분석
- 가법 모델(additive model)
- 추세+계절성+주기+노이즈
- 시간에 따른 변동폭이 비교적 일정할 때 사용
- 승법 모델(multiplicative model)
- 추세\*계절성\*주기+모델
- 시간에 따라 변동폭이 커질 때 사용
- 대부분의 시계열 데이터는 시간에 따라 통계적 특성이 변함 (e.g. 물가, 가격, 사용자수)
- 구간이 다른 시계열에 대해 모델을 반들기 위해 관측 시간과 결과값은 독립적이어야 함.
- 정상성: 시간에 따라 통계적 특성이 변하지 X
- 비정상성: 시간에 따라 통계적 특성이 변함
- 통계 모델에 사용하기 위해서 비정상성 제거 필요 => 시간에 특성을 제거
- 차분(diffencing): 이웃된 두 값의 차이값 사용 e.g. [1, 2, 4, 7] => [None, 1, 2, 3]
- 경우에 따라 2차 차분, 계절성 차분도 사용 가능
- 로그 연산: 로그 연산을 통해 비정상성 일부 제거 가능
- 평활(smoothing): 데이터의 불필요한 변동을 제거해 쉬운 해석을 돕는 것
- 목적: 노이즈 감소로 쉬운 추세와 계절성 파악 및 데이터 시각화 개선
- 구간별 평균 / 구간별 통계 사용
- 장) 추세를 보기 쉬움
- 단) 데이터 개수가 줄어듦; 관찰에만 용이함
- 실제 모델에는 잘 쓰이지 않음
- 이동 평균 (Moving Average)
- 장) 급격하게 변하는 값에 대해서 추게를 보기 쉬움
- 단) 구간의 길이에 따라 다르게 해석될 수 있음
e. g. window size = 3
- raw data: [1, 7, 16, 4, 13, 7, 28, 43]
- sum: [0, 0, 24, 27, 33, 24, 48, 78]
- mean: [x, x, 8, 9, 11, 12, 24, 26]```
- 이상치 값에 영향을 크게 미치므로 가중 이동 평균이나 지수 이동 평균 사용