Hyesung Oh

시계열, 머신러닝 모델의 통계적, 수학적 기반에 대하여 본문

Statistics&ML

시계열, 머신러닝 모델의 통계적, 수학적 기반에 대하여

혜성 Hyesung 2019. 12. 10. 19:13
반응형

1. 가설

추정하고자 하는 모집단의 통계 값: 모수

모집단에서 표본 추출한 샘플의 통계량: 표본 통계량

모수와 통계량의 통계적으로 유의미한 차이가 있다(대립), 없다(귀무)로 가설을 세운다

*보충 설명*

+ p-value 0.05 이하 -> 귀무가설 기각, 이상 -> 귀무가설 채택

+ p-value: 귀무가설이 기각되었을 때, 귀무가설이 참일 확률

2. 검증 및 추정

F-test, T-test 등 통계 검증과정 후 유의미한 차이가 없다면 우리는 표본 통계량을 모수 추정 값으로 사용해도 되는 것이다. 통계적 검증을 하기 위해선 등분산성, 정규분포 등 만족해야 하는 사전 조건들이 있다. (각각 만족 안 했을 시 통계적인 방법 또한 존재하며 정말 다양하다.) 

f-test, t-test에 대한 요약 내용을 알고 싶다면

https://m.blog.naver.com/PostView.nhn?blogId=ps0sy&logNo=221167514726&proxyReferer=https%3A%2F%2Fwww.google.com%2F

3. 좋은 추정치를 선택하기 위한 일반적인 기준

좋은 추정량이란 무엇일까?

추정량의 종류에는 모집단에서 추출된 표본의 평균, 중앙값, 최빈치, 분산 등의 표본 통계량들이다.

우리는 이러한 표본 통계량들을 추정할 때 아래 3가지를 고려해야 한다.

- 일치성: 표본 집단의 크기가 커지면 추정량이 점근적으로 모수에 가까워지는 성질

- 불편성: unbiased estimation, 추정하고자 하는 모수와 표본 통계량이 치우치지 않고 일치하는 성질이다.

대표적인 불편 추정량으로는 표본평균, 표본 분산, 표본비율 등이 있다.

  •   ( 표본 평균의 기대값 E[ x̅ ] = 모 평균μ ) -> 불편 평균
  •   ( 표본 분산의 기대값E[s2] = 모 분산 σ2 ) -> 불편 분산
  •   ( 표본 비율의 기대값E[p] = 모 비율π ) -> 불편 비율

- 효율성: 추정량의 분산이 작게 나오는 것. 효율성이 떨어진다면 분산이 크다는 것이고, f-test, t-test 등 통계적 검증을 할 수 없다.

그 외에도 충분성이 있다.

4. 통계적 모델과 통계적 검증의 필요성

Y = AX+B 라는 회귀 식이 있다고 가정하다. 여기서 Y는 실제 데이터를 의미한다.

우리가 주어진 데이터를 통해 추정한 회귀 식 Y^ = A^X+B^+e이며 e는 실제값과의 차이를 의미하는 잔차다.

즉 쉽게 말해 회귀식만으로 설명할 수 없는 부분이 잔차라는 말이다.

시계열 모델의 경우 잔차에 대한 통계적 검증이 필수인데, 그중에서도 더빈-왓슨 검증이 대표적이다.

더빈-왓슨 검증을 간단하게 설명하면 다음과 같다.

- 잔차가 자기 상관성(t와 t-k 시점의 상관성)을 가지는지 검증하는 것

- 잔차가 자기 상관성을 띤다 = 정상 시계열이 아니다 -> 남은 잔차를 또다시 추가적으로 모델링하는 작업이 필요하다.

Q) 왜 자기 상관성을 띄면 안 된다는 가?

A) 일치성, 불편성은 만족할지 모르지만 분산이 커져서(효율성) 효율적인 통계량을 추정할 수 없다.

(일치성, 불편성과 효율성에 대한 설명은 위를 참고)

5. 기계가 주어진 데이터를 최대한 잘 설명하는 모델(시계열, 머신러닝, 딥러닝)을 추정하는 방법

(모델을 추정한다는 것은, 각 모델이 가지는 수학 공식의 파라미터를 추정한다는 의미와 같다.)

실제 값(y)과 추정 치(y^)의 차이를 우리는 y-y^ =loss functiton으로 정의할 수 있고 loss function을 최소화하는 방향으로 모델을 학습시켜 나간다(= 최적의 파라미터를 찾아간다).

손실 함수는 크게 2가지(그 외 여러 가지가 있을 수 있지만 제가 아는 범위 내에서 소개하도록 하겠습니다.)

1) 평균 제곱 오차 MSE(Mean Squared Error) 

- 머신러닝 모델 중에서도 선형 회귀 모델에 주로 쓰이는 손실 함수이다

- 모집단 데이터 분포가 정규분포라는 가정

- 추정하고자 하는 θ로 미분한 식의 값을 0에 가깝게 만드는 θ을 추정한다

*보충설명: MSE loss function이 convex(아래로 볼록)하다는 것이 수학적으로 증명되어 있기에 가능한 방법이다. 아래로 볼록한 함수의 극소값 지점의 θ값이 loss function을 최소로 하는 θ이다.

2) 최대우도 추정법 MLE(Maximum Likelihood Estimation) 

입력값 X와 파라미터 θ가 주어졌을 때 정답 Y가 나타날 확률, 즉 우도 P(Y|X;θ)를 최대화하는 θ를 찾는 과정이다.

그런데 학습 데이터 각각의 우도를 스케일 해도 전체 argmax의 결과는 바뀌지 않으므로 ‘우도의 곱을 최대’로 만드는 θ와 ‘로그 우도의 기댓값, 즉 1.. ΣxP(y|x) log⁡P(y|x;θ)를 최대’로 하는 θ는 같다.

MLE와 맥락을 같이 하는 것이 바로 그 유명한 크로스 엔트로피 CE(Cross Enthropy)이다. 

2.. H(P, Q)=−∑xP(x) logQ(x)

P(Y|X): 우리가 가진 데이터의 분포, P라 표기

P(Y|X;θ): 모델이 예측한 결과의 분포, Q라 표기

*엔트로피, 크로스 엔트로피의 정의

엔트로피 : 주어진 데이터의 정보량을 최적으로 인코딩할 수 있는 최적의 비트수

크로스 엔트로피: 틀린 정보를 고려할 때 정보량을 최적으로 인코딩할 수 있는 최적의 비트수

크로스 엔트로피는 딥러닝의 손실 함수로 많이 쓰인다. 크로스 엔트로피를 최소화하는 것이 최우 도함수를 최대화하는 것과 같다는 것을 위 두식 1.. 과 2.. 을 보면 알 수 있다.

*보충 설명

https://m.blog.naver.com/PostView.nhn?blogId=yonggeol93&logNo=221230536533&proxyReferer=https%3A%2F%2Fwww.google.com%2F

크로스 엔트로피를 딥러닝 모델의 손실 함수로 사용했을 때 장점

딥러닝은 이진 분류기, regression 문제 보단 다중 분류에 특화되어 있는 모델이다.

따라서 모집단의 확률 분포를 특정화 한다면 문제가 발생할 수 있다.

크로스 엔트로피는 확률 분포를 특정하지 않는다는 장점이 있다.

위에 언급했듯이 회귀분석의 MSE는 정규분포를, 이진 분류는 베르누이 분포를 가정한다. 하지만 딥러닝은 그보다 더 다차원적인 다중 분류에 특화된 모델이기에 크로스 엔트로피를 손실 함수로 사용하는 것이 더 적합한 것이다.

3) AIC, BIC

그 외 시계열 모델의 p, q를 추정하기 위해 auto.arima()와 같은 함수를 사용하는데 이때 추정의 기준이 되는 값이 바로 AIC, BIC이다. 

- AIC=−2 logL+2 K

- BIC=−2 logL+Klogn

AIC는 LOSS(두 확률 분포 사이의 차이)를 최대화 하는 식이기 때문에 AIC, BIC 모두 값이 작을수록 실제 데이터에 가까운 적합한 모델이라 할 수 있다. (아래 링크 참고)

https://datascienceschool.net/view-notebook/bfe4438b46674c68a5ba6598147a5527/

반응형
Comments