일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 하둡에코시스템
- mlops
- eks
- Data engineering
- 빅데이터플랫폼
- recommendation system
- 개발자혜성
- BigData
- Spark structured streaming
- cloudera
- kafka
- redis bloom filter
- kubernetes
- 하둡
- hadoop
- 개발자
- 데이터엔지니어
- 클라우데라
- DataEngineering
- pyspark
- dataengineer
- AWS SageMaker
- 빅데이터
- Terraform
- 추천시스템
- Python
- apache spark
- 데이터엔지니어링
- 블로그
- spark
- Today
- Total
Hyesung Oh
[Statistic Analysis] 통계 초짜도 한번에 이해하는 통계적 검정 본문
* 이해를 돕기 위해 번호를 매겼습니다. 번호 순서대로 따라가며 생각의 흐름을 잘 정리해 보시면 이해가 될 것이라 생각합니다.
1. 현실 세계에서 우리가 알고자 하는 대상이 있다고 가정합시다.
2. 그 집단의 특성을 나타내는 값을 우리는 '모수'라고 합니다. 예를 들면 A 고등학교 3-1반 학생들의 키(관심 있는 대상 = 모집단)에 관심이 있다고 했을 때, 학생들의 평균 키, 분산이 '모수'라고 할 수 있습니다.
3. 우리는 전수 조사를 통해서 학생들의 평균 키와 분산을 조사할 수 있습니다. 하지만 현실에선? 조사하고자 하는 모집단의 수가 너무나 커서 시간과 비용을 고려했을 때, 전수조사가 불가능할 수 있습니다. 실제로 그러한 경우가 대부분입니다.
4. 그렇다면 어떻게 우리는 모집단에 대해 알 수 있을까요? 바로 통계적 추론을 통해서 모집단의 특성, 즉 모수를 추정하는 것입니다. 추정 값은 당연히 추정에 불가하므로 하나의 특정값으로 단정 지을 수 없습니다. 따라서 여기서 '신뢰구간'이라는 개념이 나옵니다. 95%의 신뢰구간이란, 해당 신뢰구간에 내가 모집단의 모수 값이 속한다고 95% 확신할 수 있는 구간을 의미합니다.
5. 우리는 모집단의 모수값에 대해 가설을 세울 수 있고, 그 가설이 유효한지 유효하지 않은지 통계적 검정을 통해 확인할 수 있습니다.
ex) "3-1반 학생들의 평균키는 175보다 크다"를 검증하고 싶습니다. 학생들의 평균 키를 u라고 했을 때
귀무가설 : u <= 175
대립가설 : u > 175
귀무가설은 기각하고 싶은 가설, 대립 가설은 채택하고 싶은(맞다고 주장하고 싶은) 가설이라고 이해하면 쉽습니다.
6. 이제 우리는 표본 추출이라는 행위를 하게 됩니다. 모집단으로부터 특정 수의 샘플을 추출합니다. 그리고 해당 샘플 집단의 평균값을 우리는 '표본 평균'이라고 합니다. 이때, 표본 평균의 분포는 모집단과 다음과 같은 관계를 가지게 됩니다.
7. 10명의 학생을 추출하였고, 10명의 학생들(표본)의 평균(표본 평균)이 177이 나왔다고 합시다.
우리는 이 표본으로 부터 나온 대푯값, 즉 표본 평균값을 이용하여 귀무가설에서 세운 (모집단의 평균 <=175)가 타당한지(유효한지) 검증하고자 하는 것입니다.
8. 우선, 우리는 귀무가설에서 평균이 175라고 가정했습니다. 모집단의 분산 값은 알고 있다는 가정하에 sigma라고 가정하겠습니다. (모집단의 분산을 모른다면 표본 분산을 사용하면 됩니다.) 이때, 우리가 가정한 모집단(귀무가설)의 분포에서 5%의 확률 이하로 추출되는 임계값은 얼마인지 알고자 합니다.
* 왜 5%? : 희박한 확률로 나오는 것의 기준을 5%,로 잡은 것입니다. 문제 도메인에 따라 다르게 설정할 수 있습니다만, 보통 5%, 1%를 많이 사용합니다. 즉 5%의 확률로 나오는 확률 변숫값(기준값, 임계값)을 계산함으로써, 해당 기준값보다 표본 평균(추출한 샘플 집단의 평균값)이 기준값보다 큰지 작은 지를 보고 싶은 것입니다. 이 부분이 제일 중요하니 꼭 이해하고 넘어가야 합니다.
1) 표본 평균 > 임계값 의미하는 바는?
: "귀무가설에서 세운 모집단에 대한 가정하에서, 표본 평균값(177)이 나올 확률은 매우 희박하다(5%로 안된다)."가 되겠습니다. 말로 풀어서 설명하면, "귀무가설에서 모집단의 평균이 175라고 가정을 했는데, 이렇게 가정하면 내가 추출한 샘플들의 평균값이 177이 나오기 힘들어.. 5%도 안돼 이건 귀무가설이 잘못됐다는 뜻으로 보는 게 합리적이야. 다시 말해, 모집단의 평균이 175보다는 커야 내가 샘플을 추출했을 때 평균값이 177이 나올 수 있다고 생각하는 게 합리적이야. 그러니깐 귀무가설을 기각하고 대립 가설을 채택할 거야"가 되겠습니다.
어떤가요? 이해가 되셨나요? 혹시 설명이 부족하거나, 이해가 되지 않는 부분이 있다면 댓글로 남겨주시면 감사하겠습니다.!
'Statistics&ML' 카테고리의 다른 글
[비정형 데이터마이닝] 사회 연결망 분석 개요 (0) | 2020.05.20 |
---|---|
[비정형 데이터 마이닝] 텍스트 마이닝 개요 (0) | 2020.05.20 |
[정형 데이터 마이닝] 비지도 학습/Unsupervised Learning (0) | 2020.05.20 |
데이터 마이닝 vs 머신 러닝 (0) | 2020.03.18 |
시계열, 머신러닝 모델의 통계적, 수학적 기반에 대하여 (0) | 2019.12.10 |