데이터 분석

A/B Test (가설검정) - 가설검정 정리 및 절차

로스브로크 2022. 1. 19. 03:00

일단 용어에 대해서 정리를 진행해보겠습니다.

- 모집단(Population) : 연구(관심) 대상이 되는 전체 집단
- 표본(Sample) : 모집단에서 선택된 일부 집단
- 전수조사(Population Scale Test) : 모집단 모두를 조사하는 방식으로 시간과 비용이 가장 비효율적인 방식(ex. 인구주택 총조사)
- 표본조사(Sample Scale Test) : 표본집단을 조사하는 방식으로 시간과 비용을 크게 줄일 수 있으나 편향성(Bias) 문제가 존재 (ex. 출구조사, 여론조사)
    * Sample을 편향되게 만드는 방법
    * Sampling 과정에서 생기는 Bias 제거하는 방법
- 추론통계(Statistical Inferance) : 모집단에서 샘플링한 표본집단을 가지고 모집단의 특성을 추론하고 그 신뢰성이 있는지 검정하는 것
    * 요즘은 내가 보유한 데이터를 표본으로, 보유하지 못하는 현실세계 전체의 데이터나 미래의 데이터를 모집단으로 보기도함
    * 표본을 통해 모집단을 추정하기 때문에 표본의 특성이 모집단을 잘 반영해야 함
    * 표본의 기초통계(Descriptive Statistics) 확인을 통해 분포를 확인해야 함 (분포에 따라 분석 방법이 달라짐)

이전에 보았던 예를 가져와서 보자면
모집단 : 현재 전 세계 사람들
샘플집단 : 현재 대한민국 사람들
    * 샘플집단1 : 현재 대한민국 양치기들
    * 샘플집단2 : 현재 대한민국 일반인들
이라고 볼 수 있습니다.

- 통계량(Statistic) : 표본의 특성을 나타내는 수치
- 모수(Parameter) : 통계량을 통해 알게된 모집단의 특성
- 표본오차(Sampling Error) : 표본평균으로 모평균을 알아내는 것이 추론통계의 목적이기 때문에 "모평균-표본평균"으로 계산
    * 모평균은 모집단에서 표본추출을 통해 얻어진 표본평균으로 추정된 모집단의 특성이며, 절대 표본평균이 모평균을 그대로 나타내는 것은 아님.
- 중심극한정리(Central Limit Theorem) : 전체 모집단에서 여러번 Sample을 추출하고 Sample마다 평균을 구한 후 이 평균들의 분포는 정규분포이며 전체 모집단의 평균으로 수렴한다.  (= Sample의 특성이 모집단의 특성으로 수렴할 것이다.) 

위의 예로 중심극한정리를 확인해 보자면
모집단에서 샘플링을 한번 진행하여
거짓말을 0번한 사람들 대부분일 수 도 있고
대체적으로 조금씩은 한 사람들이 걸릴 수 도 있고
우연찮게 많이 한 사람들만 걸릴 수 도 있습니다.
다음과 같이 다양한 사람들의 케이스가 나올 수 있지만 
이것들을 평균내고 평균내고 평균내고 평균내서 계속 반복하다보면 
다음 그래프와 같이 정규분포가 되는 것입니다. 

출처 : https://corporatefinanceinstitute.com/resources/knowledge/other/central-limit-theorem/

그래서 만약에
나의 주장이 틀렸다면,
- 양치기들과 일반인들의 거짓말 빈도가 전혀 차이가 없어야 합니다.
- 모든 양치기들을 조사하지 않더라도 Sample로 추출한 양치기의 거짓말 횟수 평균은 일반인의 거짓말 횟수 평균에 수렴해야 합니다.
- 양치기의 거짓말 횟수 평균이 일반인의 거짓말 횟수 평균보다 같거나 적어야 합니다.

다시 가설을 가져와서 증명해봅시다.

 

1. 가설 설정

이전에 나의 주장이라고 했던 것을 여기서는 대립가설이라고 정의하겠습니다.
- 대립가설(Alternative Hypothesis, H1) : 나의 주장, 분석 방법별 정해져 있음 (보통 차이가 있다/영향력이 있다/연관성이 있다/효과가 있다)
    * 대립가설 : 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다.

이전에 대중들의 주장이라고 했던 것을 여기서는 귀무가설이라고 정의하겠습니다
- 귀무가설(Null Hypothesis, H0) : 대중들의 주장, 분석 방법별 정해져 있음 (보통 차이가 없다/영향력이 없다/연관성이 없다/효과가 없다)
    * 귀무가설 : 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다.


여기서 양치기와 일반인들의 거짓말을 각각 비교해서 봐도되지만 
이를 하나의 숫자로 표현하는 것이 훨씬 수월할 것이기 때문에 
검정통계량 이라는 것을 사용합니다.

 

2. 검정통계량 및 유의확률 추정

- 검정통계량(Test Statistics) : 대립가설(나의 주장)과 귀무가설(대중주장)을 비교하기 위한 검증(Evaluation)지표값, 일명 '점추정'

출처 : https://www.evanmiller.org/ab-testing/t-test.html

위 그림으로 예를 들면 
양치기들의 거짓말 횟수 (Sample 1 mean) 가 있고
일반인들의 거짓말 횟수 (Sample 2 mean) 가 있다고 보면 
반복을 통해 이 두개의 histogram을 얻었다고 했을 때 
이를 각각 비교하는 것도 좋지만
상당히 귀찮아질 수 있고 어떻게 판단해야 하는지에 대해 기준을 정해야하므로 
이를 쉽게 극복하기 위해 이 두개의 차이인 하나로서 생각을 해보자고 하는 방식(Difference of means)이
검정통계량의 모토입니다.

         * 양치기와 일반인의 거짓말 빈도가 차이가 없다면(분자가 0) 이상적인 검정통계량은 0이고 나의주장은 틀린 것
         * 양치기와 일반인의 거짓말 빈도가 차이가 있다면 검정통계량이 0에서 많이 벗어날수록(큰 양수) 나의 주장이               옳은 것

   * 검정 통계량 로직 : 
         * 두 표본평균의 분포를 보려고 하면 분석이 어렵기 때문에, '두 표본의 차'만을 분석하면 간단해짐
         * X와 Y를 각각 추정하는 것보다 X-Y만 추정하면 훨씬 단순한 모형
         * 정규 분포에서 정규분포를 빼도 정규분포

 

- 신뢰구간(Confidance Interval) : 검정통계량이 발생가능한 구간, 일명 '구간추정'

이게 뭐냐?
검정통계량은 거짓말 횟수를 비교하는 통계량인데
Sample로 한 번을 테스트하면 통계량은 1개가 나옵니다.
한 번 더 Sample을 뽑아서 반복하면 2개가 나오게 되고
...
여러번 반복하면 여러개가 나오게 됩니다.

그럴 때 검정통계량이 한 번 추정된 것을 한 번만 추정된 평균값으로 '점추정' 이라고 하고
그리고 여러번 반복해서 얻은 평균이외의 특정한 범위(분산의 범위)를 얻게 되고 그것을 '신뢰구간'이라고 얘기합니다.

예를 들어)
 검정통계량 결과 평균적으로는 횟수의 차이가 1회이고 분산은 3이라고 했을 때 -> 신뢰구간은 3이 됩니다.

- 유의수준(Significant Level,  α): 귀무가설(대중들의 주장)이 참이라는 전제 하에, 대립가설(나의 주장)이 참이라고 '오판'할 최대 확률
    * 유의수준 5% : 양치기와 일반인의 거짓말 차이가 없다는 전제하에,
                         일반적으로,
                         100번 중 95번은 귀무가설이 관찰되고(양치기와 일반인의 거짓말 차이가 없음),
                         100번 중 5번은 대립가설이 관찰된다(양치기와 일반인의 거짓말 차이가 있음)

- 신뢰수준(Confidance Level) : 1 - 유의수준(α)

 

4. (나의 주장) 기각/채택 의사결정

- 유의확률(p-value) : 귀무가설(대중들의 주장)이 참이라는 전제 하에, 나의 데이터에서 대립가설(나의 주장)이 관찰될 확률

    * 유의확률 10% : 양치기와 일반인의 거짓말 차이가 없다는 전제 하에,
                           나의 데이터는,
                           서로의 거짓말 차이가 있다 오판할 확률(5%) < 서로의 거짓말 차이가 관찰될 확률(10%),
                           양치기와 일반인의 거짓말 차이가 없다.(귀무가설(대중들의 주장)채택)
    * 유의확률 1%   : 양치기와 일반인의 거짓말 차이가 없다는 전제 하에,
                           나의 데이터는,
                           서로의 거짓말 차이가 있다 오판할 확률(5%) > 서로의 거짓말 차이가 관찰될 확률(1%),
                           양치기와 일반인의 거짓말 차이가 있다.(대립가설(나의 주장) 채택)

 

 

 

본 노트는 패스트캠퍼스 <파이썬을 활용한 시계열 데이터 분석 A-Z 올인원 패키지 Online.>의 강의노트 및 강의를 필기한 개인 노트입니다.
+ 패스트캠퍼스 김경원 강사님 설명을 너무 잘해주셔서 직접 들어보시는 것도 추천