데이터 분석

A/B Test(가설검정) - 가설설정 조건 3가지

로스브로크 2022. 1. 18. 22:45

A/B Test가 왜 필요해?

필요1 : 대부분의 문제를 정의한다고 할 때 'A/B Test(비교)'를 기반으로 하고 있다.
필요2 : 설명력과 모델복잡도는 반비례하는 경향이 있기 때문에, 설명력이 수반되는 모델들은 가설검정 해석이 필수이다.

이게 뭔 소리냐?

필요1에 대한 설명)
우리가 만든 알고리즘이 있거나 무언가가 좋다라고 얘기를 할 때 가장 쉽게 할 수 있는 것이 비교입니다.
이전 것을 비교한다던지 
새롭게 만든게 어떠한 대상보다 좋다라고 어필하며
비교하는 것이 가장 좋은 방법이다.

또한 일상생활속에서도 상대평가 OR 비교와 마찬가지로
가설검정이라는 것도 A/B Test 라는 비교를 기반으로 하고 있습니다.

필요2에 대한 설명) 
전통적인 수학을 기반으로 하고 있는 방법론들은 
분석의 구현이나 결과에 있어서 
왜 이런 결과가 나와있는지에 대한 해석을 포함하고 있습니다.
그런데 
비교를 해서 말하자면 
요즘 나오고 있는 딥러닝 알고리즘들은 
성능이 좋은 것은 맞지만 
이론적 수학적 통계적으로 성능이 왜 잘나오는지에 대해
엄밀하게 얘기하기는 어렵다.

그러다보니 알고리즘에 대한 결과를 무작정 믿을 수 없다는 현실이 있다.

 

예시를 하나 보겠습니다.
예시)   양치기들이 거짓말쟁이인가?       <------ 이거에 대해서 분석해보자
일단 비교를 해야한다. (A/B Test 소환)
- 대중들의 주장(A) : 양치기들은 거짓말쟁이가 아니다.
-       나의 주장(B) : 양치기들은 거짓말쟁이다.
다음과 같이 두가지로 구분하였다.
이제 구분을 했으니 어떻게 데이터 분석을 해야할 지를 고민해야하는데
여기서 함정이 존재한다.
그래서 '거짓말쟁이'를 어떻게 정의할거인가!!?   <------ 거짓말쟁이를 알아야 데이터를 모으지!!
         '양치기들'이 누구인가 !!?                     <------ 양치기들이 누군지 알아야 데이터를 모으지!!  

그래서 이 같은 것을 구체화하는 것이 필요하다. 
그러므로 가설설정을 위한 3가지 조건이 나옵니다.

 

 

가설설정 조건 3가지

여기부터는 위에서 혼란을 겪었던 X,  Y, 데이터를 설정하기 위해서 가설설정 조건 3가지가 나오게 됩니다.

1. 상호배반적(Mutually Exclusive) : 나의 주장과 대주주장은 모호함 없이 독립적이어야 하며 서로 교집합이 없어야 합니다.c

출처 : https://www.onlinemathlearning.com/mutually-exclusive-events.html

이게 무슨 얘기임 ? 
-> 거짓말쟁이를 정의하는 것을 말하는 것입니다. 
예를 들어) 10번중에 6번 거짓말을 하는 사람을 거짓말쟁이라고 할거냐 아니라고 할거냐 
와 같이
거짓말쟁이를 어떻게 정의하지? 어느 수준이 거짓말쟁이라는 거지?

그래서 기존의 주장을 변경해보았습니다.
- 대중들의 주장(A) : 모든 양치기들이 다 거짓말쟁이는 아니다.   
-       나의 주장(B) : 양치기들은 다 거짓말쟁이다.

양쪽 주장 다 상호배반적으로 바뀐 것을 볼 수 있습니다.
다음은

 

2. 증명가능성(Demostrable) : 성급한 일반화에 빠지지 않으려면 증명 가능한 것이나 범위로 내세워야 합니다.

이건 또 뭔소리임?
위에서 주장했던
● 대중들의 주장인 "모든 양치기들이 다 거짓말쟁이는 아니다."는
    ->대다수의 양치기들은 거짓말을 하지 않고 아주 일부의 양치기들은 거짓말을 할 수 도 있다는 의미가 될 수 있고
● 나의 주장인 "양치기들은 다 거짓말쟁이다."는
    -> 양치기는 전부 다 거짓말쟁이다.라는 의미인데 

여기서 우리가 의심해야할 점은
(의심1)
"우리가 모든 양치기들을 다 조사할 수 있냐!!" 입니다.
이것을 데이터로 얘기하면
"지구상에 존재하는 모든 양치기들에 대한 데이터가 있어야한다."라는 의미가 될 수 있습니다.
그냥 뭐 불가능에 가깝다고 아니 그냥 불가능하다고 볼 수 있습니다.

(의심2)
"모든 양치기를 조사후에 현재에 거짓말쟁이가 없다고 하더라도 과거에는 거짓말을 했을 수 도 있다."는 것입니다.

따라서 양치기 데이터가 있다고 하더라도 어느 시점에 데이터를 뽑느냐에 따라 달라질 수 있다는 것입니다.
역으로 얘기하면 데이터는 현재에만 있지 과거에는 없을 수 도 있다는 것입니다.

이런 의심들을 모두 반영하여 다시 질문을 변경해봅니다.

- 대중들의 주장(A) : 그들이라고 일반적으로 더 거짓말을 하는 경향이 있지는 않다.
-       나의 주장(B) : 현재 대한민국에 있는 양치기들은 일반적으로 거짓말하는 경향이 있다.

나의 주장에서는 현재로 시점을 정해주고 글로벌이 아닌 대한민국으로 범위를 좁힘으로써 좀 더 증명가능할 수 있는 주장으로 변경하였습니다.

대중들의 주장와 나의 주장에서는 "거짓말을 하는 경향이 있다"라고 적혀있는데 그래서 경향이 뭐야?? 

경향의 기준을 설명하기위해 마지막으로 아래와 같이 나오게 됩니다

 

3. 구체적(Specific) : 충분히 구별되고 실현가능한 표현으로 정의되어야 합니다.

경향에 대해 충분히 구체적으로 정의하기 위해 주장들은 다음과 같이 변경됩니다.

- 대중들의 주장(A) : 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 한다.
-       나의 주장(B) : 현재 대한민국에 있는 양치기들은 일반인 대비 거짓말을 많이 하지 않는다.

경향을 "일반인 대비 거짓말을 많이 한다/하지 않는다"    로 구체화하였습니다.

 

이와  같은 과정들을 통해 
가설변경에 따라 데이터분석이 변경되게 됩니다.

이런 가설검정을 거치면서 여기서는
현재 + 대한민국 + 횟수 라는 데이터가 X에 포함시키게됩니다.

고로 이런 가설검정들이 진행이 되어야 데이터 세팅에 대한 준비가 가능하게 됩니다.

따라서 이 3가지 조건을 가정으로 하여 실제 가설검정 절차는 다음 시간에 이어서 하도록 합니다.  

 

 

 

 

 

본 노트는 패스트캠퍼스 <파이썬을 활용한 시계열 데이터 분석 A-Z 올인원 패키지 Online.>의 강의노트 및 강의를 필기한 자료입니다.