데이터 분석 3

A/B Test (가설검정) - 가설검정 정리 및 절차

일단 용어에 대해서 정리를 진행해보겠습니다. - 모집단(Population) : 연구(관심) 대상이 되는 전체 집단 - 표본(Sample) : 모집단에서 선택된 일부 집단 - 전수조사(Population Scale Test) : 모집단 모두를 조사하는 방식으로 시간과 비용이 가장 비효율적인 방식(ex. 인구주택 총조사) - 표본조사(Sample Scale Test) : 표본집단을 조사하는 방식으로 시간과 비용을 크게 줄일 수 있으나 편향성(Bias) 문제가 존재 (ex. 출구조사, 여론조사) * Sample을 편향되게 만드는 방법 * Sampling 과정에서 생기는 Bias 제거하는 방법 - 추론통계(Statistical Inferance) : 모집단에서 샘플링한 표본집단을 가지고 모집단의 특성을 추론하..

데이터 분석 2022.01.19

A/B Test(가설검정) - 가설설정 조건 3가지

A/B Test가 왜 필요해? 필요1 : 대부분의 문제를 정의한다고 할 때 'A/B Test(비교)'를 기반으로 하고 있다. 필요2 : 설명력과 모델복잡도는 반비례하는 경향이 있기 때문에, 설명력이 수반되는 모델들은 가설검정 해석이 필수이다. 이게 뭔 소리냐? 필요1에 대한 설명) 우리가 만든 알고리즘이 있거나 무언가가 좋다라고 얘기를 할 때 가장 쉽게 할 수 있는 것이 비교입니다. 이전 것을 비교한다던지 새롭게 만든게 어떠한 대상보다 좋다라고 어필하며 비교하는 것이 가장 좋은 방법이다. 또한 일상생활속에서도 상대평가 OR 비교와 마찬가지로 가설검정이라는 것도 A/B Test 라는 비교를 기반으로 하고 있습니다. 필요2에 대한 설명) 전통적인 수학을 기반으로 하고 있는 방법론들은 분석의 구현이나 결과에 ..

데이터 분석 2022.01.18

형태 통계량(분포 형태 & 왜곡 수치) (왜도, 첨도, 이상치) (Skewness, Kurtosis, Outlier)

형태통계량은 자표의 분포형태와 왜곡수치를 나타내는 통계량이다. 왜도(Skewness) : 중앙값이 평균을 중심으로 좌우로 데이터가 편향되어 있는 정도 중앙값과 변동통계량(범위, 편차, 변동, 분산, 표준편차 등)만 보더라도 중앙값 퍼짐을 알 수 있을텐데 왜 필요할까? 그럼에도 불구하고 조금 더 알고싶은 것이 있기 때문에 필요하다. 그래서 위에서 왼쪽 그림처럼 Positive하게 되어있는지 Negative하게 되어있는지 바운더리를 경계로 어느쪽으로 치우쳐져 있는 지를 표시하는 것을 의미합니다. 그래서 이게 왜 필요하냐!! 예를들어) 매일 주식투자를 한다고 생각해본다. 그럼 매일 매도와 매수를 거치면서 수익이 발생하게 된다고 생각해보자. 10번의 거래(투자)를 진행했다고 한다. 티모 : -3만원, -2만원,..

데이터 분석 2022.01.18