데이터 분석

형태 통계량(분포 형태 & 왜곡 수치) (왜도, 첨도, 이상치) (Skewness, Kurtosis, Outlier)

로스브로크 2022. 1. 18. 00:13

출처 : https://www.researchgate.net/figure/Illustration-of-the-skewness-and-kurtosis-values-and-how-they-correlate-with-the-shape-of_fig1_298415862

형태통계량은 자표의 분포형태와 왜곡수치를 나타내는 통계량이다.

 

왜도(Skewness) : 중앙값이 평균을 중심으로 좌우로 데이터가 편향되어 있는 정도

중앙값과 변동통계량(범위, 편차, 변동, 분산, 표준편차 등)만 보더라도 중앙값 퍼짐을 알 수 있을텐데 왜 필요할까?

그럼에도 불구하고 조금 더 알고싶은 것이 있기 때문에 필요하다.

그래서 위에서 왼쪽 그림처럼 Positive하게 되어있는지 Negative하게 되어있는지 바운더리를 경계로 어느쪽으로 치우쳐져 있는 지를 표시하는 것을 의미합니다.

그래서 이게 왜 필요하냐!!

예를들어)   

매일 주식투자를 한다고 생각해본다.
그럼 매일 매도와 매수를 거치면서 수익이 발생하게 된다고 생각해보자.
10번의 거래(투자)를 진행했다고 한다.

티모 : -3만원, -2만원, +1만원, -2만원, +3만원, -5만원, -6만원, -7만원 ........
아리 : +3만원,  +2만원,  +1만원, +2만원, -3만원, -5만원, +6만원, +7만원 ......... 

티모의 수익률을 다 따져봤더니 =====> 수익률(평균 0,  분산 1)이 나왔고
아리의 수익률을 다 따져봤더니 =====> 수익률(평균 0,  분산 1)이 나왔다.

그런데 잘 보면 티모는 음수(-)가 6번 정도가 나왔고
                    아리는 음수(-)가 2번 정도 나왔습니다.

아무래도 같은 평균이 0과 분산이 1이라고 하더라도 
마이너스(-)를 많이 기록하더라도 큰 양의 수익률을 얻느냐
아니면
플러스(+)를 많이 기록하더라도 큰 음의 수익률을 얻느냐

에 차이가 있을 수 있습니다.

이것을 확인할 수 있는 것이 바로 왜도(Skewness) 입니다. 

출처 : Assetinsight.net

위 그림으로 예를 들어)
가운데가 0이라고 하면 
Negative Skewness는 양의 수익이 훨씬 많은 케이스
Positive Skewness는 음의 수익이 훨씬 많은 케이스
라고 할 수 있습니다.

그래서 훨씬 더
보수적인 투자는 수익은 종종 나더라도 크게 잃는 것은 적었으면 좋겠다. ==> Negative Skewness

가 될 수 있겠습니다. 

 

 

2. 첨도(Kurtosis) : 뾰족함 정도

출처 : chttps://www.daytrading.com/kurtosis

위와 같이 수익률을 히스토그램으로 그렸을 때
가운데 Normal Distribution과 같이 정규분포 모습을 띄고 있는데
정규분포 보다 훨씬 위로 삐져 나와있거나
                          아래로 삐져 나와있는 경향을 얘기하는 것을
첨도(Kurtosis)라고 합니다.

첨도가 위로 튀어나와 있는 것을 뭐가 중요하냐고 할 수 있는데
위로 튀어나와 있는 것보다 양쪽 끝의 값이 더 중요합니다.

Positive Kurtosis의 경우 빠르게 양끝으로 수렴하는 반면
Negative Kurtosis의 경우 끝이 두꺼운 것을 볼 수 있다. <==== 이런 것을 Heavy Tail 특성이라고 합니다.

이게 왜 중요하냐!

주로 가운데에 있는 뾰족한 쪽을 대상 층으로 비지니스를 하고 싶어하는 경향이 있는 비지니스가 있는 반면
극단적인 사람들을 대상(양쪽 끝)으로하는 비지니스가 있을 수 있습니다.

예를 들어)
아마존 같은 회사는 A-Z까지 모든 것을 비지니스화하고 팔겠다라는 목적을 갖고 있습니다.
그러다 보니 주로 가운데보다는 Tail을 두껍게 가져가는 비지니스를 펼칩니다. 

또 예를 들어)
아마존에서 주로 많이 팔리는 책이 있는가 하면(가운데 뾰족함)
그거 말고 이상하게 별로 많이 팔리지는 않는데 그런 고객한테(양쪽 끝) 어필을 많이해서 계속 수익을 높여가면서 꼬리를 두껍게 만드는 정책을 펼친다. 
why? 대부분 다른 회사들은 가운데만 신경을 쓰기 때문에 일반적인 책들만 공급을 하려고하는 반면
       이로 인해서 소외된 양쪽 끝의 고객들을 아마존은 다 끌어들이는 정책을 펼친다. 
Therefore! 양쪽 끝의 고객층까지 수익으로 이어지면서 고객들이 지속적으로 재방문을 하면서
              Positive Kurtosis(일반 회사들) 보다 훨씬 비중이 덜한 책들을 판매하는 비지니스를 구축하는 것입니다.

그래서 결론은 가운데 뾰족함보다는 양쪽 끝이 더 중요하다는 것입니다.

 

 

따라서 우리는 왜도, 첨도 두가지만 가지고도 일반적인 비지니스나 데이터에 대한 해석을 할 수 있다.

 

3. 이상치(Outlier) : 오류로 판단하는 값이지만 기준이 불명확

출처 : https://medium.com/@Aaron__Kim/outlier-%EB%AA%A8%EB%91%90-%EC%A0%9C%EA%B1%B0%ED%95%B4%EC%95%BC%ED%95%A0%EA%B9%8C-3aec52ef21b1

이론적으로는 위 그래프들과 같이 꼬리에 있는 부분을 Outlier라고 합니다.

그러니까 아마존은 Outlier만 비지니스로 하는 틀입니다. 

데이터가 많지 않았던 시절에는 일반적인 특성을 알고자하는 노력이 많았기 때문이다.

그러다 보니까 양끝에 있는 값을 Outlier라고 정의를 하고 있지만 

Outlier라고 하는 것은 
굳이 특정한 분포상에서 벗어나있는 비율만 얘기하는 것이 아니고 
정의하기 나름입니다. (굉장히 많은 정의가 존재한다.)
어떤 것을 Outlier라고 할 것인지도 굉장히 중요한 Question 중 하나입니다.

따라서 특정한 답이 있는 것은 아니고 이런 이상치를 찾고자 하는 노력
특히 이런 빅데이터의 시대에는 어떤 것이 Outlier인지에 대한 질문이 굉장히 많습니다.
데이터가 굉장히 많다보니까 
에전의 일반적인 통계적인 방향에서는 Outlier라고 볼 수 있는 것들이
아마존 같은 기업처럼 비지니스 모델이 성공하면서 Outlier 중요성이 부각되면서 
Outlier 자체도 데이터라고 판단하는 상황이 오다보니 
무엇이 Outlier인지 헷갈리게 된다.

따라서 그런 케이스에서 Outlier는 논란의 여지가 있지만 
분석가들 입장에서는 중요하게 봐야하는 것 중 하나입니다.

 

 

 

본 노트는 패스트캠퍼스 <파이썬을 활용한 시계열 데이터 분석 A-Z 올인원 패키지 Online.>의 강의를 필기한 개인 학습노트입니다.