[통계학] 분위수, 백분위수, 사분위수

2021. 3. 3. 23:59지식/수학

728x90

자 위표는 100명의 대학생의 통계시험 점수표다. 

 

점수를 보면 3점이 꼴등이고 100점이 1등이다. 

 

여기서 하위 20명을 과락 시킨다면 적어도 몇 점을 받아야 과락을 면할 수 잇을까?

 

정렬을 해서 확인을 해보면 최소 17점을 맞아야 과락을 면할 수 있다.

 

이렇게 경쟁이나 상대평가에서는 점수보다는 점수의 위치(순위)가 중요하다.

 

예를 들어 만약 물수능 이라면 98점을 맞아도 100점이 너무 많아 2등급이 되었던 것처럼 말이다.

 

여기서 분위수(Quantile) 란 위 예에서 과락의 기준인 17점 처럼 '기준이 되는 특정한 점수'들을 말한다.

 

그 중 가장 대표적인 예가 여러분이 한번은 들어 봤을 백분위수(Pecentile) 이다.

 

백분위수는 표본을 100등분하여 그 대표 기호인 %를 사용하는 분위수를 말한다.

 

예를 들면 위에서 예를 100명의 시험점수가 아니라 200명의 시험 점수라고 하면 

 

거기서 하위 20등이 아닌 20%를 지점을 잡아서 과락 시킬 수 있다.

 

통계학적인 표현으로는 '하위 20% 지점 또는 20% 지점' 이라고 표현한다.

 

말이 어렵지 대부분 사람들은 그냥 보면 이해가 될 것이다.

 

그렇다면 사분위수(Quartile) 무엇일까?

 

분위수를 데이터 분석에 활용할 때에는 물론 백분위수를 사용하여 위치를 확인 할 수 있지만

 

데이터의 종류가 많아지고 겹치다 보면 분석자 입장에서 하나 하나 백분위수로 알아보기도 힘들고

 

데이터의 전체적인 패턴을 한눈에 파악하고 싶을 때가 있다.

 

이때 생각한 것이 데이터를 4등분해서 보자 라고 한게 바로 사분위수 다.

 

처음 3개는 최솟값(0%)최대값(100%) 그리고 중앙값(Median)(50%) 이고

 

나머지 두개는 그 사이 지점인 25% 75%지점을 나눠준다.

 

그것은 각각 Q1(1st Quartile) Q3(3rd Quartile)이라고 부른다.

 

이렇게 5개의 지점으로 나눠주면 데이터는 정확히 4등분이 된다.

 

 

728x90