제삼취미/통계

기술통계(descriptive statistics)

카리스χάρης 2022. 11. 18. 17:30

기술통계는

자료를 수집하여

정리하고 요약하고 단순화 하는 것

 

자료의 단순 분포 패턴을 관찰하거나

평균이나 최빈값등의 대표값을 살펴보거나

빈도를 표시하거나

표나 그래프를 사용하거나

 

함. 

 

 


-- 빈도표 :

각 계급별 빈도를 나타내는 표임

성적 학생수  
10~30 40 800
30~50 20 800
50~70 23 1380
70~90 12 960
총값 95 3940

 

성적(x)에 대한 빈도가 a라고 하면 전체 학생수는 95, x의 총값은 [f(x) = ax] 가 된다.

 


-- 빈도 그래프 :

(1) 막대 그래프 - 명목자료(대부분 이산자료)들의 빈도를 막대로 나타낸 그래프임. 자료들의 배열 순서를 바꿔도 됨.

(2) 히스토그램 - 구간/비율 자료의 빈도를 나타내는 그래프임.

      Histogram의 어원은 history 를 나타낸 그림(gram)이라는 뜻. 히스토 그램은 개념적으로 막대 그래프 보다는 꺽은선 그래프와 가깝다. 막대 윗부분의 선의 변화에 의미를 두기 때문. 그래서 history-gram임. 그러나 실질적 사용에서 막대적 특성으로 보든 계단형 선으로 보든 크게 상관없음. 시작은 계단형 선의 의미에 가까웠으나 요즘은 그냥 개념 구분 없이 그냥 사용함. 여튼 계단형 선의 흐름이라는 맥락에서 히스토 그램은 연속자료를 다룰 때 사용함. 자료들의 배열 순서를 바꿀 수 없음.

 

(3) 원그래프 (pie chart) - 명목 자료, 빈도를 비율화하여 부채꼴들의 모임으로 원 모양을 만듬. 명목자료이므로 자료들의 위치를 바꿀 수 있음. 

 

(4) 상자그림 (box plot) - 중간값 사분위값이 상자형태로 표현된 그래프임. 연속자료에 사용됨. 자연스럽게 최대값, 최소값도 표시됨.

예를들어 13개의 자료(2, 5, 6, 7, 10, 20, 22, 25, 30, 50, 62, 70, 100)를 순서대로 정렬했을 때,

2는 최소값, 7은 1/4값, 22은 중간값, 50는 3/4값, 100은 최대값이 됨. (최소값과 최대값의 평균값을 중간값으로 오해하지 말것.)

딱 떨어지는 중간값이 없으면 중앙의 두 수의 평균값이 중간값이 됨. 사분위수도 마찬가지, 딱 떨어지는 값이 없으면 양쪽 수의 평균값을 계산함.