제삼취미/통계

연속자료 범주형자료[통계]

카리스χάρης 2022. 11. 17. 01:03

 

 

연속형 자료와 이산형 자료로 구분한다. 

보통 이산형 자료라고 하지 않고 범주형 자료라고 부른다. (나중에 연속형 자료를 이상형 연속형 이렇게 구분할때 또 헤깔리거든... )

왜 범주형 자료라고 부르느냐...

성적이 향상 됐다 아니다를 판단할 때, 연구자가 정한 기준 이상이면 성적 향상으로 정의하게 되고 이 기준에 따라 0,1과 같은 이산적 수치를 주기 때문에 이산형 자료라고 하는 것보다는 범주형 자료라고 부르는 게 더 정확한 표현임. 

(하나더!!  연속형인지 범주형인지 전문가들 사이에서도 의견 불일치가 있음. 그러니 너무 심각하게 고민하지 마시오. 성적의 경우 때에 따라 범주형이기도 하고 연속형이 되기도 하고... 통계에서는 자료의 특성이 자료에만 종속되어 결정 되는 것이 아니고 자료를 보는 연구자나 세상의 특성과도 연결되어 규정되기 때문임.)

 

 

범주형 자료 (Categorical data) 는 다시 Nominal and Ordinal 자료로 구분 가능함. 

Norminal data [명목자료] 학교, 성별 0,1 등 이름 값.
각 자료에 대한 개수를 세거나 빈도나 비율을 조사하는 것이 가능함. 
평균 계산하지 않음. 
순서를 매길 수 없음. 
범주형 자료라고 부르기도 함. 
Ordinal data [순서자료] 학년, 나이. 발달단계
순서적 자료 혹은 순서를 고려하여 입력한 자료. 

데이터가 속한 범주(Category)에 순서가 있으면 Ordinal data라고 한다. 
개수 세고, 빈도 및 비율 조사 가능.
평균값이 완전히 무의미 한 것은 아님. 

시험점수를 범주화 해서 서열 숫자를 부여하면 이게 또 범주적 순서 자료로 바뀜.
단순 labeling과 구분하자면, 학생의 소속 학급(학습의 이름은 나비반, 개미반도 가능하고 과학반, 수학반, 1반, 2반 등도 가능하므로) 은 아무 숫자에 대응시켜도 되는데, 연구자가 연구의 편의를 위해서 순서를 고려하여 숫자를 부여하면 순서적 자료가 된다. 
학년, 학교등급, 내신등급.

 

 

연속형 자료 (Continuous data) 는 다시 구간 자료(Interval data)와 비율 자료(ratio data)로 구분할 수 있다.  

구간 자료(Interval data) 구간이 있는 자료
시간 구간자료로 보는 경우. 수업 시간 11:00 ~11:50
다양한 연산을 수행할 수 있음. 
온도, 생일
비율 자료(ratio data) 기준과 비교된 수치 자료
(ex. 0점과 비교된 50점, 2시에 시작해서 2시 30분에 끝난 30분)
시간을 비율 자료로 보는 경우. 문제해결에 30분 걸림. 
성적, 나이, 교육비 등. 이것도 시간처럼 자료를 바라보는 방식에 따라 구간 자료도 될 수 있음. 

* 구간자료와 비율자료는 이산형과 연속형 둘 다 가능. 개별 성적은 연속 값이지만 집단 평균값으로 이산적으로 처리하여 비교함. 이산형 자료는 개별적으로 딱딱 떨어지는 값이고, 연속자료는 무수히 많은 값을 가짐. 성적이 1점부터 100점범위에서 이산적으로 결정되었더라도, 무수히 많은 값을 가지면 연속 자료로인데, 이것을 집단간 혹은 계급별 비교를 위하여 구간화 하고 구간값을 내세우면 이산자료가 됨. 

 

** 소숫점이 있으면 연속형, 없으면 범주형이라고 보면 됨.

 

 

자료를 수치화 하는 과정에 연구자의 관찰이나 이론이 개입되어 코드화 되면, 이들 자료는 질적 자료라 부름. 이것도 이산자료임. 

Qualitative data[질적 자료] 설문지, 관찰, 인터뷰를 통해 얻은 자료를 수치화한 값 (경제 수준, 성적에 따라 집단화한 그룹에 붙이는 숫자 등)/ 설명적이거나 개념적인 발견값임. 
학생들의 수학 불안을 인터뷰를 통해서 관찰할 때, 학생들의 목소리, 표정등을 연구자가 정한 범주에 따라 수치화 하면 질적 데이터임. 
반면 설문조사를 통해서 수학 불안의 정도를 학생들에게 체크하도록 했다면 양적 데이터임. 양적 데이터는 충분히 많으면 통계 분석을 위해 연속데이터로 처리됨.