땡땡 학교 학생을 대상으로 설문 조사를 실시했고,
그 중에 어떤 것은 범주형 자료이고, 어떤 것은 연속형 자료일 것이다.
학년, 성별, 지역등은 범주형 자료가 될 것이고,
성적이나 키 등은 연속형 자료가 될 것이다.
그런데, 수학에 대한 호감도나 오락 중독은 범주형 자료일까? 연속형 자료일까?
판단 기준은
그 자료에 대한 값의 수가 많냐 적냐? 그리고 그 자료로 내가 뭘하고 싶으냐에 따라 달라진다.
일단,
내가 수집한 자료 중에서
가능한 값의 수가 많으면 연속 자료라고 생각하면 된다.
얼마 이상 많아야 하느냐?
딱 정해지진 않았으
나~~
5개이상이면 괜찮다.
범주형 자료처럼 보이는게
연속자료 취급받는다?
기준은
나의 연구 목적이
자료의 기술에만 있지 않고, 관계, 차이를 분석하는 것에 있냐에 있다.
이때,
나는 연속 자료가 필요한 거고
그때는 내 자료가 연속자료다..... 라고 생각하면 된다.
물론 아무때나 그러면 안되지, 빨주노초파남보를 수치화 했다고 해서 이걸 연속자료다~ 라고 보면 안되겠지....
중독이다 아니다.
오염이다 아니다.
치료 효과가 있다 없다.
수학에 대해 호감이 있다 없다.
등의 질문은 예스 노 두 가지 답만 있도록 처리하면, 범주형 자료인것 같은데,
상황에 따라 그 정도를 구분하여 자료를 수입할 수 있다. 이런 자료는...
나의 분석 목적에 따라 연속자료로 처리하면 된다.
중독의 정도를 10으로 나누어 평가하거나, 치료의 정도를 7등분하는등.
자료에 부여된 수치의 개수가 딱 정해져 있지 않으나, 보통 다섯개 이상이면 연속자료로 보고 상관분석할 수 있다.
연속자료는
크게 구간자료와 비율자료로 구분함.
- 구간 자료 : interval data, 각 자료간의 차이는 해석할 수 있지만 딱 뭔가를 '0'이라고 규정할 필요 없음. (매우 싫다. 싫다. 중간, 좋다. 매우좋다.)를 (1,2,3,4,5) 해도 되고, (-2,-1,0,1,2) 해도 됨. 날짜나 온도.
- 비율 자료: ratio data, '0'을 정의 내릴 수 있음. 성적, 나이, 키 등.
연속 자료이기 때문에 평균, 중앙값, 최빈값등 중심경향성 (central tendency) 계산 가능함. 아울러 분산 표준편차도...
연속자료는 분포가 정규적이다 비정규적이다라는 판단도 함께 이루어진다.
자료의 표현 방법을 보자면,
연속자료이기 때문에 (막대 그래프 아니고) 히스토그램으로 표현한다.
고 하지만...
예를들어 엑셀에서 막대 그래프 도구를 사용해서 표현해도 됨. (상황에 따라
개념의 영역이랑 일러스트 영역을 일치시킬 필요는 없음. )
개념적으로 연속자료를 표현한 것은 히스토그램이라고 하고, 이산자료는 막대그래프로 표현한다고 하지만.
자료의 표현은 자료의 표현일 뿐.
자료를 일러스트 하는 과정에서 내가 사용하는 툴에 '히스토그램'이라는 도구가 없다고 당황할 필요는 없음.
[히스토그램 이야기]
다시 군더더기 말을 붙이자면,
히스토그램의 '히스토'는 history로 부터 온 말임.
년도별 쌀 생산량의 변화를 나타내기 위한 예를 상상하면 된다.
이 변화를 꺽은선 그래프로 표현해도 되지만, 연간 변화가 매우 작은 경우에는 꺽은선 그래프보다 계산형 그래프가 더 명확하게 변화를 표현한다.
여튼, 히스토그램은 막대그래프 보다는 꺽은선 그래프랑 더 닮은 친구라 보면 된다.
히스토그램은 막대 그래프 처럼 생겼지만 관심을 두는 대상이 계단형으로 움직이는 막대 윗부분의 선이고,
막대 그래프는 빈도를 나타낸 것으로써 막대의 길이 자체에 관심이 있다. 그리고 막대의 위치를 바꿀수 있다.
히스토그램에서는 막대의 위치를 바꿀수 없다.
'histo'니까.
'제삼취미 > 통계' 카테고리의 다른 글
연구가설 통계처리 전에 확인할 것 (0) | 2022.11.21 |
---|---|
정규성 검사의미, 정규분포 (0) | 2022.11.20 |
범주형 자료[교육연구] (0) | 2022.11.20 |
다변량 통계란 [교육연구] (0) | 2022.11.20 |
이변량 통계의 변수조건 (0) | 2022.11.20 |