통계분석을 통해 데이터에 좀더 체계적으로 접근해보자.
기초통계분석에 대해 정리한 내용을 바탕으로 실무까지 적용해보자.
변수란 무엇인가? 변화하는 수의 집합 즉, 데이터라고 볼 수 있다.
< 변수의 종류 >
- 연속변수 : 연속적인 값을 갖는 변수(Ex. 나이, 점수, 무게, 가격 등등..)
- 이산변수(범주변수) : 서로 다른 것으로 구분되는 변수(Ex. 성별(남/녀), 색깔(빨강, 파랑, 노랑..)
- 성별의 범주에 있는 데이터, 색깔의 범주(Category)에 있는 데이터..
그렇다면 이러한 데이터(변수)를 어떻게 측정/표현할까? 척도의 개념에 대해서 알아보자.
척도(Scale)란, 측정된 변수의 값을 표현하는 수준이다.
척도도 여려가지가 있는데 여기서는 네가지 정도로 나눠보도록 하겠다.
구분 | 예시 | 측정값의 구분 | 순서 | 간격 | 사칙연산 | 빈도 |
참고 | 예시 | 측정값이 같고 다름을 말할 수 있나? | 측정값들 사이의 순서가 있나? | 측정값 간격이 동일한가? |
사칙연산이 가능한가? |
빈도 측정이 가능한가? |
명명척도 | 혈액형 | O | X | X | X | O |
서열척도 | 직급 | O | O | X | X | O |
등간척도 | 온도 | O | O | O | 일부(덧셈, 뺄셈) | O |
비율척도 | 길이 | O | O | O | O | O |
- 예를 들어 수집한 데이터가 혈액형 데이터라고 한다면, 이는 명명척도를 이용해 그 수준을 표현할 수 있고, 각 데이터는 같고, 다름을 표현할 수있으나 데이터간의 순서나 간격은 없고, 사칙연산 또한 불가능하다. 그러나 빈도수는 측정해 볼 수 있다.
- 또한 직급 데이터의 경우 서열척도로 그 수준을 표현할 수 있고, 부장과 과장의 서열 즉, 순서에 대해서 구분할 수 있으나, 부장-과장, 과장-대리 의 간격이 동일하다고 볼 수 없으며, 부장 = 과장 + 과장 의 사칙연산이 불가능하다.
- 그러나 온도 데이터와 같이 각 온도간의 값의 구분이 가능하고, 순서가 있으며 1도 또는 0.1도의 동일간격으로 측정이 가능하며 덧셈과 뺄셈정도의 일부 사칙연산이 가능한 데이터는 등간척도를 적용해 그 수준차이를 확인할 수 있다.
- 마지막으로 길이의 경우 등간척도에서 절대 영점을 추가한 비율척도로 값을 표현할 수 있으며, 사칙연산(덧셈, 뺄셈, 곱셈, 나눈셈)이 가능한 데이터의 수준을 다각도로 표현할 수 있다.
- 참고로 위 등간척도와 비율척도에서 주 차이점이 되는 0의 절대적 의미와 곱셈, 나눗셈에 대한 내용에 대해서 추가하자면, 온도의 경우 섭씨 0도라고 해도 화씨로 변경했을 때, 화씨32도가 되어 0의 값이 측정 온도값에 따라 달라질 수 있다.
- 그리고 섭씨 20도는 섭씨 10도의 2배로 표현할 수 있으나 화씨로 바꾸면 각각 50도와 68도가 되어 1.36배에 불과 하여 곱셈 또는 나눈셈을 적용할 수없다고 볼 수 있다. 반면 길이의 경우 0mm = 0cm = 0m = 0km 모두 동일하며 이를 절대 0점으로 표현하였고, 각 단위에 상관없이 곱셈, 나눗셈이 가능한 데이터 이다.
위에서 말한것과 같이 데이터에 따라 척도를 달리적용해야고 결국, 척도에 따라 적용가능한 통계분석방법이 달라지게된다. 그래서 우리는 척도가 중요하다고 말하는 것이다.
그리고 숫자로 표현된 경우라 하더라도 무조건 사칙연산이 가능하지 않는것을 염두하고 그 숫자의 의미(척도)를 이해해야 데이터 분석에 오해가 없다.
예를 들어, 남자=1, 여자=2로 표현한 경우 수로 표현하고 있지만 1+1=2와 같이 계산하게되면 남자+남자는 여자와 같다는 이상한 해석이 되어 버린다.
앞으로 데이터 분석을 위해 수집 데이터는 가능하다면 "비율척도" 또는 "등간척도"의 형태로 수집하는것이 분석에 용이하며, 연령을 조사할 때 서열척도인 "어린이, 청년, 장년, 노인"과 같이 나누어 조사하면 어린이 몇명 청년 몇명등 단편적인 분석만 가능하나, 비율척도인 만 나이로 조사함으로써 다양한 분석이 가능하다.
'Data Science' 카테고리의 다른 글
[Data Science 기초] 데이터 분석을 위한 기본 (0) | 2022.06.28 |
---|---|
판다스 극강의 라이브러리!! (0) | 2022.03.28 |
[수학]가설검정 (0) | 2022.01.05 |
[수학] 데이터 분석 (0) | 2022.01.05 |
[Pandas] 판다스 value_counts() 이용하기. (0) | 2022.01.05 |