통계학에 대한 기본적인 자료형 개념
명목척도, 서열척도, 등간척도, 비율척도에 대해 논해보자.
통계학의 구성체계
기술통계학에서 데이터를 정리하고 요약해서 통계량을 계산하고 그래픽으로 표현한다.
이것이 결국 자료를 수집하고 요약해서 해석하는 것이다.
이를 추론통계학에서는 모수추정, 가설검정, 분산분석, 회귀검정, 적합도검정 등 수학적인 테크닉을 사용하여 모집단(모수)를 추정해나간다고 보면 된다.
응 어렵고
이전에 말했던 기술통계학과 추론통계학을 이해했다면 물론 쉽게 이해가 될 겁니다.
무슨 내용인지 모르겠다면, 반드시 읽고 오세요 얼마 안걸려요 !!
koreadatascientist.tistory.com/64
수학적인 테크닉 용어에서 흠칫했다면, 당신은 진정한 문과생(아니라면 죄송합니다;)
저는 쓰는 이 시간 마저도 흠칫흠칫 하고 있어요.
그니까 조금 더 직관적으로 표현하자면,
내가 눈가리고 어떤 물체를 맞춰야 하는데,
그러기 위해서 만져보고 냄새도 맡고 먹어도 보고 느껴도(?)💋 봐야 한다는 것이다.
여기서 말한 다양한 방법들이 결국 모수추정, 가설검정, 분산분석, 회귀검정, 적합도검정라는 괴상한 용어의 수학적 테크닉이란것을 의미한다.
우리는 저 코끼리를 맞추는 행위를, 위대한 수학자들의 공식을 빌려와 수치적으로 계산하는 정도의 차이가 있을 뿐이다.
하지만 너무 쫄지마세요~ 모든 것들은 컴퓨터들이 다 해줍니다.
물론 그 원리를 알고 있다면 활용하기에 훨씬 용이하겠지요.
핵심은 "오늘 저 내용 안나가니 쫄지 말고 on and on !"
이제 한번 더 깊게 기술통계학에 대해 다뤄보겠습니다.
사실 기술통계학은 크게 다룰게 없으니 한번 집중해주세요
이 별거 없어보이는 개념이 결국 추론통계학에서도 쓰이니까요 !!
자료의 정리와 분석
(4, 5는 조금 안익숙할 수 있지만 약간의 그림만 첨부할테니 깊게 이해하려고 하지 마세요)
- 표
- 그림
- 숫자(대표값, 산포도 등)
- 분포와 밀도곡선
- 탐색적 자료분석과 통계그래픽스
먼저 자료에 대한 개념부터 살펴보자.
자료는 간단히 관찰단위(관찰대상,객체)가 행(가로)과 열(세로)로 구성된 행렬이라고 보면 된다.
사는곳 | 성별 | 나이 | 평균연봉 | 수명 | |
인간 | 지구 | 남녀 | OO | OO만원 | 80세 |
동물 | 지구 | 암수 | OO | 1만원 | O세 |
참새 | 지구 | 암수 | O | 0만원 | O세 |
변수는 관찰단위에서 관찰하고자 하는 특성 또는 분석하고자 하는 특성을 말하며, 만일 조사표를 사용한다면 조사표에 있는 질문 하나하나가 변수가 된다고 보면 된다.
설문조사 해보셨죠? 거기서 "어디사세요" "몇살이세요" 이런것들이 변수가 되는 것입니다
조금 더 찐한 예시
설문조사 질문에 대해 여러분들이 아래와 같이 답했을거에요
몇살이세요? 20살, 어디 사세요? 서울
그렇다면!
- 나이 = 20살
- 지역 = 서울
위와 같이 변수가 할당된다는 느낌만 갖고 계세요. (단어가 좀 조잡하지만 느낌만 가집시다)
필요에 따라 변수를 묶거나 질문에 여러개의 변수를 포함하기도 한다.
예를 들어 국어 영어 수학 사탐 과탐 점수를 가지고 통계점수를 낼 때, 국어 영어를 묶어서 언어적인 특징의 변수로 만들 수 있다는 의미이다.
데이터의 분류
데이터의 척도(측정수준)에 따른 분류로는 크게 4가지가 있습니다
- 명목척도
- 순서척도
- 구간척도
- 비율척도
- 명목척도
- 우선 명목척도는 쉽게말하면 데이터의 순서나 크기의 의미가 없는 전화번호나 등록번호 성별 혈액형 등 그냥 단어, 명사, 계산 못하는 숫자와 같은 것들이라고 보면 됩니다.
- 순서척도
- 순서척도는 말그대로 순서를 나타내는데 서열척도라고도 한다. 딱 순위 그 자체만 있고 간격은 의미가 없습니다. 금메달 은메달 동메달은 단순히 1,2,3등일 뿐이지 3등에서 2등을 뺀게 1등이라는 이상한 수학문제는 없듯이 간격자체에는 의미가 없습니다.
- 구간척도
- 구간척도는 등간척도라고도 불리는데 위의 순서척도의 개념인 순서의 개념을 갖고 있으며 이 뿐만아니라 간격(차이)의 의미가 있는 것입니다. 그러나 배수, 비율의 개념은 없다. 섭씨온도나 지능지수를 예로 들 수 있습니다.
- 섭씨온도는 단순히 0인걸 정한 것입니다. 0이라는게 온도가 없다! 라는 의미가 아닙니다. 그래서 엄밀히 10도씨는 5도씨의 2배이다. 라는 말은 옳지 않다고 볼 수 있다. 상대적인 온도입니다.
- '상대적' 이라는 것은 비율이 의미가 없다고 생각하면 좋습니다.
- 지능지수도 기준이 100이고 집단의 평균보다 높으면 100위고 반대면 아래입니다. 그렇듯 100기준으로 상대적으로 위치가 달라질 뿐이지 그 자체의 숫자(예를들면111)이 절대적이지 않습니다. 경쟁자들에 따라 111이 99로 될 수도 있기 때문입니다.
- 비율척도
- 마지막으로 비율척도는 대빵입니다. 위에 있는 애들의 개념을 모두 갖고 있으며 비율로 나타낼 수 있습니다. 즉 영점의 개념이 있다는 것인데 몸무게가 0kg이다 라는것은 몸무게가 없다! 라는 것과 같은 의미라고 보면 됩니다. 👏농도0은 농도가 없다! 키가 0은 키가 없다!
표를 이용한 자료의 정리와 분석
데이터라는 것은 중구난방으로 써놓아도 물론 데이터지만, 특성을 파악하기 힘들다.
그래서 정리와 요약이 필요하다. 이것을 표로 나타내면 직관적으로 알아보기가 좋다.
우선 그 방법 중 첫번째 도수분포표에 대해서 다뤄보자
도수분포표
도수분포표는 형제가 0,1,2,3,4,5명인 사람들을 각각 세서 몇명인지 해당 형제의 수 옆에 도수(인원)을 적어주는 식이다. 이러한 도수분포표에 나타나는 내용으로는 아래와 같다.
형제 수 (계급) | 학생 수 (도수; count) |
0 | 15 |
1 | 17 |
2 | 13 |
3 | 8 |
4 | 3 |
5 | 1 |
- 계급: 형제 몇 명? 했던 내용
- 도수: 형제 1명에 속하는 사람은 몇 명? 5명이다 --> 5명이 형제 1명에 해당하는 도수이다.
- 상대도수: 도수/전체데이터의수 : 50명이 조사했는데 형제 1명에 속하는 계급의 상대도수는 5/50으로 0.1 혹은 10%이다.
- 누적도수: 첫 계급부터 현재까지 누적된 데이터의 수를 나타내는데 형제 0명이 10명이고, 형제 1명이 5명이면 형제 1명의 누적도수는 총 15명이다.
- 상대누적도수: 첫 계급에서 현재 계급까지 누적된 도수의 비율을 의미하는데 형제1명의 상대누적도수는 50명중 15명이므로 0.3 혹은 30%라고 볼 수 있다.
도수분포표는 연속형 범주 중에서 이산형 변수에 특화되어 있다. (= 실수보다 정수에 친화적이다)
그림을 이용한 자료의 정리와 분석
- 막대그림 - 도수분포표를 막대로 나타낸 것이다. 수평에 값(계급), 수직은 관찰된 빈도(도수).
- 꺾은선그래프
- 원그래프 - 각 항목이 차지하는 비율을 원의 중심각의 크기로 표시한다
- 히스토그램 - 히스토그램은 상대도수라고 보통 생각하는게 좋다. 그 면적의 합은 1이다. 이것에 대한 곡선은 분포곡선(밀도곡선)이라고 하는데 이 곡선의 내부 합도 1이다.
- 줄기잎그림 - 줄기와 잎으로 나눠진 부분인데 끝을 따라서 세로로 그림을 그리면 이는 분포곡선과 같다.
- 시도표 - 시계열 자료를 나타낸다.
조금은 길지만 내용은 크게 어렵지 않은 부분에 대해서 다뤄봤습니다.
자료형과 각 자료들을 나타내는 시각화들에 대해서 살펴봤는데요.
다음은 이러한 값들을 대표하는 값들이 무엇이 있는지 살펴보겠습니다.
과연 어떤 값을 대표적인 값으로 보여줄 수 있을까?
우리반에 남자 50명이 있는데, 어떤 값을 보여줘야 이들을 잘 설명할 수 있을까?
'파이썬 & 인공지능 > 수학 & 통계학' 카테고리의 다른 글
(비전공자를 위한 통계학) 평균, 분산, 표준편차의 개념, 자유도는 덤으로 ! (0) | 2020.10.07 |
---|---|
평균과 분산은 무엇일까? 비전공자들을 위한 통계 기초 (0) | 2020.10.06 |
기술통계학과 추론통계학에 대한 아주 친절한 설명(feat.비전공자를 위함) (0) | 2020.10.05 |
추정 (0) | 2019.11.19 |
가설검정의 5단계 절차 - 귀무가설(영가설), 대립가설(연구가설) (0) | 2019.11.16 |