비전공자도 쉽게 이해하는 대표값의 개념과 산포도의 개념 뿌시기!!


대표값을 배우기 전에 이전의 내용에 대해서 충분히 숙지했는지 확인해보고 올 것!! 

 

통계학 배우려면 자료형과 척도는 알아야지 (feat. 비전공자를 위한 조낸쉬운 통계학)

통계학에 대한 기본적인 자료형 개념 명목척도, 서열척도, 등간척도, 비율척도에 대해 논해보자. 통계학의 구성체계 기술통계학에서 데이터를 정리하고 요약해서 통계량을 계산하고 그래픽으��

koreadatascientist.tistory.com


우리 조직(학급이든 대학이든)에 50명의 남자가 있는데 이들의 특성을 어떻게 표현해줄까?

50명의 이름을 하나하나 나열해봤자 아무도 읽어주지 않을테고 뭔가 직관적인 것이 필요할 것 같다.

그것은 바로 단 하나의 수치!!

단 하나의 수치를 나타내줌으로써 해당 집단의 남성들의 특징을 보여줄 수 있을 것이다.

 

찐한 예

예를 들어 특정 조직의 남성 50명의 평균 나이가 66.7세라면 이 곳은 적어도 군대는 아닐 것이다. 

만약에 어떤 회사에서 이런 대상들을 상대로 제품을 홍보해야된다면, 아이패드가 효과적일까 도라지배즙이 효과적일까? 

적어도 전자는 아닐 것이다.

이런식으로 평균이라 함은 어떤 데이터들의 대표값으로 나타낼 수 있다.

평균이 모든 50명의 나이를 반영해주지 않지만, 이런식으로 구성되어있다는 느낌(?)은 줄 것이다.

 

평균은 대표값을 나타내는 방법 중 하나이다.

그 외에도 다양한 대표값이 있다.

  • 산술평균
  • 기하평균
  • 조화평균
  • 중위수
  • 최빈수
  • 다듬어진평균

하나하나를 일일이 외우기보다는

"아 평균으로 이렇게 다양한 경우가 있고, 평균이 아닌 애들 중에서는 중위수와 최빈수가 있구나."

정도로만 이해해보자

이 다양한 평균들의 핵심은 식 자체가 아니라!! 어떠한 상황일 때 어떤 평균의 계산법을 쓸지 정해야 된다는게 중요하다.


산술평균

우선 우리가 기본적으로 평균이라고 하는 것은 산술평균인데 이는 관측값을 모두 더한 값을 관측값의 수로 나누면 된다.

말이 복잡해서 그런데 50명의 학생들을 뽑아서 키를 잰 뒤에 다음과 같이 계산한다

모든 키를 더한 값 / 50명

그러면 해당 50명의 평균적인 키가 나올 것이다. 

그렇다 우리가 일반적으로 평균을 내는 방식은 산술 평균이다.

특징으로는 모든 데이터를 사용해서 어떤 계산된 값을 구하기에 적합하다는 것이다.

'모든 데이터'를 사용했다는 것이 주목할만하다.

 

그럼 완벽할까?

그러나 문제점이 있다.

어떤 이상치(특이한 값; outlier)가 있으면 그것에 의해 크게 좌지우지 된다는 점이다.

 

이상치가 평균을 망치는 예시

예를 들어 우리나라 과거에 연봉수준의 평균값이 3000~3500(만원)이라고 발표했다고 가정해보자.

그러면 어떤 사람은 내가 3300만원 이니까 우리나라 연봉의 50%(중간)쯤에 위치할 것이다 라는 생각을 할 수 있다.

하지만 이것은 큰 착각이다. 함정에 빠진 것이다.

이런 경우에 우리나라 사람 연봉을 한줄로 쭈우우욱 세워놓고 정확히 가운데 사람을 골라서 그 사람의 연봉수준을 체크해야 된다.

이것이 중위수(중앙값)이다. 한줄로 길게 늘여 놓은 것 중에 딱 가운데!

실제로는 평균이 3500이라고 해도 중위수는 2500인 경우도 허다하다.

왜냐면 돈이 많은 사람의 쪽으로 갈수록 너무 넘사벽으로 많아지기 때문에 평균점이 그쪽으로 쏠리는 것이다.

그러나 중위수는 액수와 상관없이 사람의 머릿수만을 고려하는 것이므로 돈 많은 사람쪽으로 쏠려가지 않는다.

이렇게 중앙값과 평균의 차이가 크면 클수록 이상치가 큰 영향을 끼친다고 볼 수 있으므로 이럴 경우에는 평균보다 중위수를 채택하는게 올바르다고 볼 수 있을것이다.


기하평균

기하평균은 식을 외우는거보다 '변동률'의 상황에서 적용한다는 것이 중요한 개념이다!

예를 들면 물가변동률이나 인구 변동률이 있다.

1년 2년 3년 4년이라는 곳에서 변동률이 매년 r1 r2 r3배 증가했다고 치면 연평균 증가율은 이 r1 r2 r3들을 다 더해서 3으로 나눈 값이 아니다. 산술평균처럼 계산하면 안된다는 의미이다.

여기서의 r은 기하평균의 공식에 대입한 값이 맞을 것이다.

수식적으로 접근하면 오히려 이해가 안될 수 있으니 변동률은 기하평균을 써야되는구나 라고 생각만 하자!


조화평균

조화평균이 의미있는 경우로는 지점간의 평균 속도를 계산할 때이다.

어떤 지점을 왕복할 때의 속도가 다르다고 가정할 경우 평균속도는 둘을 더해서 2로 나누는 것이 아니다.

속도의 평균은 총이동거리에서 총걸린시간을 나누기 때문이다. 

 

예시

출발지부터 목적지까지 가는데에 40km/h이 걸렸고,

목적지로부터 출발지까지 돌아오는데에 60km/h이 걸렸다면,

평균속도는 50km/h가 아니다! 48km/h이다!

전체 거리를 이동하는데에 48km/h로 달려야 동일한 시간에 왕복이 가능하기 때문이다.

 

위 예시 이해 안됨. 그러면 아래를 보자

평균구매력에 대해 살펴보자

서울시에서 A시장에서 2개에 1만원에 파는 물건이 있다고 치자. (그러면 1개에 5000원 정도네?)

옆동네 B시장에서는 3개에 2만원에 팔고 있다. (그러면 1개에 6700원 정도네?)

여기서 서울시에서 1만원으로 살 수 있는 수박의 평균 갯수를 구할 때 위처럼 산술평균을 써도 될까?

(그러면 A에서는 2개 사고, B에서는 1.5개를 사겠군?)

답은 안된다 이다.

이 경우에도 조화평균을 써야 한다.


최빈값(최빈: 최고 빈도)

최빈값의 대표적인 특징은 대표값 중 질적 자료에도 적용할 수 있다는 점이다. (성별, 혈액형과 같은 명목척도)

명목척도에 대한 개념이 익숙치 않다면 반드시 아래의 학습내용을 복습하고 오자!! (금방이다!!)

 

통계학 배우려면 자료형과 척도는 알아야지 (feat. 비전공자를 위한 조낸쉬운 통계학)

통계학에 대한 기본적인 자료형 개념 명목척도, 서열척도, 등간척도, 비율척도에 대해 논해보자. 통계학의 구성체계 기술통계학에서 데이터를 정리하고 요약해서 통계량을 계산하고 그래픽으��

koreadatascientist.tistory.com

 

혈액형 중 가장 많은 혈액형이 무엇인지 우리가 앞에서 봤던 도수분포표처럼 혈액형 범주별로 다 세서 나타내보면 누가 가장 빈도가 높은지 알 수 있을 것이다.

혈액형(계급) 몇 명(도수)
23 (최빈값, 최빈수)
B 15
O 11
AB 14

다듬어진 평균

평균의 문제점은 가장 큰 값과 가장 큰 값이 평균의 값을 흐트러트린다는 것인데, 이러한 단점을 보완해주는 방법이다.

 

예시1

300명의 국회의원 자산의 평균값을 구하려고 한다.

그런데 그 집단 중 국회의원 J씨의 자산은 1조가 넘어버린다

이럴 경우 평균은 특이한 값으로 인해 상당히 높은 값을 형성할 수 있다.

이럴 경우에 대비해 '다듬어진 평균'은 이러한 굉장히 높고 낮은 사람의 경우를 제외 시켜서

평균을 산정하는 것이다.

 

예시2

비슷한 로 올림픽 경기 심사점수 평균산정을 생각해보면 된다.

가끔 올림픽 경기중에 가장 높은 점수와 가장 낮은 점수를 제외시키는 것을 볼 수 있는데,

이것이 바로 특이값을 제외시키고 나머지를 평균치로 나타내는 것이다.

이는 산술평균의 단점을 보완하기 위해서 사용된다고 생각하면 된다.

 


 

대표값을 선정하는 기준

- 명목척도의 대표값은 최빈값을 쓴다. 

- 분포가 대칭이고 이상점이 존재하지 않으면 표본평균을 사용한다.

- 위와 반대로 비대칭적인 경우(이상점이 존재)에는 중앙값을 사용하고 표본평균과 비교해본다.

- 순서척도(서열척도;ordinal scale)는 중앙값을 사용한다.

 


 

대표값들의 비교

우선 그래프를 생각해봐야겠다.

우리가 보통 도수분포표에서 상대도수 히스토그램을 그리고서

해당 값을 선으로 부드럽게 이은 것을 밀도곡선, 분포곡선 이라고 한다.

이것의 내부의 합은 1이다.

어떠한 형태의 그림이 나오든 최빈값(Mode)를 알아보기는 쉽다.

봉우리가 가장 높은 쪽을 찾으면 된다.


다음으로 중앙값(Median)은 어떻게 구할까?

아까 분포곡선의 내부면적의 합은 1이라는 말을 기억하는가?

그러면 이걸 조금 활용해서, 내부의 합을 반으로 나누는 지점을 구할 수 있을까?

그렇다. 그 지점이 바로 중앙값이 되는 지점이 된다.


마지막으로 평균은 어떻게 구할까?

평균은 균형점을 찾는 것이다.

저울을 생각했을 때, 양쪽의 무게중심이 같아야 되는 것이다.

위의 그림에서 'ㅡ' 라는 바닥에 삼각형으로 어디에 위치시켜야

양쪽이 균형이 맞출지 생각하면 쉽다.

꼬리가 긴 쪽이 질량이 많다고 생각하면 평균은 꼬리가 긴 쪽에 가깝게 형성될 것이다.

위의 그림은 조금 이해가 안 될수도 있을 것, 본인도 조금 헷갈렸음.

꼬리가 매우 길다고 생각하는 편이 이해하기에 쉬울 것이다.

 


 

자, 여기까지 숫자를 이용한 자료의 요약으로 '대표값'을 배웠다.

그런데 어떤 데이터를 요약하기에 이러한 대표값으로 충분할까?

아니다.

(띠용?!)

 

대표값이 요약정보로 충분하지 않다는 증거

내가 어떤 두 학생을 과외를 맡았다.

두 학생의 평균은 50점이다.

각각의 학생을 알아봤더니 A도 50점, B도 50점이어서 평균이 50점이 나온것이다.

좋다. 두 학생은 비슷한 실력일테니 과외를 하는데 큰 문제는없을 것 같다는 생각이 든다.

 

자, 이제 다른 두 학생도 평균이 50점이다.

알고보니 C는 0점, D는 100점인 상태이다.

섣불리 과외를 승낙했다가는 고생길이 훤하다.

왜?

어느쪽에 맞춰서 공부를 시켜야 될지 가늠이 안된다.

이렇듯 대표값만으로는 자료의 요약을 모두 설명할 수 없다.

 

자 이제 대표값이 완벽하지 않다는 것을 알았다.. 어떻게 해결해야 될까?
그 전에 우리가 배웠던 것들에 대해서 아주 간단하게 살펴보고 해결책을 찾아보자!

요약정리

대표값: 어떤 데이터들의 수치를 대표해주는 값

  • 산술평균: 구하고픈 대상(키, 나이, 돈)을 다 더해서 머릿수만큼 나눠줌
  • 기하평균: 변동률 상황(물가 변동률, 인구 변동률)에 사용
  • 조화평균: 지점 간의 평균(평균 속도, 평균 구매력)을 구할 때 사용
  • 중위수: 재산 순위로 줄 세워서 가운데 사람(돈의 크기에 영향 받지 않음)
  • 최빈수: 많이 count 된 계급의 도수(ex.혈액형 A형이 제일 많다)
  • 다듬어진평균: 맨위와 맨아래와 같은 이상치들을 뺀 평균

대표값의 문제점

대표값으로 자료를 요약하기에는 부족하다.

어떤 자료값은 평균에 밀집해있고,

어떤 자료값은 최고점과 최저점에 밀집되어 있어서 우연찮게 평균이 가운데로 형성되었을 수도 있기 때문이다.

이러한 문제점은 대표값과 다른 개념을 하나 도입해야 된다.

바로 '산포도' 이다. 

산에 있는 포도라고?

 

산포도는 산에 있는 포도가 아니라...(예전 범위에서 기술가정 생각나는 사람 매우 옳은 사람)

 

기술통계학과 추론통계학에 대한 아주 친절한 설명(feat.비전공자를 위함)

기술통계학 기술통계학은 모집단으로부터 표본을 추출하고 나서 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약(숫자 또는 그래프)하는 절차를 다루는 분야이다.

koreadatascientist.tistory.com

 

산포도는 흩어진 정도를 나타내주는 것이다.

 

아래부터는 살짝 부장님개그

원래 포도는 수박이었다.

그런데 수박이 흩어져서 포도라는 알맹이로 되었던 것이다. 

이해를 돕기 위해서 헛소리좀 해봤고...(이타적인 드립 이해좀...)

 

즉, 흩어진 정도라는 것에 집중하자.

산포도는 흩어진 정도를 의미하며,

대표값으로는 평균이 우두머리지만,

산포도에서는 분산이 우두머리이다. 

그럼 표준편차는 뭔데? 

이렇게 말꼬리물면 끝이 없다. 다 쉽게 알려줄게!

 

오늘 충분히 배웠으니

해당 파트는 이어지는 내용에서 자세히 배우도록 하자!

지금 생긴 문제점을 잊지마라.
평균과 같은 대표값으로는 자료의 요약을 나타내기에 부족하다는 것이다

통계학에 대한 기본적인 자료형 개념

명목척도, 서열척도, 등간척도, 비율척도에 대해 논해보자. 


통계학의 구성체계

기술통계학에서 데이터를 정리하고 요약해서 통계량을 계산하고 그래픽으로 표현한다.
이것이 결국 자료를 수집하고 요약해서 해석하는 것이다.
이를 추론통계학에서는 모수추정, 가설검정, 분산분석, 회귀검정, 적합도검정 등 수학적인 테크닉을 사용하여 모집단(모수)를 추정해나간다고 보면 된다.

응 어렵고

 

이전에 말했던 기술통계학과 추론통계학을 이해했다면 물론 쉽게 이해가 될 겁니다.

무슨 내용인지 모르겠다면, 반드시 읽고 오세요 얼마 안걸려요 !!

koreadatascientist.tistory.com/64

 

기술통계학과 추론통계학에 대한 아주 친절한 설명(feat.비전공자를 위함)

기술통계학 기술통계학은 모집단으로부터 표본을 추출하고 나서 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약(숫자 또는 그래프)하는 절차를 다루는 분야이다.

koreadatascientist.tistory.com

 

수학적인 테크닉 용어에서 흠칫했다면, 당신은 진정한 문과생(아니라면 죄송합니다;)

저는 쓰는 이 시간 마저도 흠칫흠칫 하고 있어요. 

그니까 조금 더 직관적으로 표현하자면,

내가 눈가리고 어떤 물체를 맞춰야 하는데,

그러기 위해서 만져보고 냄새도 맡고 먹어도 보고 느껴도(?)💋 봐야 한다는 것이다.

장님 코끼리 만지기

여기서 말한 다양한 방법들이 결국 모수추정, 가설검정, 분산분석, 회귀검정, 적합도검정라는 괴상한 용어의 수학적 테크닉이란것을 의미한다.

우리는 저 코끼리를 맞추는 행위를, 위대한 수학자들의 공식을 빌려와 수치적으로 계산하는 정도의 차이가 있을 뿐이다.

하지만 너무 쫄지마세요~ 모든 것들은 컴퓨터들이 다 해줍니다.

물론 그 원리를 알고 있다면 활용하기에 훨씬 용이하겠지요.

핵심은 "오늘 저 내용 안나가니 쫄지 말고 on and on !"


 

이제 한번 더 깊게 기술통계학에 대해 다뤄보겠습니다.

사실 기술통계학은 크게 다룰게 없으니 한번 집중해주세요

이 별거 없어보이는 개념이 결국 추론통계학에서도 쓰이니까요 !!

 


자료의 정리와 분석

(4, 5는 조금 안익숙할 수 있지만 약간의 그림만 첨부할테니 깊게 이해하려고 하지 마세요)

  1. 그림
  2. 숫자(대표값, 산포도 등)
  3. 분포와 밀도곡선
  4. 탐색적 자료분석과 통계그래픽스

분포와 밀도곡선
인포그래픽, 통계그래픽스 (참고:F1nger)

 


먼저 자료에 대한 개념부터 살펴보자.

자료는 간단히 관찰단위(관찰대상,객체)가 행(가로)과 열(세로)로 구성된 행렬이라고 보면 된다.
  사는곳 성별 나이 평균연봉 수명
인간 지구 남녀 OO OO만원 80세
동물 지구 암수 OO 1만원 O세
참새 지구 암수 O 0만원 O세

변수는 관찰단위에서 관찰하고자 하는 특성 또는 분석하고자 하는 특성을 말하며, 만일 조사표를 사용한다면 조사표에 있는 질문 하나하나가 변수가 된다고 보면 된다.

설문조사 해보셨죠? 거기서 "어디사세요" "몇살이세요" 이런것들이 변수가 되는 것입니다

조금 더 찐한 예시

설문조사 질문에 대해 여러분들이 아래와 같이 답했을거에요

몇살이세요? 20살, 어디 사세요? 서울

그렇다면! 

  • 나이 = 20살
  • 지역 = 서울

위와 같이 변수가 할당된다는 느낌만 갖고 계세요. (단어가 좀 조잡하지만 느낌만 가집시다)


필요에 따라 변수를 묶거나 질문에 여러개의 변수를 포함하기도 한다.

예를 들어 국어 영어 수학 사탐 과탐 점수를 가지고 통계점수를 낼 때, 국어 영어를 묶어서 언어적인 특징의 변수로 만들 수 있다는 의미이다.


데이터의 분류

데이터의 척도(측정수준)에 따른 분류로는 크게 4가지가 있습니다

- 명목척도

- 순서척도

- 구간척도

- 비율척도

  • 명목척도
    • 우선 명목척도는 쉽게말하면 데이터의 순서나 크기의 의미가 없는 전화번호나 등록번호 성별 혈액형 등 그냥 단어, 명사, 계산 못하는 숫자와 같은 것들이라고 보면 됩니다.

  • 순서척도
    • 순서척도는 말그대로 순서를 나타내는데 서열척도라고도 한다. 딱 순위 그 자체만 있고 간격은 의미가 없습니다. 금메달 은메달 동메달은 단순히 1,2,3등일 뿐이지 3등에서 2등을 뺀게 1등이라는 이상한 수학문제는 없듯이 간격자체에는 의미가 없습니다.

  • 구간척도
    • 구간척도는 등간척도라고도 불리는데 위의 순서척도의 개념인 순서의 개념을 갖고 있으며 이 뿐만아니라 간격(차이)의 의미가 있는 것입니다. 그러나 배수, 비율의 개념은 없다. 섭씨온도나 지능지수를 예로 들 수 있습니다.
    • 섭씨온도는 단순히 0인걸 정한 것입니다. 0이라는게 온도가 없다! 라는 의미가 아닙니다. 그래서 엄밀히 10도씨는 5도씨의 2배이다. 라는 말은 옳지 않다고 볼 수 있다. 상대적인 온도입니다.
    • '상대적' 이라는 것은 비율이 의미가 없다고 생각하면 좋습니다.
    • 지능지수도 기준이 100이고 집단의 평균보다 높으면 100위고 반대면 아래입니다. 그렇듯 100기준으로 상대적으로 위치가 달라질 뿐이지 그 자체의 숫자(예를들면111)이 절대적이지 않습니다. 경쟁자들에 따라 111이 99로 될 수도 있기 때문입니다.

  • 비율척도
    • 마지막으로 비율척도는 대빵입니다. 위에 있는 애들의 개념을 모두 갖고 있으며 비율로 나타낼 수 있습니다. 즉 영점의 개념이 있다는 것인데 몸무게가 0kg이다 라는것은 몸무게가 없다! 라는 것과 같은 의미라고 보면 됩니다. 👏농도0은 농도가 없다! 키가 0은 키가 없다!

표를 이용한 자료의 정리와 분석

데이터라는 것은 중구난방으로 써놓아도 물론 데이터지만, 특성을 파악하기 힘들다.

그래서 정리와 요약이 필요하다. 이것을 로 나타내면 직관적으로 알아보기가 좋다.

우선 그 방법 중 첫번째 도수분포표에 대해서 다뤄보자

 

도수분포표

도수분포표는 형제가 0,1,2,3,4,5명인 사람들을 각각 세서 몇명인지 해당 형제의 수 옆에 도수(인원)을 적어주는 식이다. 이러한 도수분포표에 나타나는 내용으로는 아래와 같다.

형제 수 (계급) 학생 수 (도수; count)
0 15
1 17
2 13
3 8
4 3
5 1
  • 계급: 형제 몇 명? 했던 내용
  • 도수: 형제 1명에 속하는 사람은 몇 명? 5명이다 --> 5명이 형제 1명에 해당하는 도수이다.
  • 상대도수: 도수/전체데이터의수 : 50명이 조사했는데 형제 1명에 속하는 계급의 상대도수는 5/50으로 0.1 혹은 10%이다.
  • 누적도수: 첫 계급부터 현재까지 누적된 데이터의 수를 나타내는데 형제 0명이 10명이고, 형제 1명이 5명이면 형제 1명의 누적도수는 총 15명이다.
  • 상대누적도수: 첫 계급에서 현재 계급까지 누적된 도수의 비율을 의미하는데 형제1명의 상대누적도수는 50명중 15명이므로 0.3 혹은 30%라고 볼 수 있다.

도수분포표는 연속형 범주 중에서 이산형 변수에 특화되어 있다. (= 실수보다 정수에 친화적이다)

 

그림을 이용한 자료의 정리와 분석

  • 막대그림 - 도수분포표를 막대로 나타낸 것이다. 수평에 값(계급), 수직은 관찰된 빈도(도수).

통계 막대그래프

  • 꺾은선그래프

꺾은선그래프

  • 원그래프 - 각 항목이 차지하는 비율을 원의 중심각의 크기로 표시한다

원 그래프

  • 히스토그램 - 히스토그램은 상대도수라고 보통 생각하는게 좋다. 그 면적의 합은 1이다. 이것에 대한 곡선은 분포곡선(밀도곡선)이라고 하는데 이 곡선의 내부 합도 1이다.

히스토그램

  • 줄기잎그림 - 줄기와 잎으로 나눠진 부분인데 끝을 따라서 세로로 그림을 그리면 이는 분포곡선과 같다.

줄기 잎 그림, 줄기잎도표

  • 시도표 - 시계열 자료를 나타낸다.

시도표, 시계열 그래프


조금은 길지만 내용은 크게 어렵지 않은 부분에 대해서 다뤄봤습니다.

자료형과 각 자료들을 나타내는 시각화들에 대해서 살펴봤는데요.

다음은 이러한 값들을 대표하는 값들이 무엇이 있는지 살펴보겠습니다.

 

과연 어떤 값을 대표적인 값으로 보여줄 수 있을까?
우리반에 남자 50명이 있는데, 어떤 값을 보여줘야 이들을 잘 설명할 수 있을까?

 

+ Recent posts