기술통계학

기술통계학은 모집단으로부터 표본을 추출하고 나서 표본이 가지고 있는 정보를 쉽게 파악할 수 있도록 데이터를 정리하거나 요약(숫자 또는 그래프)하는 절차를 다루는 분야이다.

 

응 너무 어렵고

 


해당 정의를 하나씩 뜯어 보겠다. 크 완전 친절;

  • 모집단 - 전체 집단(ex. 우리나라 5000만명)
  • 표본 - 그 중에서 몇 명(ex. 강남구 주민 OO만명)
  • 표본이 가지고 있는 정보 - ex. 강남구 주민들의 평균 나이, 성별 비율 등
  • 데이터 - ex. 위의 정보들을 모두 데이터라고 한다.

 

'기술'통계학은 말그대로 데이터 전체를 '기술'하는 것이다.

‘기술記述'은 ’어떤 것을 기록한다‘라는 뜻이다 (Describe)

기술이 그 기술이 아니라고...

기술 가정에서의 그 기술이 아니다. 이게 내가 처음 헷갈렸던 용어다.

 

조금 더 찐한 예시

예를 들어 본인의 대학 학부에 100명의 학생이 있다고 생각해보자. (고등학생의 경우에는 학급)

그 데이터 안에는 그들의 평균 나이, 성별 비율, 가족 수 등에 대한 정보를 산출해낼 수 있다.

총 인원 100명, 평균나이는 22.3살, 성별비율은 남자52% 여자48%, 가족 수 평균 3.8명

이것이 기술(설명)한 통계이다.

여기서는 단순히 평균만 언급했지만, 그들의 데이터를 가지고 최소값, 중위값, 분산 등도 구할 수 있다. 

이런 것들은 그들의 데이터를 설명(기술)해준다.

그러한 의미에서 기술통계학이다.

딱 거기까지다!

여기서 더 뭔가 하려고 하는게 아니라 이렇게 확실히 정해진 것에 대해 분류하고 정리 요약 하는 것이 기술통계학의 역할이다.

 

그래서?

"세상의 모든 데이터를 직접 다 조사할 수는 없어. 전체(100명중)의 2%(2명) 정도만을 가지고 추리해서 전체를 추론해나가야 돼"

이를 위해서 나타난게 기술통계학이 아닌 추론통계학이다. 실질적인 분야는 주로 추론통계학의 영역이다.

p.s. 물론 2명 가지고 100명 추론 못한다.. 표본이 너무 적기 때문에... 보통 표본으로 30명은 줘야 한다는거..


추론통계학

모집단(우리나라 국민전체)을 추측하기 위해 5000만명을 다 조사할 수 있을까? 불가능!

그러면 5000명을 직접 조사할 수는 있나? 좀 힘들겠지만 가능할 것 같아

그러면 어느 연구단체나 국가기관에서는 사람들을 고용해서 5000명을 조사해보는 것이다.  물론 특정한 목적을 갖고 하겠지.

즉 5000의 자료만을 가지고 어찌저찌 해서 5000만명의 특성을 찾아가는 과정이다.

4999만 5000명이란 거대한 집단을 단 5000명으로 추출해야한다니 쉽지는 않겠지 하지만 가능하다.(100%는 아니고)

하지만 여기서 알아둬야 될 건 4999만5000명을 추측하기 위해서 우리가 표본으로 뽑는 5000만이 혼자 튀는 놈 없이 모집단을 대표할 수 있는 표본이어야 된다는 점이다.

이에 대해서는 뒤에서 배울 것이다. 대표값이라는 개념으로.


​아마도 이정도면 대충 기술통계학과 추론통계학의 느낌적인 느낌을 받았을 것이라고 생각합니다

이제 각각에 대해 조금만 더 깊이 들어가봅시다.. 리얼 살짝만 더 깊이 갈게..

 

기술통계학과 추론통계학의 과정

'기술통계학'

  • 자료의 수집 → 자료의 정리 및 요약 → 자료의 해석
  • 100명 학생 → 남자는 52명 여자는 48명 → "남녀 성비가 크게 갈리지 않으니 어쩌고 저쩌고 Insight 발견!"

 

'추론통계학'

  • 자료가 '모집단'? vs 자료가 '표본집단'?
    • 모집단 → 기술통계학처럼 바로 도출!
    • 표본집단 → 통계적 추론(5000명) → 모집단 특성 도출(4999만 5000명의 특징 도출)

지금까지 간단하게 통계학의 큰 범주인 기술통계학추론통계학에 대한 개념에 대해 간략히 살펴봤습니다.

이어서 다른 조낸쉬운 통계학 설명이 있을테니 앞의 강의들도 쭉 따라와주세요.

물론 내용 자체가 어려워서 그런건 내 능력밖 이라고 말해주고 싶다..

어려운게 문제가 아니다. 그것을 극복하는지 못하는지가 문제지... 그러니 익숙해질때까지 반복숙달 해봅시다!

기술통계학과 추론통계학에 대한 간단한 개념 끄으읏 !!


koreadatascientist.tistory.com/65

 

통계학 배우려면 자료형과 척도는 알아야지 (feat. 비전공자를 위한 조낸쉬운 통계학)

통계학에 대한 기본적인 자료형 개념 명목척도, 서열척도, 등간척도, 비율척도에 대해 논해보자. 통계학의 구성체계 기술통계학에서 데이터를 정리하고 요약해서 통계량을 계산하고 그래픽으��

koreadatascientist.tistory.com

 

표본분포

Random sample(확률표본) 모집단을 대표할 수 있는 표본

Independet(독립적), identical(동일한 확률밀도 함수f(x), 동일한 분포)IID라고 부른다.

실제 데이터들이 IID가 아니라면? 걱정할 필요 없다. IID로부터 나온 기술들은 모두 적용될 수 있다고 증명되었다.

 

중심극한정리

어떤 모집단에서 확률분포의 표본평균은 n이 커질수록 근사적으로 정규분포를 따른다.

모집단이 정규분포를 따르면 표본평균은 반드시 정규분포를 따른다

모집단이 정규분포를 따르지 않아도 n이 크다면 표본평균은 정규분포에 근사해진다.

 

 

대수의 법칙

- n이 커질수록 표본평균은 모평균에 가까워진다.

N이 커진다면, 표본평균으로부터 모평균의 정보를 얻을 수 있다는 좋은 특징(근사 예측 가능)

→ 중심극한정리, 대수의법칙은 굉장히 중요하다.

 

샘플이 작은 경우에도, x(모집단)이 정규분포를 따르면, x(표본집단)도 정규분포를 따른다 (변별력 문제)

문제에서 정규분포를 따르는이라면 표본의 크기에 상관없이 표본평균도 무조건 정규분포를 따른다.

 

표본비율의 표본분포

X가 이항분포를 따른다 할 때, n이 크면 정규분포를 따른다(이항분포의 정규분포에 의한 근사)

X라는 확률변수의 평균을 구해보면, 평균:np, 분산:npq 일 것.

X라는 확률변수에 n을 나눈 것의 평균: p, 분산:pq/n 일 것. (평균은 그대로 계산, 분산은 제곱)

고로 X/n이라는 확률변수는 위와 같이 평균 p 분산 pq/n을 따른다.

여기서 X/n이 의미하는 것이 p(모비율 추정량)을 의미하는 것이다.

+ Recent posts