순서

  1. 귀무가설/대립가설 설정 및 유의수준 결정
  2. 검정통계량 결정
  3. 기각역 결정
  4. 검정통계량의 계산
  5. 통계적 의사결정

 

1. 귀무가설/대립가설 설정 및 유의수준 결정

통계적 가설: 어떠한 주장을 모집단의 특성을 나타내는 모수를 이용하여 표현한 형태

통계적 가설에는 크게 2가지가 있다. 1)귀무가설 2)대립가설

 

가설검정은 귀무가설이 진실인지를 검증하는 것이다. - 귀무가설이 주인공이다.

귀무가설이 맞을 확률을 검증하는 과정이라고 생각 !

그래서 보통 귀무가설이 진리임을 전제하고 '='와 같이 같다 로 표시한다.

ex1) 남자와 여자는 차이가 있다 라는 논제를 두고 귀무가설을 무엇일까?

차이가 없다 --> 진리임을 전제하고, 차이가 있다는것(대립가설)을 우리가 찾아보려는 것.

ex2) 신제품과 기존제품의 차이가 있다 없다 중 귀무가설은?

신제품과 기존제품간의 차이가 없다. 가 귀무가설. 차이가 있는 것이 대립가설(연구하고자 하는 것)

ex3) 음료수 용량은 320ml이다 아니다 에서는?

320ml이다. 가 귀무가설일 것.

귀무가설은 이렇듯 일반적 사실로부터 시작한다. 기존제품과 신제품은 일단 같다고 보고 신제품이 좋다는 것을 증명하려는 것이다.

 

예를 들어 귀무가설이 평균이 170이다 라고 해보자. (mu = 170)

그러면 대립가설은 평균은 170이 아니다, 170초과다, 170미만이다. 라고 표현할 수 있다.

여기서 대립가설이 3가지로 나뉘어진다. 제1형, 제2형, 제3형

제1형은 평균은 170이 아니다 와 같이 그 자체를 부정하는 것이다. 이 말 속에는 170미만이다, 170초과이다 를 모두 포함한다. (양측검정)

제2형은 평균은 170초과이다. 처럼 기준에서 오른쪽만을 검정하는 영역이다. (우측검정)

제3형은 평균은 170미만이다. 처럼 기준에서 왼쪽만을 검정하는 영역이다. (좌측검정)

우측검정과 좌측검정을 통합하여 단측검정이라고 한다.

 

우측검정 추가설명

귀무가설: 피자 1개의 kcal은 5000kcal 이하이다. 라면 5000이하 지점이 진리의 영역이 될 것.

내가 검정해야되는 곳은 5000초과되는 지점을 검정해야 된다. 그 지점이 5000이상인 우측 지점.

 

 

다음으로, 유의수준을 결정해야 한다.

유의수준이란 간단히, 맞는걸 틀리다(제1종오류)고 할 확률이다. 즉 오류를 범할 확률 정도로 해석하면 될 것이다.

이러한 유의수준은 가설 전에 미리 결정해야 하는 사항으로, 일어날 가능성이 희박해야 된다.(오류를 범하면 안되니까)

제 1종 오류: 참인 귀무가설을 기각하는 오류(옳은걸 틀렸다고 함; 알파)

제 2종 오류: 거짓인 귀무가설을 받아들이는 오류 (틀린걸 옳았다고 함; 베타)

알파와 베타는 상충관계로써, 하나를 줄이면 다른 하나가 늘어난다.

임계치 조정에 따라서 어느 하나가 늘면 어느 하나가 줄어든다고 생각.

출처: 이상철 유튜브 채널

여기서 '귀무가설'은 기준이 된다.

옳은 귀무가설이 틀렸고, 나의 틀린 대립가설(연구가설)이 맞다고 하면 옳은걸 틀렸다고 했으니 제 1종 오류이다.

틀린 귀무가설이 옳고, 옳은 대립가설(연구가설)이 틀렸다고 하면 틀린걸 옳았다고 하니 제 2종 오류이다.

 

추정은 신뢰도를 통해서 나타내고 (ex.95%)

가설검정은 유의수준을 통해서 나타내는 차이(ex.알파=0.05)

 

p-value

귀무가설이 기각되지 않을(채택될) 확률

낮으면 귀무가설 기각

표본분포

Random sample(확률표본) 모집단을 대표할 수 있는 표본

Independet(독립적), identical(동일한 확률밀도 함수f(x), 동일한 분포)IID라고 부른다.

실제 데이터들이 IID가 아니라면? 걱정할 필요 없다. IID로부터 나온 기술들은 모두 적용될 수 있다고 증명되었다.

 

중심극한정리

어떤 모집단에서 확률분포의 표본평균은 n이 커질수록 근사적으로 정규분포를 따른다.

모집단이 정규분포를 따르면 표본평균은 반드시 정규분포를 따른다

모집단이 정규분포를 따르지 않아도 n이 크다면 표본평균은 정규분포에 근사해진다.

 

 

대수의 법칙

- n이 커질수록 표본평균은 모평균에 가까워진다.

N이 커진다면, 표본평균으로부터 모평균의 정보를 얻을 수 있다는 좋은 특징(근사 예측 가능)

→ 중심극한정리, 대수의법칙은 굉장히 중요하다.

 

샘플이 작은 경우에도, x(모집단)이 정규분포를 따르면, x(표본집단)도 정규분포를 따른다 (변별력 문제)

문제에서 정규분포를 따르는이라면 표본의 크기에 상관없이 표본평균도 무조건 정규분포를 따른다.

 

표본비율의 표본분포

X가 이항분포를 따른다 할 때, n이 크면 정규분포를 따른다(이항분포의 정규분포에 의한 근사)

X라는 확률변수의 평균을 구해보면, 평균:np, 분산:npq 일 것.

X라는 확률변수에 n을 나눈 것의 평균: p, 분산:pq/n 일 것. (평균은 그대로 계산, 분산은 제곱)

고로 X/n이라는 확률변수는 위와 같이 평균 p 분산 pq/n을 따른다.

여기서 X/n이 의미하는 것이 p(모비율 추정량)을 의미하는 것이다.

+ Recent posts