순서

  1. 귀무가설/대립가설 설정 및 유의수준 결정
  2. 검정통계량 결정
  3. 기각역 결정
  4. 검정통계량의 계산
  5. 통계적 의사결정

 

1. 귀무가설/대립가설 설정 및 유의수준 결정

통계적 가설: 어떠한 주장을 모집단의 특성을 나타내는 모수를 이용하여 표현한 형태

통계적 가설에는 크게 2가지가 있다. 1)귀무가설 2)대립가설

 

가설검정은 귀무가설이 진실인지를 검증하는 것이다. - 귀무가설이 주인공이다.

귀무가설이 맞을 확률을 검증하는 과정이라고 생각 !

그래서 보통 귀무가설이 진리임을 전제하고 '='와 같이 같다 로 표시한다.

ex1) 남자와 여자는 차이가 있다 라는 논제를 두고 귀무가설을 무엇일까?

차이가 없다 --> 진리임을 전제하고, 차이가 있다는것(대립가설)을 우리가 찾아보려는 것.

ex2) 신제품과 기존제품의 차이가 있다 없다 중 귀무가설은?

신제품과 기존제품간의 차이가 없다. 가 귀무가설. 차이가 있는 것이 대립가설(연구하고자 하는 것)

ex3) 음료수 용량은 320ml이다 아니다 에서는?

320ml이다. 가 귀무가설일 것.

귀무가설은 이렇듯 일반적 사실로부터 시작한다. 기존제품과 신제품은 일단 같다고 보고 신제품이 좋다는 것을 증명하려는 것이다.

 

예를 들어 귀무가설이 평균이 170이다 라고 해보자. (mu = 170)

그러면 대립가설은 평균은 170이 아니다, 170초과다, 170미만이다. 라고 표현할 수 있다.

여기서 대립가설이 3가지로 나뉘어진다. 제1형, 제2형, 제3형

제1형은 평균은 170이 아니다 와 같이 그 자체를 부정하는 것이다. 이 말 속에는 170미만이다, 170초과이다 를 모두 포함한다. (양측검정)

제2형은 평균은 170초과이다. 처럼 기준에서 오른쪽만을 검정하는 영역이다. (우측검정)

제3형은 평균은 170미만이다. 처럼 기준에서 왼쪽만을 검정하는 영역이다. (좌측검정)

우측검정과 좌측검정을 통합하여 단측검정이라고 한다.

 

우측검정 추가설명

귀무가설: 피자 1개의 kcal은 5000kcal 이하이다. 라면 5000이하 지점이 진리의 영역이 될 것.

내가 검정해야되는 곳은 5000초과되는 지점을 검정해야 된다. 그 지점이 5000이상인 우측 지점.

 

 

다음으로, 유의수준을 결정해야 한다.

유의수준이란 간단히, 맞는걸 틀리다(제1종오류)고 할 확률이다. 즉 오류를 범할 확률 정도로 해석하면 될 것이다.

이러한 유의수준은 가설 전에 미리 결정해야 하는 사항으로, 일어날 가능성이 희박해야 된다.(오류를 범하면 안되니까)

제 1종 오류: 참인 귀무가설을 기각하는 오류(옳은걸 틀렸다고 함; 알파)

제 2종 오류: 거짓인 귀무가설을 받아들이는 오류 (틀린걸 옳았다고 함; 베타)

알파와 베타는 상충관계로써, 하나를 줄이면 다른 하나가 늘어난다.

임계치 조정에 따라서 어느 하나가 늘면 어느 하나가 줄어든다고 생각.

출처: 이상철 유튜브 채널

여기서 '귀무가설'은 기준이 된다.

옳은 귀무가설이 틀렸고, 나의 틀린 대립가설(연구가설)이 맞다고 하면 옳은걸 틀렸다고 했으니 제 1종 오류이다.

틀린 귀무가설이 옳고, 옳은 대립가설(연구가설)이 틀렸다고 하면 틀린걸 옳았다고 하니 제 2종 오류이다.

 

추정은 신뢰도를 통해서 나타내고 (ex.95%)

가설검정은 유의수준을 통해서 나타내는 차이(ex.알파=0.05)

 

p-value

귀무가설이 기각되지 않을(채택될) 확률

낮으면 귀무가설 기각

 

추론통계학

모수에 관한 추론을 위해 통계량 사용

 

통계적 추론의 2가지 방법

  1. 추정: 추정통계량(표본평균, 표본분산)
  2. 가설검정: 검정통계량(t검정 등)

 

신뢰수준과 유의수준

신뢰수준 - 표본으로부터 만든 신뢰구간 100개 중에서 95번은 진짜 값이 들어있다 는 개념.

유의수준 - 신뢰구간의 반대되는 개념, 잘못 추정될 확률 5%이다. 와 같은 개념

구간을 추정할 때는 신뢰수준, 가설검정을 할 때는 유의수준을 선호한다.

 

공분산 (X, Y의 선형관계의 방향)

공분산의 식
공분산의 식(간편식)

공분산 자체는 방향성을 알 수 있지만, 둘 사이의 관계에 대한 설명 불가능

 

상관계수 - 공분산의 단점에 대한 보완, -1과 1사이로 나타낸다.

상관계수의 정의

 

두 변수 합의 기대치 법칙과 분산법칙

E(X+Y) = E(X) + E(Y)

V(X+Y) = V(X) + V(Y) + 2COV(X,Y)

(만일 X와 Y가 독립이면 2COV(X,Y) = 0 이 된다.)

X와 Y가 너무 밀접하면 V(X+Y) = V(X) 이다. (극단적인 경우)

 

 

Uniform 분포

연속확률분포 중 가장 간단한 분포

어떤 확률은 a부터 b사이만 갖는 형태

 

정규분포

어떤 분포든 표본의 크기만 커지면 정규분포로 간다(분산이 미치지 않고서)

어짜피 표본의 크기가 커지면 정규분포로 가기 때문에

'어정규'라고 부를 수 있다.(이 개그는 교수님 개그)

 

정규분포의 확률밀도함수(외울 필요는 없다)

평균분산만 알고 있으면 이 분포에 대해 완벽히 알 수 있다.

모평균과 모분산만 미지수로 존재하기 때문이다.

정규분포는 음의무한대부터 양의무한대까지 갈 수 있다.

분산은 같으나 평균이 다른 정규분포

위의 식에서 미지수였던 평균과 분산 중 '평균'이 달라질 경우 위와 같은 모양이 나타날 수 있다.

 

표준정규분포

표준정규분포의 확률밀도함수

Z값을 사용하도록 바꾼 것이 표준정규분포인데,

평균은 0이고 표준편차가 1인 규칙을 갖는다. 

표준화시킨 모습. 표준화의 식

 

+ Recent posts