• p-value(probability): 우연히 일어날 확률(한마디로 개뽀록)

 

귀무가설(Null) = 0 임을 기억.

 

p-value가 0.05가 넘으면 우연히 일어날 확률이 높다는 의미이다.

이것은 결국 無로 돌아가기 때문에 귀무가설을 채택하는 것.

 

p-value가 0.05보다 낮으면 "뽀록이 아니네?" (100번중 뽀록이 5번도 안될테니까)

→ 이유가 있겠다("인과관계가 있겠구나")

→ 귀무가설 기각

 

보통 여기서 말하는 0.05미만은 알파(A)라고 해서 1종오류를 의미한다.

귀무가설이 실제로는 참인데도, 귀무가설을 기각하는 경우가 더 큰 문제가 일어날 수 있다고 보기 때문.

즉, 이전과 매출액의 차이가 없음에도 불구하고, 차이가 있다고 해서 신규전략을 수립하는게 문제가 더 크게 생길 수 있다. (이전의 매출액과 차이가 있는데 없다고 하면 수익은 덜 창출할지언정 비용을 더 쓰진 않겠지)


  • 상관관계는 점들이 선으로 모여있을 때 +1 혹은 -1로 나타낸다.

선이 위로 향하든지 오른쪽으로 향하든지(좀 눕든지) 하는 경우에도 똑같다. (선의 각도가 상관관계에 영향을 주지 않는다)

하지만, y축과 나란히 분포되어 있다면 이것은 상관관계가 없다(0)라고 본다.

 

이차함수의 형태도 상관계수가 실제로 도출이 된다.

하지만 의미가 전혀 없으니 무시해도 된다.

 

  • 상관관계는 인과관계가 아니다(매번 중요)

 

상관관계는 직선관계만 + 인과관계가 아니다. 두 가지점을 기억.


z-test: 모집단을 위한, t-test: 표본(샘플)을 위한.

 

t-test의 목적: 두 집단이 같은지 다른지 비교하기 위해서 사용

비교를 어떻게 해야 될까? - 두 표본의 평균값(대표값)을 비교

두 집단의 차이(평균간의 차이)가 우연히  같을 확률은? 

(키가 178.5와 179.9인 두 집단의 평균값이 이정도면 비슷하다고 봐야되나 다르다고 봐야되나? - 남학생 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마인가?)

1.4cm가 우연히 발생한 수치라면, 두 대학의 키는 같은 것이다. (p-value가 0.05보다 크니까 뽀록일 경우임, 대립가설 기각, 귀무가설 채택 - 뽀록이므로 무 로 돌아간다.)

 

이때 무엇을 기준으로 차이가 큰지 적은지? - 표준편차

표준편차보다 해당 차이(1.4cm)가 현저히 작으면, 의미가 없다고 본다. - 우연히 발생했다는 것을 의미.

반대의 경우는 의미가 있다고 본다. - 우연이 아니다.

그럼 현저히 정도는 도대체 어느정도? 0.05보다 작으면 우연이 아니다. 0.05보다 크면 우연이다.

 


단측검정의 귀무가설 또한 H0= 0(차이가없다.)이다.

대립가설이 한쪽만 따지는 경우를 단측검정이라고 본다. - 양측과 단측의 차이는 대립가설의 차이.

 

95%인 노란부분에 들어오면 우연이다(p-value가 높아서 귀무가설 채택; 아무것도 아닌 경우로 됨)

5%인 초록부분에 들어오면 우연이 아니다(p-value가 낮아서 대립가설 채택; 내가 연구하고자 하는 것)

 

95%확률로 무 로 돌아가거나, 5%확률로 내가 하는게 맞다?

 

확률분포곡선 내에 있는 넓이가 확률이고, 이것이 내가 구하고자 하는 p-value이다.

순서

  1. 귀무가설/대립가설 설정 및 유의수준 결정
  2. 검정통계량 결정
  3. 기각역 결정
  4. 검정통계량의 계산
  5. 통계적 의사결정

 

1. 귀무가설/대립가설 설정 및 유의수준 결정

통계적 가설: 어떠한 주장을 모집단의 특성을 나타내는 모수를 이용하여 표현한 형태

통계적 가설에는 크게 2가지가 있다. 1)귀무가설 2)대립가설

 

가설검정은 귀무가설이 진실인지를 검증하는 것이다. - 귀무가설이 주인공이다.

귀무가설이 맞을 확률을 검증하는 과정이라고 생각 !

그래서 보통 귀무가설이 진리임을 전제하고 '='와 같이 같다 로 표시한다.

ex1) 남자와 여자는 차이가 있다 라는 논제를 두고 귀무가설을 무엇일까?

차이가 없다 --> 진리임을 전제하고, 차이가 있다는것(대립가설)을 우리가 찾아보려는 것.

ex2) 신제품과 기존제품의 차이가 있다 없다 중 귀무가설은?

신제품과 기존제품간의 차이가 없다. 가 귀무가설. 차이가 있는 것이 대립가설(연구하고자 하는 것)

ex3) 음료수 용량은 320ml이다 아니다 에서는?

320ml이다. 가 귀무가설일 것.

귀무가설은 이렇듯 일반적 사실로부터 시작한다. 기존제품과 신제품은 일단 같다고 보고 신제품이 좋다는 것을 증명하려는 것이다.

 

예를 들어 귀무가설이 평균이 170이다 라고 해보자. (mu = 170)

그러면 대립가설은 평균은 170이 아니다, 170초과다, 170미만이다. 라고 표현할 수 있다.

여기서 대립가설이 3가지로 나뉘어진다. 제1형, 제2형, 제3형

제1형은 평균은 170이 아니다 와 같이 그 자체를 부정하는 것이다. 이 말 속에는 170미만이다, 170초과이다 를 모두 포함한다. (양측검정)

제2형은 평균은 170초과이다. 처럼 기준에서 오른쪽만을 검정하는 영역이다. (우측검정)

제3형은 평균은 170미만이다. 처럼 기준에서 왼쪽만을 검정하는 영역이다. (좌측검정)

우측검정과 좌측검정을 통합하여 단측검정이라고 한다.

 

우측검정 추가설명

귀무가설: 피자 1개의 kcal은 5000kcal 이하이다. 라면 5000이하 지점이 진리의 영역이 될 것.

내가 검정해야되는 곳은 5000초과되는 지점을 검정해야 된다. 그 지점이 5000이상인 우측 지점.

 

 

다음으로, 유의수준을 결정해야 한다.

유의수준이란 간단히, 맞는걸 틀리다(제1종오류)고 할 확률이다. 즉 오류를 범할 확률 정도로 해석하면 될 것이다.

이러한 유의수준은 가설 전에 미리 결정해야 하는 사항으로, 일어날 가능성이 희박해야 된다.(오류를 범하면 안되니까)

제 1종 오류: 참인 귀무가설을 기각하는 오류(옳은걸 틀렸다고 함; 알파)

제 2종 오류: 거짓인 귀무가설을 받아들이는 오류 (틀린걸 옳았다고 함; 베타)

알파와 베타는 상충관계로써, 하나를 줄이면 다른 하나가 늘어난다.

임계치 조정에 따라서 어느 하나가 늘면 어느 하나가 줄어든다고 생각.

출처: 이상철 유튜브 채널

여기서 '귀무가설'은 기준이 된다.

옳은 귀무가설이 틀렸고, 나의 틀린 대립가설(연구가설)이 맞다고 하면 옳은걸 틀렸다고 했으니 제 1종 오류이다.

틀린 귀무가설이 옳고, 옳은 대립가설(연구가설)이 틀렸다고 하면 틀린걸 옳았다고 하니 제 2종 오류이다.

 

추정은 신뢰도를 통해서 나타내고 (ex.95%)

가설검정은 유의수준을 통해서 나타내는 차이(ex.알파=0.05)

 

p-value

귀무가설이 기각되지 않을(채택될) 확률

낮으면 귀무가설 기각

+ Recent posts