• p-value(probability): 우연히 일어날 확률(한마디로 개뽀록)

 

귀무가설(Null) = 0 임을 기억.

 

p-value가 0.05가 넘으면 우연히 일어날 확률이 높다는 의미이다.

이것은 결국 無로 돌아가기 때문에 귀무가설을 채택하는 것.

 

p-value가 0.05보다 낮으면 "뽀록이 아니네?" (100번중 뽀록이 5번도 안될테니까)

→ 이유가 있겠다("인과관계가 있겠구나")

→ 귀무가설 기각

 

보통 여기서 말하는 0.05미만은 알파(A)라고 해서 1종오류를 의미한다.

귀무가설이 실제로는 참인데도, 귀무가설을 기각하는 경우가 더 큰 문제가 일어날 수 있다고 보기 때문.

즉, 이전과 매출액의 차이가 없음에도 불구하고, 차이가 있다고 해서 신규전략을 수립하는게 문제가 더 크게 생길 수 있다. (이전의 매출액과 차이가 있는데 없다고 하면 수익은 덜 창출할지언정 비용을 더 쓰진 않겠지)


  • 상관관계는 점들이 선으로 모여있을 때 +1 혹은 -1로 나타낸다.

선이 위로 향하든지 오른쪽으로 향하든지(좀 눕든지) 하는 경우에도 똑같다. (선의 각도가 상관관계에 영향을 주지 않는다)

하지만, y축과 나란히 분포되어 있다면 이것은 상관관계가 없다(0)라고 본다.

 

이차함수의 형태도 상관계수가 실제로 도출이 된다.

하지만 의미가 전혀 없으니 무시해도 된다.

 

  • 상관관계는 인과관계가 아니다(매번 중요)

 

상관관계는 직선관계만 + 인과관계가 아니다. 두 가지점을 기억.


z-test: 모집단을 위한, t-test: 표본(샘플)을 위한.

 

t-test의 목적: 두 집단이 같은지 다른지 비교하기 위해서 사용

비교를 어떻게 해야 될까? - 두 표본의 평균값(대표값)을 비교

두 집단의 차이(평균간의 차이)가 우연히  같을 확률은? 

(키가 178.5와 179.9인 두 집단의 평균값이 이정도면 비슷하다고 봐야되나 다르다고 봐야되나? - 남학생 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마인가?)

1.4cm가 우연히 발생한 수치라면, 두 대학의 키는 같은 것이다. (p-value가 0.05보다 크니까 뽀록일 경우임, 대립가설 기각, 귀무가설 채택 - 뽀록이므로 무 로 돌아간다.)

 

이때 무엇을 기준으로 차이가 큰지 적은지? - 표준편차

표준편차보다 해당 차이(1.4cm)가 현저히 작으면, 의미가 없다고 본다. - 우연히 발생했다는 것을 의미.

반대의 경우는 의미가 있다고 본다. - 우연이 아니다.

그럼 현저히 정도는 도대체 어느정도? 0.05보다 작으면 우연이 아니다. 0.05보다 크면 우연이다.

 


단측검정의 귀무가설 또한 H0= 0(차이가없다.)이다.

대립가설이 한쪽만 따지는 경우를 단측검정이라고 본다. - 양측과 단측의 차이는 대립가설의 차이.

 

95%인 노란부분에 들어오면 우연이다(p-value가 높아서 귀무가설 채택; 아무것도 아닌 경우로 됨)

5%인 초록부분에 들어오면 우연이 아니다(p-value가 낮아서 대립가설 채택; 내가 연구하고자 하는 것)

 

95%확률로 무 로 돌아가거나, 5%확률로 내가 하는게 맞다?

 

확률분포곡선 내에 있는 넓이가 확률이고, 이것이 내가 구하고자 하는 p-value이다.

 

추론통계학

모수에 관한 추론을 위해 통계량 사용

 

통계적 추론의 2가지 방법

  1. 추정: 추정통계량(표본평균, 표본분산)
  2. 가설검정: 검정통계량(t검정 등)

 

신뢰수준과 유의수준

신뢰수준 - 표본으로부터 만든 신뢰구간 100개 중에서 95번은 진짜 값이 들어있다 는 개념.

유의수준 - 신뢰구간의 반대되는 개념, 잘못 추정될 확률 5%이다. 와 같은 개념

구간을 추정할 때는 신뢰수준, 가설검정을 할 때는 유의수준을 선호한다.

 

공분산 (X, Y의 선형관계의 방향)

공분산의 식
공분산의 식(간편식)

공분산 자체는 방향성을 알 수 있지만, 둘 사이의 관계에 대한 설명 불가능

 

상관계수 - 공분산의 단점에 대한 보완, -1과 1사이로 나타낸다.

상관계수의 정의

 

두 변수 합의 기대치 법칙과 분산법칙

E(X+Y) = E(X) + E(Y)

V(X+Y) = V(X) + V(Y) + 2COV(X,Y)

(만일 X와 Y가 독립이면 2COV(X,Y) = 0 이 된다.)

X와 Y가 너무 밀접하면 V(X+Y) = V(X) 이다. (극단적인 경우)

 

 

Uniform 분포

연속확률분포 중 가장 간단한 분포

어떤 확률은 a부터 b사이만 갖는 형태

 

정규분포

어떤 분포든 표본의 크기만 커지면 정규분포로 간다(분산이 미치지 않고서)

어짜피 표본의 크기가 커지면 정규분포로 가기 때문에

'어정규'라고 부를 수 있다.(이 개그는 교수님 개그)

 

정규분포의 확률밀도함수(외울 필요는 없다)

평균분산만 알고 있으면 이 분포에 대해 완벽히 알 수 있다.

모평균과 모분산만 미지수로 존재하기 때문이다.

정규분포는 음의무한대부터 양의무한대까지 갈 수 있다.

분산은 같으나 평균이 다른 정규분포

위의 식에서 미지수였던 평균과 분산 중 '평균'이 달라질 경우 위와 같은 모양이 나타날 수 있다.

 

표준정규분포

표준정규분포의 확률밀도함수

Z값을 사용하도록 바꾼 것이 표준정규분포인데,

평균은 0이고 표준편차가 1인 규칙을 갖는다. 

표준화시킨 모습. 표준화의 식

 

+ Recent posts