• p-value(probability): 우연히 일어날 확률(한마디로 개뽀록)

 

귀무가설(Null) = 0 임을 기억.

 

p-value가 0.05가 넘으면 우연히 일어날 확률이 높다는 의미이다.

이것은 결국 無로 돌아가기 때문에 귀무가설을 채택하는 것.

 

p-value가 0.05보다 낮으면 "뽀록이 아니네?" (100번중 뽀록이 5번도 안될테니까)

→ 이유가 있겠다("인과관계가 있겠구나")

→ 귀무가설 기각

 

보통 여기서 말하는 0.05미만은 알파(A)라고 해서 1종오류를 의미한다.

귀무가설이 실제로는 참인데도, 귀무가설을 기각하는 경우가 더 큰 문제가 일어날 수 있다고 보기 때문.

즉, 이전과 매출액의 차이가 없음에도 불구하고, 차이가 있다고 해서 신규전략을 수립하는게 문제가 더 크게 생길 수 있다. (이전의 매출액과 차이가 있는데 없다고 하면 수익은 덜 창출할지언정 비용을 더 쓰진 않겠지)


  • 상관관계는 점들이 선으로 모여있을 때 +1 혹은 -1로 나타낸다.

선이 위로 향하든지 오른쪽으로 향하든지(좀 눕든지) 하는 경우에도 똑같다. (선의 각도가 상관관계에 영향을 주지 않는다)

하지만, y축과 나란히 분포되어 있다면 이것은 상관관계가 없다(0)라고 본다.

 

이차함수의 형태도 상관계수가 실제로 도출이 된다.

하지만 의미가 전혀 없으니 무시해도 된다.

 

  • 상관관계는 인과관계가 아니다(매번 중요)

 

상관관계는 직선관계만 + 인과관계가 아니다. 두 가지점을 기억.


z-test: 모집단을 위한, t-test: 표본(샘플)을 위한.

 

t-test의 목적: 두 집단이 같은지 다른지 비교하기 위해서 사용

비교를 어떻게 해야 될까? - 두 표본의 평균값(대표값)을 비교

두 집단의 차이(평균간의 차이)가 우연히  같을 확률은? 

(키가 178.5와 179.9인 두 집단의 평균값이 이정도면 비슷하다고 봐야되나 다르다고 봐야되나? - 남학생 평균키 차이인 1.4cm가 우연히 발생했을 확률은 얼마인가?)

1.4cm가 우연히 발생한 수치라면, 두 대학의 키는 같은 것이다. (p-value가 0.05보다 크니까 뽀록일 경우임, 대립가설 기각, 귀무가설 채택 - 뽀록이므로 무 로 돌아간다.)

 

이때 무엇을 기준으로 차이가 큰지 적은지? - 표준편차

표준편차보다 해당 차이(1.4cm)가 현저히 작으면, 의미가 없다고 본다. - 우연히 발생했다는 것을 의미.

반대의 경우는 의미가 있다고 본다. - 우연이 아니다.

그럼 현저히 정도는 도대체 어느정도? 0.05보다 작으면 우연이 아니다. 0.05보다 크면 우연이다.

 


단측검정의 귀무가설 또한 H0= 0(차이가없다.)이다.

대립가설이 한쪽만 따지는 경우를 단측검정이라고 본다. - 양측과 단측의 차이는 대립가설의 차이.

 

95%인 노란부분에 들어오면 우연이다(p-value가 높아서 귀무가설 채택; 아무것도 아닌 경우로 됨)

5%인 초록부분에 들어오면 우연이 아니다(p-value가 낮아서 대립가설 채택; 내가 연구하고자 하는 것)

 

95%확률로 무 로 돌아가거나, 5%확률로 내가 하는게 맞다?

 

확률분포곡선 내에 있는 넓이가 확률이고, 이것이 내가 구하고자 하는 p-value이다.

표본평균을 통계량이라고도 하지만, 추정할때에는 모평균의 추정량이라고도 한다.

 

추정량과 추정치의 비교 

추정량 = 다양한 숫자를 가질 수 있는 공식(함수) (대문자X바)

추정치 = 특정한 샘플의 (소문자x바)

 

추정량 특성 - 모수를 제대로 추정하는지?

  • 불편성: 추정량(X바)의 기대치가 모수(M)와 같은 추정(E(X) - M = 0인가?)
  • 일치성: n이 커지게되면, 추정량과 모수의 차이가 확률적으로 더욱 작아진다는 것.
  • 상대적 효율성: 분산이 더 작은 것이 효율적이다.

 

불편추정량

모수를 추정하는 방법은 여러가지가 있다. 그것들의 특성을 보고 올바르게 모수를 추정하는지 알 수 있어야 한다.

ex)표본평균은 모평균의 불편추정량이다. 그래서 표본평균의 기대값은 모평균어야 한다.

- 그러나 추정량은 실제로 모수에 비해 매우 많이 떨어진 것들이 있을 수 있다.(차이가 매우 클 수도 있음; 평균이 뮤 일뿐)

 

일치성(probability limit를 알아야 하는데 이건 생략이므로 개념적으로만 접근)

확률적으로 추정량과 모수의 차이가 줄어드는 개념.

표본평균의 분산은 분산/n으로 나타낼 수 있는데, 여기서 n이 매우 커지면 분산이 매우 작아진다.

이러한 특성이 있을 때 일치성이 있다고 본다.

- 불편추정량은 평균만 알기 때문에, 얼마나 가까운지를 알 수 없다. 일치성은 n이 클수록 그 갭이 좁아지는 것.

- 일치추정량인지 아닌지? n이 무한대로 갔을 때, 이 추정량의 분산이 0으로 가는지 안가는지를 보면 된다. 예를들어 X바10 의 경우는 평균이 M이고, 분산이 시그마제곱/10 이기 때문에 아무리 n을 키워봤자 분산이 작아지는 형태가 아니므로 분산이 변하지 않는다(분모인 n이 이미 10이 되어버렸으므로) - 이 경우에는 일치추정량이 아니라고 보는 것.

- X바(n/2)는 불편추정량이다. 일치추정량인가? 일치추정량이다. (평균은 M이고, 분산은 시그마제곱/n 대신, 2시그마제곱/n이 될테니까)

 

상대적 효율성

두가지의 불편추정량이 존재할 때, 분산이 더 작은 것을 효율적으로 본다.

ex)표본평균과 표본중앙값은 모두 불편추정량이지만, 표본중앙값의 분산이 더 크다. 그래서 표본평균이 더욱 상대적으로 효율적이라고 볼 수 있다.

test: Xn바, Xn/2바 모두 불편추정량인지 물어볼 수 있다. 그리고 둘 중 무엇이 상대적 효율적인지에 대해 물을 수 있다. 분산만 계산하면 된다.

test2

표본의분산은 모분산의 불편추정량이다.

MLE라고 하는 시그마제곱햇 형태는 변형하면 표본분산과의 관계로 나타낼 수 있다.

1) 표본분산은 불편추정량인데, 그러면 이것과 연결된 시그마제곱햇 또한 불편추정량인가?

2) 시그마제곱햇 이라는 MLE가 일치추정량인가 아닌가? - 맞는 것 같다. n을 무한대로 보내면 n-1/n은 1로 되고, s^2부분이 0으로 되기 때문에, 시그마제곱햇 또한 0으로 수렴할 것 같다.

 

어떤 불편추정량을 가져와도 표본평균(엑스바)보다 분산이 적을 수 없다. 즉 표본평균은 상대적 효율성이 아닌 '효율 추정량' 그 자체라고 이해. (전제: X가 정규분포)

 

모표준편차가 알려져 있을 때 모평균의 추정

모표준편차가 알려져 있지 않은 경우에는 t분포를 쓰면 된다.

 

컴퓨터 회사가 25리드타임 동안의 컴퓨터 구매의 수요를 측정한 데이터들은 표본이 되며, 실제 구매하고자 하는 사람들의 수요는 모수가 된다. (그래서 모수를 알 수 없다는 것; 신의 영역)

 

신뢰구간추정치

리드타임의 평균수요가 340과 399사이가 신뢰구간 95%안에 든다고 가정했을 때,

신뢰구간을 통해 340과 399사이에 모평균이 존재할 확률이 95%이다 라고 해석해서는 안된다.

모평균은 딱 A이다 라고 말할 수 있어야 한다. (모평균은 확률이 부여되는 변수가 아니라, 고정된 값이다)

 

이 구간이 실제로 모평균을 포함하지 않고 있을 수도 있다.

표본을 100개를 뽑았을 때, 340과 399사이에 모평균이든 모분산이든 이런 값들이 

실제 모집단과 같을 확률이 95개 정도가 되고 나머지 5개가 불일치한다(모평균을 포함하지 않는다)고 보는 것.

 

우리가 추정한 구간이 실제 모수의 값을 가질 확률이 95%라는 것이다.

100번으로 추정하면 95번은 모수를 포함하고 있다는 개념.

다른 예로는 주사위가 있다.

주사위의 실제 모평균은 3.5이다.

학생 1명당 주사위 100번을 던지게 하고 평균을 구해오라고 한 뒤에

40명의 학생의 데이터를 가지고 90%의 신뢰구간을 구해보면

약 4명의 학생들의 추정치(본인들의 결과)에 모평균3.5를 포함하고 있지 않은 결과가 생긴다.

 

신뢰구간 길이에 영향을 미치는 것

z값, n, 표준편차이다.

여기서 n이 커질수록 신뢰구간의 길이가 감소할 것

감소할수록 점추정치에 근접해지기 때문에 좋은 결과가 나올 것이다. (신뢰구간이 좁아질수록 정확해진다)

하지만, n이 늘어나면 그만큼 비용이 발생하는 문제.

신뢰구간이 넓다고 신뢰도가 올라가는 것이 아니다. 오히려 정확성이 떨어진다.

ex) 회계사의 연봉 예상은 0~100억일 확률이 100%이다.

 

표본오차

추정량과 모수의 차이( E(X) - M = 이게 0이면 불편추정량)

추정오차의 허용크기(B)는 우리가 정하는 것.

모평균을 추정하기 위해 필요한 표본크기를 계산하는 공식.

 

 

+ Recent posts