표본평균을 통계량이라고도 하지만, 추정할때에는 모평균의 추정량이라고도 한다.

 

추정량과 추정치의 비교 

추정량 = 다양한 숫자를 가질 수 있는 공식(함수) (대문자X바)

추정치 = 특정한 샘플의 (소문자x바)

 

추정량 특성 - 모수를 제대로 추정하는지?

  • 불편성: 추정량(X바)의 기대치가 모수(M)와 같은 추정(E(X) - M = 0인가?)
  • 일치성: n이 커지게되면, 추정량과 모수의 차이가 확률적으로 더욱 작아진다는 것.
  • 상대적 효율성: 분산이 더 작은 것이 효율적이다.

 

불편추정량

모수를 추정하는 방법은 여러가지가 있다. 그것들의 특성을 보고 올바르게 모수를 추정하는지 알 수 있어야 한다.

ex)표본평균은 모평균의 불편추정량이다. 그래서 표본평균의 기대값은 모평균어야 한다.

- 그러나 추정량은 실제로 모수에 비해 매우 많이 떨어진 것들이 있을 수 있다.(차이가 매우 클 수도 있음; 평균이 뮤 일뿐)

 

일치성(probability limit를 알아야 하는데 이건 생략이므로 개념적으로만 접근)

확률적으로 추정량과 모수의 차이가 줄어드는 개념.

표본평균의 분산은 분산/n으로 나타낼 수 있는데, 여기서 n이 매우 커지면 분산이 매우 작아진다.

이러한 특성이 있을 때 일치성이 있다고 본다.

- 불편추정량은 평균만 알기 때문에, 얼마나 가까운지를 알 수 없다. 일치성은 n이 클수록 그 갭이 좁아지는 것.

- 일치추정량인지 아닌지? n이 무한대로 갔을 때, 이 추정량의 분산이 0으로 가는지 안가는지를 보면 된다. 예를들어 X바10 의 경우는 평균이 M이고, 분산이 시그마제곱/10 이기 때문에 아무리 n을 키워봤자 분산이 작아지는 형태가 아니므로 분산이 변하지 않는다(분모인 n이 이미 10이 되어버렸으므로) - 이 경우에는 일치추정량이 아니라고 보는 것.

- X바(n/2)는 불편추정량이다. 일치추정량인가? 일치추정량이다. (평균은 M이고, 분산은 시그마제곱/n 대신, 2시그마제곱/n이 될테니까)

 

상대적 효율성

두가지의 불편추정량이 존재할 때, 분산이 더 작은 것을 효율적으로 본다.

ex)표본평균과 표본중앙값은 모두 불편추정량이지만, 표본중앙값의 분산이 더 크다. 그래서 표본평균이 더욱 상대적으로 효율적이라고 볼 수 있다.

test: Xn바, Xn/2바 모두 불편추정량인지 물어볼 수 있다. 그리고 둘 중 무엇이 상대적 효율적인지에 대해 물을 수 있다. 분산만 계산하면 된다.

test2

표본의분산은 모분산의 불편추정량이다.

MLE라고 하는 시그마제곱햇 형태는 변형하면 표본분산과의 관계로 나타낼 수 있다.

1) 표본분산은 불편추정량인데, 그러면 이것과 연결된 시그마제곱햇 또한 불편추정량인가?

2) 시그마제곱햇 이라는 MLE가 일치추정량인가 아닌가? - 맞는 것 같다. n을 무한대로 보내면 n-1/n은 1로 되고, s^2부분이 0으로 되기 때문에, 시그마제곱햇 또한 0으로 수렴할 것 같다.

 

어떤 불편추정량을 가져와도 표본평균(엑스바)보다 분산이 적을 수 없다. 즉 표본평균은 상대적 효율성이 아닌 '효율 추정량' 그 자체라고 이해. (전제: X가 정규분포)

 

모표준편차가 알려져 있을 때 모평균의 추정

모표준편차가 알려져 있지 않은 경우에는 t분포를 쓰면 된다.

 

컴퓨터 회사가 25리드타임 동안의 컴퓨터 구매의 수요를 측정한 데이터들은 표본이 되며, 실제 구매하고자 하는 사람들의 수요는 모수가 된다. (그래서 모수를 알 수 없다는 것; 신의 영역)

 

신뢰구간추정치

리드타임의 평균수요가 340과 399사이가 신뢰구간 95%안에 든다고 가정했을 때,

신뢰구간을 통해 340과 399사이에 모평균이 존재할 확률이 95%이다 라고 해석해서는 안된다.

모평균은 딱 A이다 라고 말할 수 있어야 한다. (모평균은 확률이 부여되는 변수가 아니라, 고정된 값이다)

 

이 구간이 실제로 모평균을 포함하지 않고 있을 수도 있다.

표본을 100개를 뽑았을 때, 340과 399사이에 모평균이든 모분산이든 이런 값들이 

실제 모집단과 같을 확률이 95개 정도가 되고 나머지 5개가 불일치한다(모평균을 포함하지 않는다)고 보는 것.

 

우리가 추정한 구간이 실제 모수의 값을 가질 확률이 95%라는 것이다.

100번으로 추정하면 95번은 모수를 포함하고 있다는 개념.

다른 예로는 주사위가 있다.

주사위의 실제 모평균은 3.5이다.

학생 1명당 주사위 100번을 던지게 하고 평균을 구해오라고 한 뒤에

40명의 학생의 데이터를 가지고 90%의 신뢰구간을 구해보면

약 4명의 학생들의 추정치(본인들의 결과)에 모평균3.5를 포함하고 있지 않은 결과가 생긴다.

 

신뢰구간 길이에 영향을 미치는 것

z값, n, 표준편차이다.

여기서 n이 커질수록 신뢰구간의 길이가 감소할 것

감소할수록 점추정치에 근접해지기 때문에 좋은 결과가 나올 것이다. (신뢰구간이 좁아질수록 정확해진다)

하지만, n이 늘어나면 그만큼 비용이 발생하는 문제.

신뢰구간이 넓다고 신뢰도가 올라가는 것이 아니다. 오히려 정확성이 떨어진다.

ex) 회계사의 연봉 예상은 0~100억일 확률이 100%이다.

 

표본오차

추정량과 모수의 차이( E(X) - M = 이게 0이면 불편추정량)

추정오차의 허용크기(B)는 우리가 정하는 것.

모평균을 추정하기 위해 필요한 표본크기를 계산하는 공식.

 

 

배우는 것 4가지

  1. 표본평균의 표본분포
  2. 표본비율의 표본분포
  3. 표본분산의 표본분포
  4. 두 표본평균 차이의 표본분포

표본분포 

표본추출에 의해 만들어지며 통계량의 확률분포

통계량이라는 것은 표본평균, 표본의표준편차가 확률변수이다.

확률변수이기 때문에 확률분포를 가질 수 있다.

이런 통계량의 확률분포를 표본분포라고 한다.

 

분포를 파악하기 위해서는 분포의 평균분산을 파악해야 한다.

최종적으로는 새롭게 정의된 확률변수들을 표준정규분포화를 통해

확률값을 계산하기 위함이다.

뒤에서 배우는 표본평균, 표본비율, 표본분산과 같은 것들이 모두

확률변수라는점을 꼭 기억하자.

 

예) 주사위던지기를 통해 확률분포를 통해 평균과 표준편차를 구할 수 있다.

이제 주사위 2개를 던지는 시행을 해보자.

이러한 경우에서 새롭게 정의된 표본평균(X바)이라는 확률변수를 구할 수 있을 것.

 

여기로부터 나오는 결론

n번 주사위 던지는 것의 평균과 표준편차를 일반화 시킬 수 있다.

표본평균의 평균은 X의 평균과 같고, 표본평균의 분산은 확률변수 X의 분산을 n으로 나눈것과 같다

 

지금껏 X바 라는 것은 '정해진 수' 라는 개념을 갖고 있을 것.

X바라는 수는 어떤 수도 가능하다. 우연히 특정한 숫자가 나온 것 뿐이지

표본을 다시 뽑으면 어떠한 수도 가능하다. 그렇기 때문에 확률변수라 일컫는 것이다.

 

표준오차

표본분포의 표준편차를 표준 오차라고 부른다.(통계량의 표준편차)

 

중심극한정리

통계량의 확률분포가 n만 크면 어떤 분포든 정규분포에 수렴한다고 이해.

표본의 개수가 30이 넘으면 표본평균은 대략 정규분포가 될 만큼 충분히 크다고 할 수 있다.

 

표본평균의 표본분포

표본평균의 표본분포(X가 정규분포이면, X는 정규분포이다. 그림의 오타수정)

 

표본평균의 분산이 X의 분산보다 더 작기 때문에(n으로 나눈 이유)

정규분포의 그림을 그리면 흩어진 정도가 더 작은 모양으로 보인다.

솟아오른 부분이 표본평균의 정규분포

를 들어보자.

A 대학교 총장은 본인의 학교 졸업생들의 봉급이

주당 평균800달러를 받고, 표준편차는 100달러라고 주장한다.

이러한 주장이 맞는지 확인하기 위해 

노씨가 졸업한 선배25명을 대상으로 서베이를 실시한다.

 

서베이 결과 표본평균이 주당 750달러인 것을 발견한다.

모평균 800달러, 모표준편차가 100달러일 때,

25명의 졸업생으로 구성된 표본평균이 750달러 이하일 확률을 계산해보자

위에서 나타낸 공식에 대입해보면 

표본평균의 평균은 800달러, 표본평균의 표준편차는 20(100/루트25)이다.

이 값으로 표본평균이 750달러 이하일 확률을 계산해보면,

표본평균의 정규화(Z값)을 한 결과가 P(Z<-2.5) = 0.5 - P(0<Z<0.25) =0.0062가 나온다.

즉, 대학교 총장이 주장한 봉급에 비해 실제 데이터는 그럴 확률이 거의 없다는 것을 시사한다.

 

이는 P(-1.96 < Z < 1.96) = 0.95 라는 것을 생각해봐도 유추할 수 있다.

표준화된 정규분포에서 Z값의 좌우로 1.96을 초과하는 부분은

양쪽 끝부분을 모두 포함해서 0.05의 확률밖에 안된다.

이러한 경우에서 좌측의 Z값이 -2.5라는 부분보다 더 작을 확률은 0.05보다 훨씬 더 작을 것이다.

이 부분이 0.0062를 나타내는 것이다.

 

 

표본비율의 표본분포

이항확률변수와 관계가 있다.

성공할 확률 : p이 정해져있다고 가정되는데,

실제로는 성공할 확률(p)은 알려져 있지 않다.

그래서 표본을 통해서 성공할 확률(p)를 구해야 한다.

여기서 X는 이항확률변수이다

이항분포의 정규분포에 의한 근사는

1. n이 매우 큰 경우

2. 성공확률 p가 0.5와 매우 가까운 경우 

가장 잘 적용된다.

이는 아래와 같은 조건이 동시에 충족됨과 동일하다.

근사가 좋은 결과를 제공하기 위한 조건

정규분포를 통해서 특정 구간(P(X=10)) 같은 것을 구하기 위해서는

P(9.5 < Y < 10.5)의 면적을 통해서 구할 수 있다.

 

 기대치와 분산법칙

1. 왜 P햇의 기대값이 np가 아닌가?

여기서의 P햇은 새롭게 정의된 확률변수이고

위에서 표본평균의 평균 및 표준편차를 구했듯이,

여기에서도 P햇의 평균과 표준편차를 구할 수 있다.

P햇은 X/n로 정의되었다. 

기대값의 법칙에 의해서 E(X/n)은 n이 상수이므로 기대값의 법칙에 의해

1/n * E(X)로 나타낼 수 있다.

여기서 E(X)는 np였으므로 n끼리 약분되어서

결국, E(P햇)은 p가 된다.

 

2. V(P햇) 또한 V(X)가 npq라는 점을 이용하면 동일한 결과가 도출된다.

위와 같은 이유에서 분산은 기대치의 법칙에 의해서 내부에 있는 상수가

밖으로 나가면서 n^2의 형태로 빠져나오기 때문에 1/n이 남은 것으로 이해.

 

표본비율의 정규화

해당 확률변수의 평균을 빼고, 해당 확률변수의 표준편차로 나눠줘야 정규화.

이것이 N(0,1)에 근사해진다. (정규분포 평균0, 표준편차1에 근사하다는 것을 의미)

 

 

표본분산의 표본분포

맨 위에서 말했듯 여기서 나타난 s^2(표본분산) 또한 확률변수이다.

이 확률변수(s^2)의 평균과 표준편차를 구해야 한다.

저 분수식 하나가 새로운 확률변수라고 생각하면 됨

표본분산의 평균이 무엇이고, 표본분산의 분산이 무엇인지를 구하기 위해서 위의 식을 쓴다.

 

카이제곱분포의 특성

카이제곱분포를 따르는 확률변수는 평균값이 자유도(v)와 같다.

분산은 자유도의 2배(2v)와 같다.

 

우리가 구하고자 하는 것은 E(s^2)과 V(s^2)이다.

카이제곱분포의 특성을 통한 기대값과 분산 구하기

기대값의 법칙을 통해서 표본분산이라는 확률변수의 기대값과 분산을 구해보자.

n-1이나 분산은 정해진 상수이기 때문에 밖으로 빠져나가는 성질을 고려해서 유도해보면

위와 같은 간단한 표본분산의 평균과 표준편차를 구할 수 있다.

 

 

두 표본평균 차이의 표본분포

이런 정의도 확률변수이다.

확률변수는 확률분포를 갖고,

이러한 확률분포도 표본분포가 된다는 점을 인지하자.

 

독립된 임의 표본들이 두 정규모집단의 각각으로부터 추출된 경우

여기서 중요한 것은 '독립'이라는 것을 인지.

COV = 0 이 되는 조건이므로 중요하다.

표본을 추출하는게 다음 표본 추출에 영향을 미친다면 이는 독립이 아니다.

 

X1바 - X2바 = Y라고 하면 Y도 확률변수이다.

이 Y라는 확률변수의 평균, 표준편차가 궁금한 것.

여기서도 X1바 X2바의 사이즈가 충분히 크다면 정규분포에 근사해진다.

 

+ Recent posts