7.확률변수와 이산확률분포

 

이항확률분포확률질량함수는 아래와 같다.

확률질량함수는 이산적이지 않고 연속적이다.

이항분포의 확률질량함수(출처: 위키백과)

 

푸아송 분포는 확률론에서 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포이다.

푸아송분포의 정의(출처: 위키백과)

푸아송분포의 일반형인 문장의 형태 'X 시간 동안 ~~ 하는 수' 로 표현된다.


8.연속확률분포

 

정규분포에서 f(x)의 의미

정규분포의 확률밀도함수

f(x) 는 결국 y이다.

위의 식에서 평균과 표준편차를 알 때(e(자연상수)도 정해져 있으므로)

내가 원하는 x를 알면 그 지점까지의 확률을 알 수 있다.

하지만 모두 이렇게 계산할 수 없어서 정규화(Z)를 하는 것이다.

 

 

음의 투자수익률이 발생할 확률

평균과 표준편차를 가지고 투자의 수익률을 어떻게 연관지을 수 있을까?

예를 들어 한 투자의 수익률의 평균이 10%이고, 표준편차가 5%인 정규분포를 따른다고 하자.

 

1. 이 투자가 손실이 발생할 확률은?

수익률(X)의  0%보다 정규분포상 왼쪽의 부분을 의미하며,

이는 X < 0 인 구간을 의미한다.

이것을 구하기 위해 정규화 과정이 필요하다. (평균과 표준편차를 이용해서)

X는 실제 데이터에 맞춰서 나타낸 단위이고, Z는 우리가 확률을 계산하기 위해서 임시로 계산하는 단위이다.

(위에서 설명했듯이, f(x) 확률밀도함수마다 모든 평균, 표준편차, 자연상수, x값 을 넣고 계산하긴 번거로우니)

위의 조건에 맞춰서 Z값을 구해보면 P(Z < -2.00) = 0.0228 이 나온다.

이것은 정규분포상의 Z값이 -2.00인 지점의 왼쪽 넓이(확률)을 나타낸다.

이 -2라는 숫자의 의미는 X(수익률)이 0보다 작은, 즉 손실이 날 가능성이 있는 구간을 의미한다.

(0이라는 X를 정규화 하면 Z값이 -2.00이 된다)

결과적으로, 수익률이 0% 미만일 확률은 2.28%라고 볼 수 있다.

 

2. 이 투자의 표준편차가 10%일 때 손실이 발생할 확률은?

위와 동일한 과정으로 X < 0 인 부분을 정규화를 통해 구해보면,

P(Z < -1.00)이다. 기존의 지점보다 오른쪽으로 기준이 옮겨가면서 확률이 더 커졌다.

즉, 표준편차라는 것은 금융권에서 리스크(위험도)의 척도이며,

이는 투자판단 지표의 역할을 한다.

(High Risk, High Return이라지만, 투자자들은 저위험을 더 선호하는 경향이 짙다)

 

 

Z값 찾기

지금까지는 Z값을 찾아서 확률을 구했지만,

역으로 확률을 통해 Z값을 구하는 방법을 알아보자.

예를 들어, 정규분포의 어떤 지점에서 X의 오른쪽 넓이 부분이 0.05라면,

이는 Z0.05로 표현할 수 있다.

Z0.05가 주어지면 진짜 Z값을 찾아야 한다. 

(Z0.05는 그 지점에서 오른쪽 넓이가 0.05란 것이지, Z값의 숫자를 의미하는 것이 아님.)

오른쪽 영역이 0.05니까 왼쪽영역은 0.9500일 것. 정규분포표에서 이 확률을 가지는 Z값을 찾으면 된다.

만약 0.9495와 0.9505만 있다면 두 Z값의 산술평균으로 Z값을 구하면 된다.

만약 -Z0.05라면 대칭성을 통해서 구하면 된다.

 

X값 찾기

Z값은 계산을 위해서 변형된(표준화된) 단위이지만, X값은 실제데이터의 단위이다.

위와 같은 단계로 Z0.05를 통해 X값을 찾고자 한다면, 

0.9500이라는 값에 해당하는 Z값을 구한 뒤에,

정규화 식 Z = (X-평균) / 표준편차 에서, X를 제외한 모든 미지수에 숫자를 직접 대입하면 X값이 나온다.

 

기타 연속확률분포

기타 연속확률분포에 대한 정리(출처: 노씨)
t분포 (정규분포보다는 산의 형태이다)(출처: 위키백과)

t분포는 t(A,v)와 같이 나타낸다. A는 해당 값 기준 오른쪽 면적의 확률(위에서의 Z0.05와 동일), v는 자유도를 의미한다.

t분포는 마이너스 대칭성을 써도 된다. ex) 1-t(A,v)

카이제곱 분포(출처: 나무위키)

카이제곱분포는 양수만을 갖기 때문에(제곱이니까), 마이너스 대칭을 쓸 수 없다.

카이제곱분포는 카이제곱(1-A) 와 같은 형태로 대칭을 쓸 수 있다.

 

 

F분포 (출처: 나무위키)

 

F분포는 v1:분자의 자유도, v2:분모의 자유도가 있다.

F(A,v1,v2)로 표기한다.

마이너스 대칭성을 이용하지 않고 특별한 공식이 있다.

ex) F(1-A,v1,v2) = 1/{F(A,v2,v1)}


9. 표본분포

표본평균의 표본분포

평균: 모평균

분산: 모분산 나누기 n

 

표본비율의 표본분포

평균: p(성공할 확률)

분산: pq/n

 

표본분산의 표본분포

평균: 모분산

분산: 2시그마^4/n-1

 

표본평균 차이의 표본분포

평균: A모평균 - B모평균

분산: A분산/A의n + B분산/B의n

 

표본평균의 표준편차를 표본평균의 표준오차라고 부른다

표본비율의 표준편차를 표본비율의 표준오차라고 부른다.

표본분산의 표준편차를 표본분산의 표준오차라고 부른다.

즉, 표본OO의 표준편차는 표본OO의 표준오차라고 부른다.

배우는 것 4가지

  1. 표본평균의 표본분포
  2. 표본비율의 표본분포
  3. 표본분산의 표본분포
  4. 두 표본평균 차이의 표본분포

표본분포 

표본추출에 의해 만들어지며 통계량의 확률분포

통계량이라는 것은 표본평균, 표본의표준편차가 확률변수이다.

확률변수이기 때문에 확률분포를 가질 수 있다.

이런 통계량의 확률분포를 표본분포라고 한다.

 

분포를 파악하기 위해서는 분포의 평균분산을 파악해야 한다.

최종적으로는 새롭게 정의된 확률변수들을 표준정규분포화를 통해

확률값을 계산하기 위함이다.

뒤에서 배우는 표본평균, 표본비율, 표본분산과 같은 것들이 모두

확률변수라는점을 꼭 기억하자.

 

예) 주사위던지기를 통해 확률분포를 통해 평균과 표준편차를 구할 수 있다.

이제 주사위 2개를 던지는 시행을 해보자.

이러한 경우에서 새롭게 정의된 표본평균(X바)이라는 확률변수를 구할 수 있을 것.

 

여기로부터 나오는 결론

n번 주사위 던지는 것의 평균과 표준편차를 일반화 시킬 수 있다.

표본평균의 평균은 X의 평균과 같고, 표본평균의 분산은 확률변수 X의 분산을 n으로 나눈것과 같다

 

지금껏 X바 라는 것은 '정해진 수' 라는 개념을 갖고 있을 것.

X바라는 수는 어떤 수도 가능하다. 우연히 특정한 숫자가 나온 것 뿐이지

표본을 다시 뽑으면 어떠한 수도 가능하다. 그렇기 때문에 확률변수라 일컫는 것이다.

 

표준오차

표본분포의 표준편차를 표준 오차라고 부른다.(통계량의 표준편차)

 

중심극한정리

통계량의 확률분포가 n만 크면 어떤 분포든 정규분포에 수렴한다고 이해.

표본의 개수가 30이 넘으면 표본평균은 대략 정규분포가 될 만큼 충분히 크다고 할 수 있다.

 

표본평균의 표본분포

표본평균의 표본분포(X가 정규분포이면, X는 정규분포이다. 그림의 오타수정)

 

표본평균의 분산이 X의 분산보다 더 작기 때문에(n으로 나눈 이유)

정규분포의 그림을 그리면 흩어진 정도가 더 작은 모양으로 보인다.

솟아오른 부분이 표본평균의 정규분포

를 들어보자.

A 대학교 총장은 본인의 학교 졸업생들의 봉급이

주당 평균800달러를 받고, 표준편차는 100달러라고 주장한다.

이러한 주장이 맞는지 확인하기 위해 

노씨가 졸업한 선배25명을 대상으로 서베이를 실시한다.

 

서베이 결과 표본평균이 주당 750달러인 것을 발견한다.

모평균 800달러, 모표준편차가 100달러일 때,

25명의 졸업생으로 구성된 표본평균이 750달러 이하일 확률을 계산해보자

위에서 나타낸 공식에 대입해보면 

표본평균의 평균은 800달러, 표본평균의 표준편차는 20(100/루트25)이다.

이 값으로 표본평균이 750달러 이하일 확률을 계산해보면,

표본평균의 정규화(Z값)을 한 결과가 P(Z<-2.5) = 0.5 - P(0<Z<0.25) =0.0062가 나온다.

즉, 대학교 총장이 주장한 봉급에 비해 실제 데이터는 그럴 확률이 거의 없다는 것을 시사한다.

 

이는 P(-1.96 < Z < 1.96) = 0.95 라는 것을 생각해봐도 유추할 수 있다.

표준화된 정규분포에서 Z값의 좌우로 1.96을 초과하는 부분은

양쪽 끝부분을 모두 포함해서 0.05의 확률밖에 안된다.

이러한 경우에서 좌측의 Z값이 -2.5라는 부분보다 더 작을 확률은 0.05보다 훨씬 더 작을 것이다.

이 부분이 0.0062를 나타내는 것이다.

 

 

표본비율의 표본분포

이항확률변수와 관계가 있다.

성공할 확률 : p이 정해져있다고 가정되는데,

실제로는 성공할 확률(p)은 알려져 있지 않다.

그래서 표본을 통해서 성공할 확률(p)를 구해야 한다.

여기서 X는 이항확률변수이다

이항분포의 정규분포에 의한 근사는

1. n이 매우 큰 경우

2. 성공확률 p가 0.5와 매우 가까운 경우 

가장 잘 적용된다.

이는 아래와 같은 조건이 동시에 충족됨과 동일하다.

근사가 좋은 결과를 제공하기 위한 조건

정규분포를 통해서 특정 구간(P(X=10)) 같은 것을 구하기 위해서는

P(9.5 < Y < 10.5)의 면적을 통해서 구할 수 있다.

 

 기대치와 분산법칙

1. 왜 P햇의 기대값이 np가 아닌가?

여기서의 P햇은 새롭게 정의된 확률변수이고

위에서 표본평균의 평균 및 표준편차를 구했듯이,

여기에서도 P햇의 평균과 표준편차를 구할 수 있다.

P햇은 X/n로 정의되었다. 

기대값의 법칙에 의해서 E(X/n)은 n이 상수이므로 기대값의 법칙에 의해

1/n * E(X)로 나타낼 수 있다.

여기서 E(X)는 np였으므로 n끼리 약분되어서

결국, E(P햇)은 p가 된다.

 

2. V(P햇) 또한 V(X)가 npq라는 점을 이용하면 동일한 결과가 도출된다.

위와 같은 이유에서 분산은 기대치의 법칙에 의해서 내부에 있는 상수가

밖으로 나가면서 n^2의 형태로 빠져나오기 때문에 1/n이 남은 것으로 이해.

 

표본비율의 정규화

해당 확률변수의 평균을 빼고, 해당 확률변수의 표준편차로 나눠줘야 정규화.

이것이 N(0,1)에 근사해진다. (정규분포 평균0, 표준편차1에 근사하다는 것을 의미)

 

 

표본분산의 표본분포

맨 위에서 말했듯 여기서 나타난 s^2(표본분산) 또한 확률변수이다.

이 확률변수(s^2)의 평균과 표준편차를 구해야 한다.

저 분수식 하나가 새로운 확률변수라고 생각하면 됨

표본분산의 평균이 무엇이고, 표본분산의 분산이 무엇인지를 구하기 위해서 위의 식을 쓴다.

 

카이제곱분포의 특성

카이제곱분포를 따르는 확률변수는 평균값이 자유도(v)와 같다.

분산은 자유도의 2배(2v)와 같다.

 

우리가 구하고자 하는 것은 E(s^2)과 V(s^2)이다.

카이제곱분포의 특성을 통한 기대값과 분산 구하기

기대값의 법칙을 통해서 표본분산이라는 확률변수의 기대값과 분산을 구해보자.

n-1이나 분산은 정해진 상수이기 때문에 밖으로 빠져나가는 성질을 고려해서 유도해보면

위와 같은 간단한 표본분산의 평균과 표준편차를 구할 수 있다.

 

 

두 표본평균 차이의 표본분포

이런 정의도 확률변수이다.

확률변수는 확률분포를 갖고,

이러한 확률분포도 표본분포가 된다는 점을 인지하자.

 

독립된 임의 표본들이 두 정규모집단의 각각으로부터 추출된 경우

여기서 중요한 것은 '독립'이라는 것을 인지.

COV = 0 이 되는 조건이므로 중요하다.

표본을 추출하는게 다음 표본 추출에 영향을 미친다면 이는 독립이 아니다.

 

X1바 - X2바 = Y라고 하면 Y도 확률변수이다.

이 Y라는 확률변수의 평균, 표준편차가 궁금한 것.

여기서도 X1바 X2바의 사이즈가 충분히 크다면 정규분포에 근사해진다.

 

+ Recent posts