이산확률변수 - 확률질량함수

연속확률변수 - 확률밀도함수

여기서 확률밀도함수를 구하는 방법을 알아보자.

확률 밀도함수는 F(x)를 미분한 F`(x)를 의미한다.

F(x)는 누적분포함수(CDF)이며 이것의 변화율이 f(x)이다.

 

균등분포(Uniform Distribution)

균등분포는 이후에 나오는 분포의 출발선이 된다.

이전에 이산확률변수에서 베르누이분포가 기준이 되듯..

아래는 균등분포의 확률밀도함수, 기대값, 분산을 나타낸다.

균등분포의 확률밀도함수, 기대값, 분산

 

정규분포

정규분포의 확률밀도함수를 먼저 보자.

정규분포의 확률밀도함수

우리가 일반적인 형태의 함수 식은 적분이 가능했지만, 정규분포의 확률밀도함수는 손으로 적분이 불가능한 형태이다.

적분을 해야 해당 구간의 밀도를 구할 수 있다. 그 밀도가 결국은 확률이기 때문이다.

그래서 우리는 정규화의 과정이 필요한 것이다(표준정규분포)

 

정규분포는 식에서 보듯이, parameter가 평균, 표준편차만 주어지면 구할 수 있다.

정규분포의 위치평균에 의해 영향을 받지만, 모양표준편차만 영향을 준다.

 

평균과 표준편차에 따라 달라지는 정규분포

정규분포의 68 - 95 - 99.7 법칙(근사적 성질)

이 성질을 따르면 정규분포를 따른다고 본다.

근사적 성질이라고 하는 이유는 딱 68%, 95%, 99.7%가 아니라

68.XXX% 이기 때문이다.

 

정규분포의 중요한 성질

정규분포의 중요한 성질

  • 1. 정규분포인 확률변수에 어떤 상수를 곱하고, 더해도 그것은 정규분포를 따른다.
  • 2. 서로 독립인 두 정규분포끼리 상수를 곱한 뒤 더해도 그것은 정규분포를 따른다.
  • 3. 위의 규칙은 anXn인 경우에도 성립된다 → (2)에서 aX+bY를 a1X1+a2X2라고 생각하고 an+Xn까지 확장시키면, 평균과 분산 또한 n까지의 더하기로 늘어난다.
  • ex) P(X>Y)를 구하고자 하면, P(X-Y>0)을 구하면 된다. 여기서 X-Y를 새로운 확률변수라고 하고, 평균끼리는 빼주고, 분산끼리는 더해주는 방법으로 평균과 분산을 구한 뒤에 정규화를 한다. 다만 분산을 구할 때는, V(X) + V(-Y)임을 명심하자. 분산은 마이너스가 나올 수 없기 때문이다.

 

 

표준정규분포

I 가운데 o을 그린 그림이 누적분포함수를 의미한다.(좌측의영역)

Z값이 x이상일 때, 바로 구하기 힘드니,

1-Io를 해서 대칭성을 이용하면 된다.

Z값이 x이상일 때는 예전에 배웠던 z0.05와 같은 것 같다.

Io는 -무한대부터 해당 값까지의 넓이(확률)이고,(좌측)

z0.05는 해당 값부터 +무한대까지의 값이다.(우측)

1-Io를 하면 z0.05와 같은 식으로 될 것.

 

7.확률변수와 이산확률분포

 

이항확률분포확률질량함수는 아래와 같다.

확률질량함수는 이산적이지 않고 연속적이다.

이항분포의 확률질량함수(출처: 위키백과)

 

푸아송 분포는 확률론에서 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포이다.

푸아송분포의 정의(출처: 위키백과)

푸아송분포의 일반형인 문장의 형태 'X 시간 동안 ~~ 하는 수' 로 표현된다.


8.연속확률분포

 

정규분포에서 f(x)의 의미

정규분포의 확률밀도함수

f(x) 는 결국 y이다.

위의 식에서 평균과 표준편차를 알 때(e(자연상수)도 정해져 있으므로)

내가 원하는 x를 알면 그 지점까지의 확률을 알 수 있다.

하지만 모두 이렇게 계산할 수 없어서 정규화(Z)를 하는 것이다.

 

 

음의 투자수익률이 발생할 확률

평균과 표준편차를 가지고 투자의 수익률을 어떻게 연관지을 수 있을까?

예를 들어 한 투자의 수익률의 평균이 10%이고, 표준편차가 5%인 정규분포를 따른다고 하자.

 

1. 이 투자가 손실이 발생할 확률은?

수익률(X)의  0%보다 정규분포상 왼쪽의 부분을 의미하며,

이는 X < 0 인 구간을 의미한다.

이것을 구하기 위해 정규화 과정이 필요하다. (평균과 표준편차를 이용해서)

X는 실제 데이터에 맞춰서 나타낸 단위이고, Z는 우리가 확률을 계산하기 위해서 임시로 계산하는 단위이다.

(위에서 설명했듯이, f(x) 확률밀도함수마다 모든 평균, 표준편차, 자연상수, x값 을 넣고 계산하긴 번거로우니)

위의 조건에 맞춰서 Z값을 구해보면 P(Z < -2.00) = 0.0228 이 나온다.

이것은 정규분포상의 Z값이 -2.00인 지점의 왼쪽 넓이(확률)을 나타낸다.

이 -2라는 숫자의 의미는 X(수익률)이 0보다 작은, 즉 손실이 날 가능성이 있는 구간을 의미한다.

(0이라는 X를 정규화 하면 Z값이 -2.00이 된다)

결과적으로, 수익률이 0% 미만일 확률은 2.28%라고 볼 수 있다.

 

2. 이 투자의 표준편차가 10%일 때 손실이 발생할 확률은?

위와 동일한 과정으로 X < 0 인 부분을 정규화를 통해 구해보면,

P(Z < -1.00)이다. 기존의 지점보다 오른쪽으로 기준이 옮겨가면서 확률이 더 커졌다.

즉, 표준편차라는 것은 금융권에서 리스크(위험도)의 척도이며,

이는 투자판단 지표의 역할을 한다.

(High Risk, High Return이라지만, 투자자들은 저위험을 더 선호하는 경향이 짙다)

 

 

Z값 찾기

지금까지는 Z값을 찾아서 확률을 구했지만,

역으로 확률을 통해 Z값을 구하는 방법을 알아보자.

예를 들어, 정규분포의 어떤 지점에서 X의 오른쪽 넓이 부분이 0.05라면,

이는 Z0.05로 표현할 수 있다.

Z0.05가 주어지면 진짜 Z값을 찾아야 한다. 

(Z0.05는 그 지점에서 오른쪽 넓이가 0.05란 것이지, Z값의 숫자를 의미하는 것이 아님.)

오른쪽 영역이 0.05니까 왼쪽영역은 0.9500일 것. 정규분포표에서 이 확률을 가지는 Z값을 찾으면 된다.

만약 0.9495와 0.9505만 있다면 두 Z값의 산술평균으로 Z값을 구하면 된다.

만약 -Z0.05라면 대칭성을 통해서 구하면 된다.

 

X값 찾기

Z값은 계산을 위해서 변형된(표준화된) 단위이지만, X값은 실제데이터의 단위이다.

위와 같은 단계로 Z0.05를 통해 X값을 찾고자 한다면, 

0.9500이라는 값에 해당하는 Z값을 구한 뒤에,

정규화 식 Z = (X-평균) / 표준편차 에서, X를 제외한 모든 미지수에 숫자를 직접 대입하면 X값이 나온다.

 

기타 연속확률분포

기타 연속확률분포에 대한 정리(출처: 노씨)
t분포 (정규분포보다는 산의 형태이다)(출처: 위키백과)

t분포는 t(A,v)와 같이 나타낸다. A는 해당 값 기준 오른쪽 면적의 확률(위에서의 Z0.05와 동일), v는 자유도를 의미한다.

t분포는 마이너스 대칭성을 써도 된다. ex) 1-t(A,v)

카이제곱 분포(출처: 나무위키)

카이제곱분포는 양수만을 갖기 때문에(제곱이니까), 마이너스 대칭을 쓸 수 없다.

카이제곱분포는 카이제곱(1-A) 와 같은 형태로 대칭을 쓸 수 있다.

 

 

F분포 (출처: 나무위키)

 

F분포는 v1:분자의 자유도, v2:분모의 자유도가 있다.

F(A,v1,v2)로 표기한다.

마이너스 대칭성을 이용하지 않고 특별한 공식이 있다.

ex) F(1-A,v1,v2) = 1/{F(A,v2,v1)}


9. 표본분포

표본평균의 표본분포

평균: 모평균

분산: 모분산 나누기 n

 

표본비율의 표본분포

평균: p(성공할 확률)

분산: pq/n

 

표본분산의 표본분포

평균: 모분산

분산: 2시그마^4/n-1

 

표본평균 차이의 표본분포

평균: A모평균 - B모평균

분산: A분산/A의n + B분산/B의n

 

표본평균의 표준편차를 표본평균의 표준오차라고 부른다

표본비율의 표준편차를 표본비율의 표준오차라고 부른다.

표본분산의 표준편차를 표본분산의 표준오차라고 부른다.

즉, 표본OO의 표준편차는 표본OO의 표준오차라고 부른다.

+ Recent posts