강의노트

Transcript 강의노트

5
연속확률분포
1
균등분포
2
지수분포
3
감마분포
4
웨이블분포
5
베타분포
6
정규분포
7
정규분포에 관련된 연속분포들
1
균등분포(uniform distribution)
균등분포의 확률밀도함수와 분포함수 및 평균, 분산 그리고
균등분포에 대한 백분위수와 사분위수 등에 대하여 알아본다.
☞ 1) 확률밀도함수
X ~ U(a, b)
f(x) =
1
,
b-a
a≤x≤b
☞ 2) 평균
b
m = E(X) =  x f(x)dx =
a
=
1
b-a
2
x
2
b
a
b-a
b
=
a
x
dx
a+b
2
☞ 3) 분산
b
ax
2
E(X )
=
2
b
a b - a
f(x)dx =
1
b-a
b
3
x
3
x2
a
dx
a2 +ab + b2
=
3
s2 = Var(X) = E(X2) – E(X)2
a2 +ab + b2
=
3
a+b
2
2
(b – a)2
=
12
☞ 4) 분포함수
x < a인 경우 :
P(X ≤ x) =
x
x
-∞ f(x)dx = -∞0 du = 0
x
a ≤ x < b인 경우 :
x
-∞ f(x)dx
P(X ≤ x) =
=
a
-∞
x
0 dx + 
a
1
x-a
du =
b-a
b-a
x
x ≥ b인 경우 :
P(X ≤ x) =
=
x
 -∞ f(x)dx
a
b
-∞ 0 dx + a
x
1
b - a du +  0 du
b
=1
분포함수 :
F(x) = P(X ≤ x) =
0
, x<a
x-a
b-a
, a≤x<b
1
, x≥ b
x
☞ 5) 백분위수와 사분위수
0 < p < 1에 대하여
100p-백분위수 xp : [a, b]를 p : 1-p로 내분하는 점 xp=(1-p)a + pb
제1사분위수 Q1 = x0.25 = 0.75a + 0.25b
제2사분위수 Q2 = Me = x0.5 = 0.5a + 0.5b
제3사분위수 Q3= x0.75 = 0.25a + 0.75b
사분위수범위 I.Q.R = Q3 - Q1 = x0.75 - x0.25 = 0.5b – 0.5a
X ~ U(0, 10)에 대하여
(1) X의 확률밀도함수와 분포함수
(2) X의 평균(m)와 분산(s2)
(3) P(m - s < X < m + s )
(4) 사분위수 Q1 , Q2 , Q3
(5) X의 최빈값 Mo = ?
(1) X의 확률밀도함수 : X ~ U(0, 10)이므로
f(x) =
1
,
10
0 < x < 10
X의 분포함수 :
0
F(x) = P(X ≤ x) =
x
0
1
, x<0
1 du , 0 ≤ x < 10
10
, x ≥ 10
=
0
, x<0
x
10
, 0 ≤ x < 10
1
, x ≥ 10
(2)
0+10
m = E(X) =
= 5,
2
(3)
s2 = 8.3333이므로 s =
(10 - 0)2
s = Var(X) =
= 8.3333
12
2
8.3333 = 2.89
(m - s , m + s ) = (5 – 2.89, 5 + 2. 89) = (2.11, 7.89)
P(m - s < X < m +s) =
(4)
5.78
10
= 0.578
제1사분위수 Q1 = (0.75)•0 + (0.25) •(10) = 2.5
제2사분위수 Q2 = (0.5)•0 + (0.5) •(10) = 5.0
제3사분위수 Q3= (0.25)•0 + (0.75) •(10) = 7.5
(5) [0, 10]에서 f(x) =
1
이므로 f(x)의 최대값이 존재하지 않음.
10
X의 최빈값이 없다.
X ~ U(0, 1)에 대하여 Y = a + (b – a)X (a < b)라 할 때,
(1) Y의 분포함수
(2) Y의 확률밀도함수
(3) Y의 평균(m)와 분산(s2)
(4) Y의 중앙값 Me = ?
(1) X ~ U(0, 1)이므로
X의 분포함수 :
0
FX(x) = P(X ≤ x) =
x
0 1
1
, x<0
du
, 0≤x<1
=
, x≥ 1
한편, y = a + (b – a)x이고 0 ≤ x ≤ 1이므로 a ≤ y ≤ b
0
, x<0
x
, 0≤x<1
1
, x≥ 1
a ≤ y < b에 대하여
P(Y ≤ y) = P[a + (b – a)X ≤ y]
=P X≤
y-a
=F
b-a
y-a
y-a
=
b-a
b-a
0
, y<a
y-a
b-a
, a≤y<b
1
, y≥ b
y-a
= b-a
Y의 분포함수 : FY(x) =
(2) Y의 확률밀도함수 :
fY(y) =
d
d y-a
FY(y) =
=
dx
dx b - a
1
b-a
, a≤y≤b
(3) Y ~ U(a, b)이므로
a+b
m = E(Y) =
2
(b – a)2
s = Var(Y) =
12
2
(4) Y ~ U(a, b)이므로
F(y0) = 0.5 =
y0 - a
b-a
Me = y0 =
a+b
2
2
지수분포 (exponential distribution)
지수분포의 확률밀도함수와 평균, 분산을 비롯한 비기억성
성질 그리고 포아송과정과의 관계에 대하여 알아본다.
l의 비율로 사고가 발생할 때까지 걸리는 시간 또는 비율 l인 포아송과정에 따라
발생하는 사건 사이의 대기시간 등에 응용되는 확률분포를 모수 l인 지수분포라 한
다.
☞ 1) 확률밀도함수
X ~ Exp(l)
f(x) = le-lx , x > 0 , l> 0
☞ 2) 평균
m = E(X) =
∞
0
x f(x)dx =
= lim -
☞ 3) 분산
2
E(X ) =
∞
0 x
2
= lim -
l
l2x2 + 2lx + 2
l2
1
l
2
=
u
e-lx
0
= 1
l
0 x2 le-lx dx
u
e-lx
=
0
s2 = Var(X) = E(X2) – E(X)2
2
= 2 l
x le-lx dx
∞
f(x)dx =
x→∞
0
lx + 1
u→∞
∞
1
l2
2
l2
교차로에서 나타나는 교통사고 발생시간의 간격 X(단위:개월)
f(x) = 3e-3x , x > 0
(1) 사고가 관측된 이후로 한 달이 지난 후에 다음 사고가 발생할 확률
(2) 두 달 안에 사고가 발생할 확률
(3) 한 달을 30일이라 할 때, 평균 몇 일만에 사고가 나는가?
(1) P(X > 1) =
(2) P(X ≤ 2) =
∞
1 3e
2
0
-3x
-3x
3e
-3x
dx = (-1)e
-3x
dx = (-1)e
∞
= e-3 = 0.0498
1
2
= 1 - e-6 = 0.9975
0
(3) 사고일 수는 모수 l= 3인 기하분포이므로
월평균 사고발생 간격일 수는 m= 1/3, 즉 10일이다.
☞ 4) 분포함수
x < 0인 경우 :
x
x
-∞f(x)dx = -∞0 dx = 0
P(X ≤ x) =
x
x ≥ 0인 경우 :
x
-∞f(x)dx
P(X ≤ x) =
=
0
-∞
0 dx +
= - e-lu
x
0
x
0
le-lu du
= 1- e-lx
x
분포함수 :
F(x) = P(X ≤ x) =
0
, x<0
1- e-lx
, x≥0
☞ 5) 생존함수(survival function)
S(x) = P(X > x) = 1 – F(x) = e-lx , x > 0
☞ 6) 위험률(hazard rate function), 실패율(failure rate function)
h(x) =
f(x)
S(x)
=l
X ~ Exp(1/600)에 대하여
(1) X의 확률밀도함수와 분포함수를 구하여라.
(2) X의 생존함수를 구하여라.
(3) X의 위험률을 구하여라.
(4) X의 기대값과 분산
X ~ Exp(1/600) 이므로
●
X의 확률밀도함수
f(x) =
●
1
600
e-x/600 ,
S(x) = e
●
m = 1/ l = 600
●
, x≥0
X의 위험률
h(x) = l =
, x>0
X의 평균
X의 분포함수
F(x) = 1- e-x /600
x>0
X의 생존함수
-x/600
●
●
1
600
, x≥0
X의 분산
s2 = 1/ l2 = 360000
환자의 생존시간 : X ~ Exp(1/100)
f(x) =
1
100
e-x/100 ,
x>0
(1) 이 환자가 150일 이내에 사망할 확률
(2) 이 환자가 200일 이상 생존할 확률
X의 생존함수
X의 분포함수
F(x) = 1- e-x/100
, x≥0
S(x) = e-x/100 , x > 0
(1) 이 환자가 150일 이내에 사망할 확률 :
P(X < 150) = F(150) = 1- e-150/100 = 1 – 0.2231 = 0.7769
(2) 이 환자가 200일 이상 생존할 확률 :
P(X ≥ 200) = S(200) = e-200/100 = e-2 = 0.1353
정리 1 비기억성 성질(memorylessness property)
X ~ Exp(l)에 대하여 다음이 성립한다.
P(X > a+b | X > a) = P(X > b) ,
증명
P(X > a+b | X > a) =
∞
a+b
P(X > a+b) =
P(X > a) =
P(X > b) =
∞
a
∞
b
-lx
P(X > a)
-lx
dx = (-1) e
-lx
-lx
-lx
le
P(X > a+b | X > a) =
P(X > a+b, X > a)
le
le
a, b > 0
dx = (-1) e
dx = (-1) e
P(X > a+b)
P(X > a)
a+b
∞
a
-lx
∞
∞
b
=
P(X > a+b)
P(X > a)
= e-l(a+b)
= e-la
= e-lb
e-l(a+b)
= -la
= e-lb = P(X > b)
e
증명 끝
어떤 기계의 일부 부품이 고장 날 때까지 걸리는 시간은 평균 1,000시간인
지수분포에 따른다고 한다.
(1) 이 기계를 500시간 이상 아무런 문제없이 사용한 후, 그 후로 다시100시간
이상 사용할 확률을 구하여라.
(2) (1)의 조건에 대하여, 앞으로 x시간 이상 사용할 확률이 0.3이라면 x = ?
(1) 부품이 고장 날 때까지 걸리는 시간 X는 평균 m = 1000인 지수분포에
따르므로 X ~ Exp(1/1000)
X의 확률밀도함수 :
1
f(x) =
1000
e-x/1000 ,
-x/1000
= (-1)e
∞
1
100
1000

P(X ≥ 600 | X ≥ 500) = P(X ≥ 100) =
∞
100
x>0
e-x/1000 dx
= e-0.1 = 0.9048
(2) (1)의 조건 아래서, 이 기계를 고장 없이 사용한 전체 시간 : 500 + x
P(X ≥ 500 + x|X ≥ 500) = P(X ≥ x) = S(x) = e-x/1000 = 0.3
-
x
1000
= ln (0.3) ;
x = (-1000)ln (0.3) = 1203.97
☞ 포아송과정과의 관계
예
연간 지진이 발생하는 회수 : X ~ P(3)
T : 지금부터 다음 지진이 일어날 때까지 걸리는 시간
사건 [T > t ]의 의미 :
현재부터 t시간 이후에 지진이 발생함
[0, t]에서 지진이 발생하지 않음
▶ 사건 [T > t ]의 확률 :
P(T > t) = P[X(t) = 0] = e-3t
▶ T의 분포함수 :
F(t) = P(T ≤ t) = 1 - P(T > t) = 1 - e-3t , t > 0
▶ T의 밀도함수 :
f(t) = 1 - F(t) = 3e-3t , t > 0
(1) 비율 l를 가지고 포아송과정에 따라 어떤 사건이 발생한다면, 이웃하는 두
사건 사이의 대기시간 T는 모수 l인 지수분포를 이룬다.
(2) 비기억성 성질로 어느 한 사건이 발생한 후, 다음 사건이 발생할 때까지 걸
리는 대기시간 T는 모수 l인 지수분포에 따라 다시 시작하므로, 이웃하는
사건 사이의 대기시간들 Ti는 i.i.d. Exp(l)이다.
시스템의 응답시간 T는 평균 m=10인 지수분포
신호에 대한 응답이 끝나면 곧 바로 다음 신호를 접수
X(t) : 시간 t동안 이루어진 검색 신호 횟수
(1) 어떤 한 건의 검색 신호에 대한 응답시간이 6초 이상 걸릴 확률
(2) 검색 신호에 대한 응답을 위하여 5초 이상 기다려야 한다면, 그 후로 응답을
받기 위하여 적어도 8초 이상 시간을 소비해야 할 확률이
(3) X(t)의 확률질량함수
(4) 처음 신호가 들어온 이후로부터 5초 사이에 2건의 검색 신호가 있을 확률
(1) 시스템의 응답시간 T는 평균 m = 10인 지수분포에 따르므로 T ~ Exp(1/10)
T의 분포함수 : F(t) = 1 - e-t/10 , t > 0
구하고자 하는 확률 :
P(T ≥ 6) = 1 - P(T < 6) = 1 – F(6) = 1 - 1 - e-6/10 = e-0.6 = 0.5488
(2) P(T ≥ 13|T > 5) = P(T > 8) = 1 – F(8)
= 1 - 1 - e-8/10 = e-0.8 = 0.4493
(3) X(t) ~ P(t/10)이므로 X(t)의 확률질량함수 :
(t/10)x -t/10
f(x) =
e
, x = 0, 1, 2, …
x!
(4) t=5이므로 처음 5초 동안 검색 신호가 들어온 횟수 : X(t) ~ P(0.5)
구하고자 하는 확률 : (포아송 확률표로부터)
P(X = 2) = P(X ≤ 2) – P(X ≤ 1) = 0.986 – 0.910 = 0.076
3
감마분포 (gamma distribution)
감마분포의 확률밀도함수와 평균, 분산 그리고 카이제곱분
포에 대하여 알아본다.
일정한 비율로 발생하는 사고가 n건 발생할 때까지 걸리는 전체 시간에 관한 확률
분포
감마함수 :
∞
0
G(a) =
∞
0
ta-1 e-t dt ,
1
G(a)
a>0
ta-1 e-t dt = 1
t = x/b
∞
1
0 G(a)
x
b
a-1
-x/b
e
1
b
dx = 1
p.d.f. 조건을 만족
또는
∞
1
0 G(a) ba
xa-1 e-x/b dx = 1
☞ 감마함수의 성질
●
G(1) = 1
●
G(a+1) = aG(a),
●
G(n+1) = nG(n)= n!,
●
G(1/2) = p
☞ 1) 확률밀도함수
f(x) =
a>0
n 은 자연수
X ~ G(a, b)
1
a
G(a) b
xa-1 e-x/b, x > 0,
a, b > 0
a: 형상모수(shape
parameter)
b
: 척도모수(scale
parameter)
참고
f(x) =
X ~ G(1, b)
1
b
e-x/b , x > 0,
☞ 2) 평균
m = E(X) =
=
=
=
∞
0
x f(x)dx =
1
G(a) ba
G(a+1) b
G(a)
G(a+1) b
G(a)
∞
0
∞
0
=
∞
0
b>0
X ~ Exp(1/b)
x
a-1 -x/b
x
e dx
a
G(a) b
x(a+1)-1 e-x/b dx
1
G(a+1) ba+1
aG(a) b
G(a)
x(a+1)-1 e-x/b dx
= ab
☞ 3) 분산
2
E(X ) =
=
=
=
∞
0 x
2
f(x)dx =
1
G(a) ba
∞
0
G(a+2)b2
G(a+2)b2
0
G(a)
=
0
G(a) ba
xa-1 e-x/b dx
x(a+2)-1 e-x/b dx
∞
G(a)
x2
∞
1
x(a+2)-1 e-x/b dx
G(a+2) ba+2
a(a+1)G(a) b2
G(a)
s2 = Var(X) = E(X2) – E(X)2
= a(a+1)b2 - (ab )2 = ab2
= a(a+1) b2
감마분포와 지수분포 그리고 포아송과정
(1) X1, X2, …, Xn ~ i.i.d. Exp(l)
S =X1 + X2 + …+ Xn ~ G(n, 1/l)
(2) S : 비율 l인 포아송과정에 따라 n번째 사건이 발생할 때까지 걸리는 시간
비기억성 성질에 의하여
S ~ G(n, 1/l)
시스템의 응답시간 T는 평균 m=2인 지수분포
신호에 대한 응답이 끝나면 곧 바로 다음 신호를 접수
X : 오전 9:00부터 2건의 신호가 들어올 때까지 걸리는 시간
(1) X의 확률밀도함수
(2) 2건의 신호가 들어올 때까지 걸리는 평균 시간
(3) 2건의 검색요구가 3초 안에 이루어질 확률
(1) 시스템의 응답시간 T는 평균 m=2인 지수분포에 따르므로 T ~ Exp(1/2)
T1 : 오전 9:00부터 처음 신호가 들어올 때까지 걸리는 시간
T2 : 처음 신호 이후에 두 번째 신호가 들어올 때까지 걸리는 시간
T1 ~ Exp(1/2) ,
X = T1 + T2 ~ G(2, 2)
f(x) =
T2 ~ Exp(1/2)
1
G(2) 2
2
x2-1 e-x/2
x>0
1
4
=
xe-x/2
,
(2)
m = a b = 2•2 = 4
(3) P(X < 3) =
3
0
1
4
xe-x/2 dx = -
x + 2 -x/2
e
2
3
=1-
0
5 -3/2
e = 0.4421
2
카이제곱(c2)분포(chi-squared distribution)
모수 a = r/2, b = 2인 감마분포를 자유도(degree of freedom; d.f.) r 인
카이제곱분포라 하고, X ~ c2(r)로 나타낸다.
☞
f(x) =
1) 확률밀도함수
1
r/2
G(r/2) 2
X ~ c2(r)
x(r/2)-1 e-x/2 , x > 0,
☞ 2) 평균
r
m = ab = 2 • 2 = r
☞ 3) 분산
r
s2 = ab2 = 2 • 4 = 2r
r>0
☞ 카이제곱분포의 백분위수
카이제곱분포의 100(1-a)% 백분위수 ca2(r)
2
P(X ≤ x0 ) = 1 – a인 x0을 100(1-a)% 백분위수라 하고, ca(r)로
나타낸다.
2
2
X ~ ca2(7) 에 대하여 P(X > c0.05
) = 0.05를 만족하는 c0.05
d.f. = 7인 행과 a = 0.05인 열이 만나는 위치의 수 14.07
2
c0.05
= 14.07
X ~ c2(5)에 대하여
P(X < x0) = 0.95
x0 = ?
P(X < x0) = 0.95이므로 P(X > x0) = 0.05 이고, 따라서 카이제곱표에서
2
d.f. = 5와 a = 0.05인 백분위수 x0 = c0.05
(5) = 11.07
☞ 카이제곱분포의 성질
X ~ c2(r1), Y ~ c2(r2)이고 독립이면, X + Y ~ c2(r1 + r2)이다.
X ~ c2(2), Y ~ c2(4) 이고 독립일 때,
P(X + Y > x0) = 0.01
x0 = ?
X ~ c2(2), Y ~ c2(4) 이고 독립이므로 X + Y ~ c2(6)이다. 그러므로
2
x0 = c0.01
(6) = 16.81
4
웨이블분포 (Weibull distribution)
웨이블분포의 확률밀도함수와 평균, 분산에 대하여 알아본다.
의료사고 또는 폭풍 등으로 인한 재해에 대비하기 위한 재해보험에 대한
보험 급부금에 적합한 확률모형
☞ 1) 확률밀도함수 X ~ Wei(a, b)
f(x) = aba
a
xa-1e-(bx) , x > 0 , a, b> 0
☞ 2) 분포함수
F(x) =
x
0
a
aba ua-1e-(bu)
-(bu)
= (-1) e
a x
0
du
-(bx)
=1-e
a
,
x>0
☞ 3) 생존함수
a
S(x) = 1 – F(x) = e-(bx) ,
x>0
☞ 4) 실패율함수
h(x) =
f(x)
S(x)
=
a
a-1 -(bx)
ab
x e
-(bx)
e
a
a
= aba
xa-1 ,
x>0
X ~ Wei(2, 0.1)에 대하여
(1) X의 분포함수 = ? P(X ≤ 4) = ?
(2) X의 생존함수 = ? P(X ≥ 10) = ?
(3) X의 실패율함수 = ?
(4) X의 중앙값 Me = ?
(1)
a = 2, b = 0.1이므로 F(x) = 1 – exp[-(x/10)2 ] ,
P(X ≤ 4) = F(4) = 1 – exp[-(4/10)2 ]= 0.1479
x>0
(2) S(x) = 1 - F(x) = exp[-(x/10)2 ],
x>0
P(X ≥ 10) = S(10) = exp[-(10/10)2 ] = 0.3679
(3) h(x) = abaxa-1
= 2•(0.1)2 x2-1 = (0.02)x ,
a= 2,
b = 0.1
x>0
(4) F(x0) = 1 – exp[-(x0 /10)2 ] = 0.5 ; exp[-(x0 /10)2 ] = 0.5 ;
-(x0 /10)2 = ln(0.5) = -ln 2 ;
x0 /10 = ln 2 ;
x0 = Me = 10 ln 2 = 8.3255
☞ 2) 평균
m = E(X) =
∞
∞
a
a a -(bx)
0x f(x)dx = 0ab x e
dx
u = (bx)a
m=
1
∞
0
b
u [(1/a) +1]-1 e-u du =
1
b
G 1+
1
a
☞ 3) 분산
동일한 방법에 의하여
2
E(X ) =
∞
0
2
x f(x)dx =
∞
a
a a+1 -(bx)
ab
 x e dx =
0
s2 = Var(X) = E(X2) – E(X)2
=
1
2
b
G 1+
2
a
-G 1 +
1 2
a
1
b2
G 1+
2
a
배우자가 재혼할 때까지 걸리는 시간 X ~ Wei(a, b)
X의 실패율 함수 : h(x) = cx, x > 0
(1) P(X > 5) = e-1/4 = 0.7788을 만족하는 상수 c = ?
(2) X의 밀도함수 = ? 배우자가 6개월 이내에 재혼할 확률 = ?
(3) X의 평균 = ? X의 분산 = ?
(1) 생존함수는 h(x) = aba xa-1 = cx , x > 0이므로
a = 2, aba = c
P(X > 5) =
∞
5
2
2b2 xe-(bx) dx = - e-(bx)
2
∞
5
2
= e-25b = e-1/4
25 b2 = 1/4
b = 0.1, c = aba = 2•(0.1)2 = 0.02
(2) X의 밀도함수 :
a = 2 , b = 0.1이므로
f(x) = (0.02)x exp -
x2
, x>0
100
6개월은 0.5년이므로
0.5
0 (0.02)x exp
P(X < 0.5) =
= (-1) exp -
x2
100
-
x2
dx
100
0.5
= 1- 0.9975 = 0.0025
0
(3) X의 평균 = ? X의 분산 = ?
m=
1
0.1
1
G 1+
1
2
= (10)•
p
s2 = 100 G(2) - 4
1
2
•
G
1
2
= 5 p = 8.8623
= 25(4 – p) = 21.4602
5
베타분포 (beta distribution)
베타분포의 확률밀도함수와 평균, 분산에 대하여 알아본다.
제조과정에서 불량품의 비율 또는 서비스에 만족하는 고객의 비율, 전체 보험증권
의 한계 금액에 대한 손실비율 등과 같이 0%와 100% 사이에서 값을 가지는 비율에
대한 확률모형
베타함수 :
Beta(a, b) =
1
1
0 Beta(a, b)
1
0
xa-1 (1 - x)b-1 dx ,
a, b > 0
xa-1 (1 - x)b-1 dx = 1
p.d.f. 조건을 만족
확률밀도함수 :
f(x) =
1
Beta(a, b)
xa-1 (1 - x)b-1 , 0 < x < 1
☞ 베타함수와 감마함수
Beta(a, b) =
G(a)G(b)
G(a + b)
☞ 1) 확률밀도함수 X ~ Beta(a, b)
f(x) =
G(a + b)
G(a)G(b)
xa-1 (1 – x)b-1 , 0 < x < 1, a, b > 0
☞ 베타분포의 특성
(1) 동일한 모수 a에 대하여 b가 커지면 왼쪽으로 치우치고, 동일한 모수 b에
대하여 a가 커지면 오른쪽으로 치우친다.
(2) a = b이면 x = 0.5를 중심으로 대칭이고, a와 b가 커질수록 종모양에 가까
워지며 x = 0.5에 집중한다.
(3) a = b = 1이면, 즉
X ∼ Beta (1, 1) ⇒ X ∼ U(0, 1)
(4) X ∼ Beta (a, b) ⇒ 1-X ∼ Beta (b, a)
0.5
☞ 2) 평균
m = E(X) =
1
1
G(a + b)
0 x f(x)dx = 0 G(a)G(b) x(a+1)-1 (1 – x)b-1 dx
G(a + b) G(a + 1)G(b)
=
G(a)G(b) G(a + b +1)
1
0
G(a + b +1) (a+1)-1
x
(1 – x)b-1 dx
G(a + 1)G(b)
=
G(a + b) G(a + 1)G(b)
G(a)G(b) G(a + b +1)
=
a
G(a + b) aG(a)G(b)
=
a+b
G(a)G(b) (a + b)G(a + b )
Beta(a + 1, b)인 p.d.f.
☞ 3) 분산
동일한 방법에 의하여
E(X2) =
ab
(a+b+1) (a+b)
s2 = Var(X) = E(X2) – E(X)2
=
ab
(a+b+1) (a+b)2
전화 문의를 한 고객의 비율 : X ~ Beta(3, 4)에 대하여
(1) X의 밀도함수 = ?
(2) X의 평균 = ? X의 분산 = ?
(3) 한 달 동안에 고객의 70%이상이 전화로 문의했을 확률
(1) a = 3, b = 4이므로
X의 밀도함수 :
f(x) =
G(7)
x2 (1 – x)3 = 60 x2 (1 – x)3 , 0 < x < 1
G(3)G(4)
(2) X의 평균 :
m=
(3)
3
7
X의 분산 :
s2 =
= 0.4286
P(X ≥ 0.7) =
1
3•4
72•8
= 0.4286
0.760 x2 (1 – x)3 dx = 0.0705
6
정규분포 (normal distribution)
정규분포, 표준정규분포의 확률밀도함수와 평균, 분산을 비
롯한 특성과 중심극한정리, 이항분포의 정규근사 등에 대하
여 알아본다.
☞ 1) 확률밀도함수
∞
0
부록 A-4.2로부터
e-z
2/2
dz =
p
2
피적분함수가 우함수이므로
∞
-∞
e-z
∞
-∞
2/2
1
2p
dz =
e-z
2/2
-∞ < m < ∞, s > 0
∞
-∞
1
2p s
2p
dz = 1
z=
exp -
x-m
s
( x - m )2
2
2s
p.d.f. 조건을 만족
dx = 1
확률밀도함수 : X ~ N(m, s2)
f(x) =
( x - m )2
,
exp 2
2p s
2s
1
-∞ < x< ∞, -∞ < m< ∞, s > 0
모수 m과 s2 인 정규분포
☞ 2) 평균 :
m=m
☞ 3) 분산 :
s2 = s2
※ 평균 m이고, 분산 s2 임을 보이는
것은 생략한다.
m = 0과 s2 = 1인 경우
확률밀도함수 :
Z ~ N(0, 1)
f(z) =
1
2p
표준정규분포
2/2
e –z
, -∞ < z< ∞
☞ 정규확률함수의 성질
(1) f(x)는 x=m에 관하여 좌우대칭이고, 따라서 X의 중앙값은 Me = m이다.
(2) f(x)는 x=m에서 최대값을 가지고, 따라서 X의 최빈값은 Mo = m이다.
(3) x= m-s, m+s에서 f(x)는 변곡점을 가지며, x= m-3s, m+3s에서 x-축에
거의 접하는 모양을 가지고 x→ -∞, x→ +∞이면 f(x)→ 0이다.
☞ 표준정규확률함수의 성질
(1) f(z)는 z=0에 관하여 좌우대칭이고, 따라서 Z의 중앙값은 Me = 0이다.
(2) f(z)는 z=0에서 최대값을 가지고, 따라서 Z의 최빈값은 Mo = 0이다.
(3) z=-1, 1에서 f(z)는 변곡점을 가지며, z=-3, 3에서 z-축에 거의 접하는
모양을 가지고 z→ -∞, z→ +∞이면 f(z)→ 0이다.
Note
모수 m는 분포의 중심을 나타내며, s는 흩어진 정도를 나타낸다.
m1 ≠ m2
m1= m2
s1 = s2
s1≠ s2
☞ 표준정규분포의 성질
(1) P(Z ≤ 0 ) = P(Z ≥ 0 ) = 0.5
(2) P(Z ≤ -z0 ) = P(Z ≥ z0 ) = 1- P(Z < z0), z0 > 0
(3) P(Z ≤ z0 ) = 0.5 + P(0 < Z < z0 ),
P(Z ≥ z0) = 0.5 - P(0 < Z < z0), z0 > 0
(4) P(|Z|≤ z0 ) = P(-z0 < Z < z0 ) = 2P(0 < Z < z0), z0 > 0
P(Z < z0), z0 > 0
(5) P(|Z|≤ 1.645 ) = 0.9, P(|Z|≤ 1.96 ) = 0.95, P(|Z|≤ 2.58 ) = 0.99
(6) P(|Z|≤ 1 ) = 0.683, P(|Z|≤ 2 ) = 0.954, P(|Z|≤ 3 ) = 0.998
0.05
0.025
0.005
☞ 표준정규분포의 분포함수
F(z) =
z
-∞ f(u)du
(7) 1 - F(z0 ) = P(Z ≥ z0 ) = P(Z ≤ -z0 ) = F(-z0 )
, z0 > 0
(8) X ~ N(m, s2)
Z=
X-m
~ N(0, 1)
s
(9) P(X < x0) = P(Z < z0) = F(z0) , z0 =
x0 - m
s
(10) P(a < X < b) = F
( bs- m ) - F(as- m )
; P(a < X < b) = P
=P
( as- m < Xs- m < bs- m )
(as- m
= F
<Z<
b-m
s
)
(bs- m ) - F(as- m )
(11) P(m + as < X < m + bs) = P(a < Z < b) = F(b) – F(a)
(12) P(m - s < X < m + s) = P(-1 < Z < 1) = 0.683
P(m - 2s < X < m + 2s) = P(-2 < Z < 2) = 0.954
P(m - 3s < X < m + 3s) = P(-3 < Z < 3) = 0.998
☞ 표준정규분포의 백분위수
표준정규분포의 100(1-a)% 백분위수 : za
P(Z ≤ z0 ) = 1 – a인 z0을 100(1-a)% 백분위수라 하고, za로 나타낸다.
☞ 표준정규확률표 사용방법
P(Z ≤ 1.36) = ?
Z < 1.36의 소숫점 이하 첫째 자리인 1.3을 z열에서 선택하고, 소숫점 이하
둘째 자리인 .06을 z행에서 선택하여 만나는 값 0.9131을 선택한다.
예
X ~ N(3, 4)
(
)
(1) P(X ≤ 4.5) = F 4.5 - 3 = F(0.75) = 0.7734
2
(
) (1.52 - 3 )
(2) P(1.5 ≤ X ≤ 5.5) = F 5.5 - 3 - F
2
= F(1.25) - F(-0.75)
F(-0.75) = 1 - F(0.75) = 1 – 0.7734 = 0.2266
P(1.5 ≤ X ≤ 5.5) = F(1.25) - F(-0.75)
= 0.8944 – 0.2266 = 0.6678
표준정규확률표를 이용하여
(1) P(0 < Z < 1.54)
(2) P(-1.10 < Z < 1.10)
(3) P(Z < -1.78)
(4) P(Z > -1.23)
(1) P(0 < Z < 1.54) = P(Z < 1.54) – 0.5 = 0.9382 – 0.5 = 0.4382
(2) P(-1.10 < Z < 1.10) = 2P(0 < Z < 1.10) = 2[P(Z < 1.10) – 0.5)]
= 2(0.8643 - 0.5) = 0.7286
(3) P(Z < -1.78) = P(Z > 1.78) = 1 - P(Z < 1.78) = 1 – 0.9625 = 0.0375
(4) P(Z > -1.23) = P(Z < 1.23) = 0.8907
X ~ N(5, 4)에 대하여
(1) P(X < 6.4)
(2) P(X < x0) = 0.9750인 x0 = ?
(3) P(3 < X < x0) = 0.756인 x0 =?
(1) m = 5, s = 2이므로 X를 표준화 하면
(
P(X ≤ 6.4) = P Z <
6.4 - 5
= F(0.70) = 0.7580
2
)
(2) X를 표준화 하면
(
P(X < x0) = P Z <
x0 - 5
2
)
표준정규확률표로부터
P(Z < 1.96) = 0.9750
x0 - 5
= 1.96
2
;
x0 = 5 + 2•(1.96) = 8.92
(3)
x0 - 5
<
2
(
3-5
X-5
P(3 < X < x0) = P
<
2
2
x0 - 5
= P -1 < Z <
2
(
(
=P Z<
x0 - 5
2
)
)
) - P(Z < -1)
P(Z < -1) = P(Z > 1) = 1 – P( Z < 1) = 1 – 0.8413 = 0.1587
한편,
x0 - 5
P(3 < X < x0) = P Z <
2
(
(
P Z<
x0 - 5
2
) - 0.1587 = 0.756
) = 0.756 + 0.1587 = 0.9147
표준정규확률표로부터 P(Z < z0 ) = 0.9147에 대하여 약 z0 = 1.37
x0 - 5
= 1.37
2
;
x0 = 5 + 2•(1.37) = 7.74
성인의 혈압은 평균 128.4, 표준편차 19.6인 정규분포
(1) 임의로 선정된 사람의 혈압이 100 이하일 확률
(2) 임의로 선정된 사람의 혈압이 134 이상일 확률
(3) 임의로 선정된 사람의 혈압이 110에서 130 사이일 확률
(1) X ~ N(128.4, 19.62)이므로
X – 128.4
P(X ≤ 100) = P
≤
19.6
(
100 – 128.4
19.6
= P(Z ≤ -1.45) = 1 – P(Z ≤ 1.45)
= 1 – 0.9265 = 0.0735
(2) P(X ≥ 134) = P
X – 128.4
≥
19.6
(
134 – 128.4
19.6
)
= P(Z ≥ 0.29) = 1 – P(Z < 0.29)
= 1 – 0.6141 = 0.3859
)
(3) X ~ N(128.4, 19.62)이므로
P(110 ≤ X ≤ 130) = P
– 128.4
≤
( 11019.6
X – 128.4
≤
19.6
130 – 128.4
19.6
)
= P(-0.94 ≤ Z ≤ 0.08) = P(Z ≤ 0.08) – P(Z < -0.94)
= P(Z ≤ 0.08) – [1-P(Z < 0.94)]
= 0.5319 – (1 - 0.8264) = 0.3583
☞ 정규분포의 성질
X ~ N(m1, s12) , Y ~ N(m2, s22) : 독립이면
(1)
aX + b ~ N(am1 + b, a2 s12 )
(2)
X + Y ~ N(m1 + m2 , s12 + s22 )
(3)
X - Y ~ N(m1 - m2 , s21 + s22 )
(4)
(5)
(aX + b) - (am1 + b)
|a|s1
(X +- Y) –( m1 +- m2 )
s12 + s22
~ N(0, 1)
~ N(0, 1)
전자공학개론 교재의 무게 : X ~N(1.59, 0.582),
일반물리학 교재의 무게 : Y ~ N(2.18, 0.812)
(1) 구입한 전자공학 개론 교재의 무게가 2.35(kg) 이하일 확률
(2) 구입한 두 교재의 전체 무게가 5.04(kg) 이상일 확률
(3) 일반물리학 교재와 전자공학개론 교재의 무게 차이가 0.35(kg) 이하일 확률
(1) X ~ N(1.59, 0.582)이므로
X – 1.59
P(X ≤ 2.35) = P
≤
0.58
(
2.35 – 1.59
0.58
= P(Z ≤ 1.31) = 0.9049
(2) S = X + Y ~ N(3.77, 0.99622)이므로
5.04 – 3.77
S – 3.77
P(S ≥ 5.04) = P
≥
0.9962
0.9962
(
)
= P(Z ≥ 1.27) = 1 – P(Z < 1.27)
= 1 – 0.8980 = 0.102
)
(3) D = Y - X ~ N(0.59, 0.99622)이므로
0.35 – 0.59
D – 0.59
P(D ≤ 0.35) = P
≤
0.9962
0.9962
(
)
= P(Z ≤ -0.24) = 1 – P(Z < 0.24)
= 1 – 0.5948 = 0.4052
☞ 표본평균(sample mean)
X1 , X2 , …, Xn : 독립 확률변수
Xi ~ N(mi , si2 ), i = 1, 2, …, n
Y = a1X1 + a2X2 + … + anXn ~ N(m , s2 )
, m = a1 m1 + a2 m2 + … + an mn
, s2 = a1 s12 + a2 s22 + … + an sn2
ai =
Y=
1
, i = 1, 2, …, n
n
1
(X1 + X2 + … + Xn ) ~ N(m , s2 )
n
1
, m = n ( m1 + m2 + … + mn )
, s2 = 1 2 (s12 + s22 + … + sn2 )
n
Xi ~ i.i.d. N(m , s2 ), i = 1, 2, …, n
Y=
2
1
(X1 + X2 + … + Xn ) ~ N m , s
n
n
(
)
표본평균(sample mean) :
평균 m, 분산 s2인 i.i.d. 확률변수들 Xi , i = 1, 2, …, n 에 대하여
X=
1
(X1 + X2 + … + Xn )을 표본평균이라 한다.
n
Xi ~ i.i.d. N(m , s2), i = 1, 2, …, n
X=
2
1
(X1 + X2 + … + Xn ) ~ N m , s
n
n
(
)
정리 2 중심극한정리(central limit theorm)
평균 m, 분산 s2인 임의의 i.i.d. 확률변수들 Xi , i = 1, 2, …, n 에 대하여
n이 충분히 크다면, 표본평균 X는 평균 m, 분산 s2/n인 정규분포에 가까워진다.
즉, 다음이 성립한다.
X=
1
s2
(X1 + X2 + … + Xn ) ~
N
m
,
~
n
n
(
)
중심극한정리로부터
평균 m, 분산 s2인 임의의 i.i.d. 확률변수들 Xi , i = 1, 2, …, n 에 대하여
n이 충분히 크다면,
2
X1 + X2 + … + Xn ~
~ N( nm , ns )
예
X1 , X2 ~ i.i.d. f(x)= 1/6, x=1, 2, 3, 4, 5, 6
X=
1
(X1 + X2 )의 확률분포 ?
2
X1 , X2 의 결합분포
X=
1
(X1 + X2 + X3 )의 확률분포 ?
3
X=
1
(X1 + X2 + X3 + X4 )의 확률분포 ?
4
각 증권 당 연간 보험금 지급액이 평균 19,400(만원), 표준편차 5,000(만원)
보험회사는 올해 1,000개의 자동차보험증권을 판매
(1) 전체 보험 지급액에 대한 근사확률분포
(2) 전체 보험 지급액이 19,800,000(만원)을 초과할 근사확률
(3) 가입한 증권에 대한 평균 보험 지급액에 대한 근사확률분포
(4) 평균이 19,600(만원)을 초과할 확률
(1) Xi , i = 1, 2, …, 1000 : 각 증권 당 연간 지급액
각 증권 당 연간 보험금 지급액이 평균 19,400이고 표준편차 5,000이므로
중심극한정리에 의하여
1000
X = i=1
S Xi ~~ N[(19.4)•106, (2.5)•1010 ]
6
(2) P[X ≥ (19.8)•10 ] = P
(
X – (19.4)•106
(2.5)•10
10
≥
(19.8)•106 – (19.4)•106
(2.5)•1010
)
.
=. P(Z ≥ 2.53) = 1 – F(2.53) = 1 – 0.9943 = 0.0057
(3) 각 증권 당 연간 보험금 지급액이 평균 19,400이고 표준편차 5,000이므로
표본평균은 평균 19,400이고 분산 (5000)2/1000 = 25000 인 정규분포에 근사함.
X ~
~ P(19400, 25000)
(4)
P(X ≥ 19600) = P
( 100
X – 19400
(
.
=. P Z ≥
2.5
≥
19600 – 19400
100 2.5
)
)
19600 – 19400
= P(Z ≥ 1.266)
2.5
100
= 1 - P(Z < 1.266) = 1- 0.89728 = 0.10272
P(Z≤ 1.26) = 0.8962, P(Z ≤ 1.27) = 0.8980
편차 : P(Z ≤ 1.27) - P(Z≤ 1.26) = 0.0018
편차를 10등분하여 6번째 값 0.00108을 이용
P(Z < 1.266) = 0.8962 + 0.00108
= 0.89728
☞ 이항분포의 정규근사(normal approximation)
시행횟수 n이 커질수록 이항분포는 평균 m = np, 분산 s2 = np(1-p)인 정규분
포에 가까워지며, 일반적으로 np ≥ 5, n(1-p) ≥ 5일 때 이항분포 B(n, p)와 정규
분포 N(np, np(1-p))가 거의 일치한다.
X~
~ N(np, np(1-p))
또는
X - np
npq
~
~ N(0, 1)
X ~ B(15, 0.4)에 대하여
(1) 이항확률표에 의한 P(7 ≤ X ≤ 9) = ?
(2) 정규근사에 의한 P(7 ≤ X ≤ 9) = ?
(3) 정규근사에 의한 P(6.5 ≤ X ≤ 9.5) = ?
(1) P(7 ≤ X ≤ 9) = P(X ≤ 9) – P(X ≤ 6) = 0.9662 -0.6098 = 0.3564
X~
~ N(6, 3.6)
(2) np = 6, npq = 3.6
P(7 ≤ X ≤ 9) = P
(
7-6
≤
3.6
X-6
≤
3.6
9-6
3.6
)
.
=. P(0.527 ≤ Z ≤ 1.581) = P(Z ≤ 1.581) - P(Z ≤ 0.527)
= 0.9429 – 0.7019 = 0.241
(3)
P(6.5 ≤ X ≤ 9.5) = P
(
6.5 - 6
≤
3.6
X-6
≤
3.6
9.5 - 6
3.6
)
.
=. P(0.263 ≤ Z ≤ 1.845) = P(Z ≤ 1.845) - P(Z ≤ 0.263)
= 0.9675 – 0.6040 = 0.3635
결 론
X ~ B(n, p), Z ~ N(0, 1)에 대하여 np ≥ 5, n(1-p) ≥ 5이면
(
b -np
(
b + 0.5 -np
F
.
P(a≤ X ≤ b) = .
F
(
npq )
npq
-F
a -np
npq )
) (
-F
; 정규근사
a - 0.5 -np
npq
) ; 연속성 수정 정규근사
X ~ B(30, 0.2)에 대하여
(1) 확률질량함수를 이용한 P(X = 4) = ?
(2) 연속성을 수정한 정규근사에 의한 P(X = 4) = ?
(1) X 의 확률질량함수 :
x
30-x
f(x) = ( 30
(0.2)
(0.8)
, x = 0, 1, 2, …, 30
)
x
4
26
P(X = 4) = f(4) = ( 30
(0.2)
(0.8)
= 0.1325
)
x
X~
~ N(6, 4.8)
(2) np = 6, npq = 4.8
P(X = 4) = P(3.5 ≤ X ≤ 4.5)
X-6
3.5 - 6
=P
≤
≤
4.8
4.8
.
=. F(-0.68) – F(-1.14)
(
4.5 - 6
4.8
= 0.8729 – 0.7517 = 0.1212
)
☞ 포아송분포의 정규근사
포아송분포의 평균 m가 충분히 커지면, 정규분포 N(m, m)에 가까워진다.
X~
~ N(m, m) 또는
X–m
m
~
~ N(0, 1)
X ~ P(m), Z ~ N(0, 1)에 대하여 m가 충분히 커지면
(
F
.
P(a≤ X ≤ b) = .
(
b-m
m
) (
-F
a-m
m
) - F(
b + 0.5 - m
F
m
)
a - 0.5 - m
m
; 정규근사
)
; 연속성 수정 정규근사
X ~ P(20)과 X ~ N(20, 20)의 비교
9,500명의 각 보험 종류별로 가입자 수와 가입 기간에 따른 보험금 청구 횟수 표
1년 동안 이들 보험에 가입한 2,000명 중에서 보험금을 청구한 가입자가 228명
이하일 근사확률 ? 단, 보험의 종류는 독립적이고, 보험금 청구 횟수 ~ 포아송 분포
보험종류
가입자 수
가입기간
보험금 청구횟수
화재보험
1,520
1
15
건강보험
2,355
4
42
자동차보험
4,325
1
345
여행자보험
1,300
0.5
12
각 보험 종류별로 보험금 청구 횟수의 연간 비율 : 0.0099, 0.0045, 0.080, 0185
전체 9,500개의 보험증권 중에 대한 보험금 청구비율 : 0.1129
가입자 2,000명에 대한 기대 청구 횟수 : 2000•(0.1129) = 226
보험금 청구 횟수 : X ~ P(226)
P(X ≤ 228) = F
X~
~ N(226, 226)
0.5 - 226
(228 +226
) = F(0.166) = 0.5659
7
정규분포에 관련된 연속분포들
로그정규분포, t –분포, F-분포, 이변량정규분포의 확률밀
도함수와 평균, 분산을 비롯한 특성에 대하여 알아본다.
로그정규분포
투자에 대한 환원 또는 보험 청구금액과 같이 대칭성을 갖지도 않으며 또한
양의 왜도를 가지는 확률모형에 사용되는 확률분포
Y ~ N(m, s2)
Y의 밀도함수 : fY(y) =
1
exp s
2p
( y - m )2
2
2s
, -∞ < y< ∞
X = eY
X의 밀도함수 : fX (x)=
1
2p sx
exp -
( lnx - m )2
2
2s
, -∞ < x< ∞
☞ 1) 확률밀도함수
f(x) =
1
2p sx
exp -
X ~ LogN (m, s2)
( lnx - m )2
2
2s
, -∞ < x< ∞, -∞ < m< ∞, s > 0
모수에 따른 로그정규분포함수의 개형
☞ 2) 분포함수
F(x) =
☞ 3) 평균
☞
4) 분산
x
1
0
exp 2p su
(ln u – m)2
s2
mX = exp( m +
2
2s2
du = F
(
ln x – m
s
),x>0
)
2
sX2 = (es - 1) exp(2m + s2)
☞ 5) 100(1-a)% 백분위수
lnxa - m
F(xa) = F
= 1- a ;
s
(
)
lnxa - m
= za ;
s
xa = exp(m + s za)
지급 요구된 보험금 : X ~ LogN(6.95, 0.64)
(1) 보험가입자에 의하여 요구된 보험금의 평균과 표준편차
(2) 신청 금액이 1,750(만원) 이상일 확률
s2
(1) mX = exp( m + 2
) m=6.95
= 1436.55 (만원)
s2 = 0.64
2
sX2 = (es - 1) exp(2m + s2)
m=6.95
s2 = 0.64
= (0.89648)•(2063677.204) = 1850045.34 (만원)
(2)
P(X ≥ 1750) = 1 – F(1750) = 1 - F
(ln 1750) – 6.95
0.8
(
= 1- F(0.65) = 1 – 0.7422 = 0.2578
)
카이제곱분포
2
☞ 1) 평균
mV = n
☞
sV2 = 2n
2) 분산
2
2
V = Z1 + Z2 + … + Zn ~ c2(n)
Zi ~ N(0, 1), i = 1, 2, …, n : 독립
☞ 3) 카이제곱분포의 성질
) ~ c (n), 즉 Z ~ N(0, 1)이면 Z ~ c (1)
X -m 2
(2) X ~ N(m , s ), i = 1, 2, …, n : 독립이면 S (
) ~ c (n)
s
2
(1) X ~ N(m, s )이면
i
i
2
i
(
X-m
s
2
2
2
n
i=1
i
i
2
2
i
(3) Vi ~ c2(ri ), i = 1, 2, …, n : 독립이면, V1 +V2 +…+Vn ~ c2(r1 +…+ rn )
t – 분포(t-distribution)
Z ~ N(0, 1), V ~ c2(r) : 독립
T=
Z
V/r
의 확률분포를 자유도 r인
t-분포라 하고, T ~ t(r)로
나타낸다.
☞ 1) 확률밀도함수
f(t) =
G((r + 1)/2)
t2
1+
r
r G(1/2) G(r/2)
☞ 2) 평균
m=0
☞
s2 =
3) 분산
r
r-2
(
, r>2
)
-(r + 1)/2
,
t>0
☞ t – 분포와 표준정규분포
(1) 표준정규분포와 동일하게 종 모양을 이룬다.
(2) t = 0에 대하여 좌우 대칭이나, 꼬리부분이 표준정규분포보다 두텁다.
(3) 자유도 r 이 증가하면 표준정규분포에 근사한다.
☞ 4) 100(1-a)% 백분위수 : ta(r)
P(T > t0) = 1- a ;
t0 = ta(r)
☞ 5) t – 분포의 성질
(1) P(T > ta(r)) = P(T < -ta(r)) = a
(2) P(|T| < ta/2(r)) = 1 - a
P(T > t0.025(4)) = 0.025인 임계점 t0.025(4)를 구하는 방법 :
d.f. = 4와 a = .025가 만나는 위치의 수 2.776을 선택한다. 즉
t0.025(4) = 2.776, P(T > 2.776) = 0.025
T ~ t(3)에 대하여
(1) P(T > t0.025) = 0.025
t0.025 = ?
(2) P(|T| < t0) = 0.99
t0 = ?
(1) d.f. = 3이고 a = 0.025이므로 t0.025 = 3.182
(2) P(|T| < t0) = P(-t0 < T < t0) = 0.99이므로 P(|T| ≥ t0) = 0.01
P(T ≤ -t0) = P(T ≥ t0) = 0.005
t0 = t0.005(3) = 5.841
F – 분포(F-distribution)
U ~ c2(m) , V ~ c2(n) : 독립
F=
U/m
의 확률분포를 분자•분모의
V/n
자유도 (m, n)인 F-분포라 하
고, F ~ F(m, n)으로 나타낸다.
☞ 1) 확률밀도함수
f(x) =
☞ 2) 평균
☞
3) 분산
G((m + n)/2)
G(m/2) G(n/2)
n
m= n-2
s2 =
(
m
n
m/2
)
x
(m/2) - 1
(
m
x
1+
n
, n≥3
2n2(m + n - 2)
2
m(n - 2) (n - 4)
, n≥5
-(m + n) /2
)
, x>0
☞ F – 분포의 성질
.
.
2
(1) 분모의 자유도가 커질수록 m =
. 1, s =. 2/m
(2) 일반적으로 왼쪽으로 치우친 모양을 나타낸다.
(3) 자유도 m, n 이 증가하면 분포의 중심이 m = 1을 중심으로 대칭인
정규분포 곡선에 근사한다.
☞ 4) 100(1-a)% 백분위수
P(F > f0) = 1- a ;
fa(m, n)
f0 = fa(m, n))
☞ 5) F – 분포의 성질
(1) P(F > fa(m, n)) = a
(2) P(f1-a/2(m, n)) < F < fa/2(m, n)) = 1 – a
(3)
F ~ F(m, n)이면 1/F ~ F(n, m)
f1-a(m, n) = 1/fa(n, m)
F ~ F(5, 4)에서 P(F > f0.05(5, 4)) = 0.05인 임계점 f0.05(5, 4)를 구하는 방법 :
분모의 자유도 4의 a = 0.05인 행과 분자의 자유도 5인 열이 만나는
위치의 수 6.26을 선택한다. 즉,
f0.05(5, 4) = 6.26,
P(F > 6.26) = 0.05
F ~ F(4, 5)에 대하여
(1) P(F > f0.025) = 0.025인 f0.025 = ?
(2) f0.95(4, 5) = ?
(1) F-분포표로부터 f0.025 = 7.39
(2) f0.95(4, 5) =
1
f0.05(5, 4)
=
1
6.26
= 0.1597
이변량정규분포(bivariate normal distribution)
상수 sX > 0, sY > 0, -∞ < mX , mY < ∞, -1 < r < 1에 대하여
1
Q=
1 – r2
☞
[(
x - mX
sX
2
)
x - mX
-2r
sX
1) 결합확률밀도함수
f(x, y) =
1
2p sX sY
(
)(
y - mY
y - mY
+
sY
sY
) (
2
)]
(X, Y ) ~ N(mX, mY, sX2 , sY2, r)
2
1-r
e-Q/2 ,
-∞ < x, y < ∞
여기서, r = Corr(X, Y )
X와 Y가 독립인 경우 :
(x – mX )2 (y – mY )2
1
f(x, y) =
exp 2
2p sX sY
2sX
2sY2
[
]
mX =0, mY = 0, sX =1, sY =1, r =0
,
-∞ < x, y < ∞
☞ 이변량정규분포의 성질
(1) r > 0이면, X와 Y가 양의 상관관계에 있으므로 X와 Y의 결합밀도
함수는 직선 y = x에 근접하는 영역에 집중된다.
(2) r < 0이면, X와 Y가 음의 상관관계에 있으므로 X와 Y의 결합밀도
함수는 직선 y = -x에 근접하는 영역에 집중된다.
mX =0, mY = 0, sX =1, sY =1, r =0.8
mX =0, mY = 0, sX =1, sY =1, r = -0.8
☞ 2) 주변확률밀도함수
fX(x) =
fY(y) =
1
2p sX
1
2p sY
(
(x – mX )2
(
(y – mY )2
exp -
2s 2
X
exp -
2s 2
Y
)
)
~ N(mX, sX2 ) ,
-∞ < x < ∞
~ N(mY, sY2 ) ,
-∞ < y < ∞
☞ 3) 조건부 확률밀도함수
f(x|y) =
f(y|x) =
f(x, y)
=
fY(y)
f(x, y)
=
fX(x)
1
2p sX
2
1-r
1
2p sY
2
1 -r
(x – bX )2
( 2s
exp -
2 (1
X
(
exp -
,
)
–r )
2
(y – bY )2
2s 2 (1
Y
sX
bX = mX + r s (y – mY)
Y
,
)
–r )
2
-∞ < x < ∞
-∞ < y < ∞
sY
bY = mY + r s (x – mX)
X
☞ 4) 조건부 평균
sX
E(X|Y=y) = mX + r s (y – mY)
Y
sY
E(Y|X=x) = mY + r s (x – mX)
X
☞ 5) 조건부 분산
Var(X|Y=y) = sX2 (1 – r2)
Var(Y|X=x) = sY2 (1 – r2)
신혼부부를 대상으로 한 모집단에서 남편의 키(X)와 아내의 키(Y)
(X, Y ) ~ N(176, 160, 1.0, 1.52, 0.6)
(1) 남편의 키가 173cm일 때, Y의 조건부 확률분포
(2) P(154 < Y < 158|X = 173) = ?
(1) (X, Y ) ~ N(176, 160, 1.0, 1.52, 0.6) 이므로
sY
Y의 조건부 평균 : E(Y|X=173) = mY + r s (x – mX)
X
= 160 + (0.6)•(1.5)•(173 – 176) = 157.3
Y의 조건부 분산 : Var(Y|X=173) = sY2 (1 – r2) = (2.25)•(0.64) = 1.44
Y의 조건부 확률분포 :
Y|X=173 ~ N(157.3, 1.44)
(2) P(154 < Y < 158|X = 173) = P
( 154 –1.2157.3
<Z<
158 – 157.3
1.2
)
= P(-2.75 < Z< 0.58) = F(0.58) – F(-2.75)
= 0.7190 + 0.9970 -1 = 0.7160
제5장

강의노트

Transcript 강의노트

Directory