Transcript 강의노트
4
이산확률분포
1
이산균등분포
2
초기하분포
3
이항분포
4
기하분포와 음이항분포
5
포아송분포
6
다항분포
1
이산균등분포(discrete uniform distribution)
이산균등분포의 확률질량함수와 평균, 분산에 대하여 알아본
다.
☞ 1) 확률질량함수
X ~ DU(n)
f(x) =
☞ 2) 평균
n
=
2
n
E(X ) = S x f(x) = S x2
x=1
x = 1, 2, …, n
n
n
x=1
x=1
m = E(X) = S x f(x) = S x
=
2
1
,
n
x=1
1
n
1
n
1
n
n+1
n(n+1)
=
2
2
1 n(n+1)(2n+1) (n+1)(2n+1)
=
n
6
6
그림출처: www.lotto.co.kr
☞ 3) 분산
s2 = Var(X) = E(X2) – E(X)2
(n+1)(2n+1)
=
6
n+1
2
2
n2 -1
=
12
X : 1에서 45까지의 번호를 적은 동일한 모양의 공이 들어 있는 주머니에서
임의로 하나를 꺼내어 나온 공의 번호
(1) X의 확률질량함수
(2) X의 평균과 분산
(3) 40번 이상의 번호가 적힌 공이 나올 확률
1
f(x)
=
,
(1)
45
x = 1, 2, …, 45
45+1
452 -1
2
= 23 , s = Var(X) =
= 168.67
(2) m = E(X) =
12
2
6
= 0.1333
(3) P(X≥ 40) = f(40)+f(41)+f(42)+f(43)+f(44)+f(45) =
45
2
초기하분포 (hypergeometric distribution)
초기하분포의 확률질량함수와 평균, 분산을 비롯한 특성과
다변량 초기하분포에 대하여 알아본다.
흰색 바둑돌 r개와 검은색 바둑돌 N-r개로 구성된 용기 A 에서 임의로 바둑돌 n개를
꺼내어 다른 용기 B 안에 넣을 때, 임의로 꺼낸 바둑돌 n개 안에 포함된 흰색 바둑돌의
개수에 관한 확률분포
어떤 특정 품목 r개를 포함하여 서로 상반되는 두 종목의 품목 N개로 구성된 집단에
서 임의로 n개를 추출하여, n개 안에 포함된 특정 품목의 개수(X)에 관한 확률분포
를 모수 N, r, n인 초기하분포라 한다.
조합의 수 :
N
n =
N(N-1)(N-2)•••(N-n+1)
N!
=
n(n-1)(n-2) ••• 3•2•1
n!(N-n)!
☞ 1) 확률질량함수
f(x) =
r
x
N-r
n-x
N
n
X ~ H(N, r, n)
,
max(0, n+r-N) ≤ x ≤ min(n, r)
모수에 따른 확률히스토그램의 개형
☞ 2) 평균
n
n
x=0
x=0
m = E(X) = S x f(x) = S x
n
=S
=S
N-r
n-x
N
n
x•r!
(N-r)!
x!(r-x)! (n-x)! [(N-r)-(n-x)]!
N!
n! (N-n)!
x=0
n
r
x
r (r-1)!
(x-1)! [(r-1)-(x-1)]!
[(N-1)-(r-1)]!
[(n-1)-(x-1)]! [(N-r)-(n-x)]!
N(N-1)!
n(n-1)! (N-n)!
x=1
t = x-1이라 하면,
모수 N-1, r-1, n-1
인 초기하분포 확
률함수
n-1
r
=n N S
t=0
n-1
r
=n N S
t=0
(r-1)!
t! [(r-1)-t]!
[(N-1)-(r-1)]!
[(n-1)-t]! [{(N-1)-(r-1)}-{(n-1)-t}]!
(N-1)!
(n-1)! (N-n)!
r-1
t
(N-1)-(r-1)
(n-1)-t
N-1
n-1
r
=n N
=1
동일한 방법에 의하여
E[X(X-1)] =
r (r-1)
N(N-1)
E(X2) = E[X(X-1)] + E(X) =
☞ 3) 분산
n(n-1)
nr N – n2r – nr2 +(nr)2
N(N-1)
s2 = Var(X) = E(X2) – E(X)2
=
nr N – n2r – nr2 +(nr)2
N(N-1)
r
r
=n N 1N
N-n
N-1
r
- n
N
2
50개의 마이크로 칩이 들어 있는 상자 안에 4개의 불량품이 섞여 있다고 한다.
이 상자에서 임의로 칩 5개를 선정할 때,
(1) 5개 안에 포함될 불량품의 수(X)에 대한 확률질량함수
(2) 불량품이 한 개 또는 두 개 나올 확률
(3) X의 평균과 분산
(1)
4
x
f(x) =
46
5-x
50
5
,
x = 0, 1, 2, 3, 4
X
0
1
2
3
4
f(x)
0.64696
0.30808
0.04299
0.00195
0.00002
(2) P(X=1 or X=2) = f(1)+f(2) = 0.30808 + 0.04299 = 0.35107
(3)
m = E(X) = 5• 4 = 0.4,
50
s2 = Var(X) = 5• 4
50
1- 4
50
45 = 0.33796
49
다변량 초기하분포
서로 다른 특성 A1, A2, …, Ak를 갖는 품목이 각각 r1, r2, …, rk개씩 들어 있는 용기에서
n개를 추출할 때, 각 특성을 가진 품목이 각각 X1, X2, …, Xk인 확률분포
예
다음 그림과 같이 추출된 10개의 구슬 안에 포함된 노란색, 빨간색,
파란색 구슬의 개수에 대한 확률분포
☞ 확률질량함수
P(X1=x1, X2=x2, …, Xk=xk) =
주 의
k=2이면, 초기하분포이다.
r1
x1
r2
r
… k
x2
xk
N
n
x1+x2+…+xk = n,
0≤xi≤ri , i=1,2,…,k
앞의 예 그림과 같이 빨간 공 8개, 파란 공 10개, 노란 공 10개씩 들어 있는
주머니에서 임의로 공 10개를 꺼내는 경우,
(1) X, Y, Z : 10개 안에 포함된 빨간 공, 파란 공, 노란 공의 수
X, Y, Z 의 결합질량함수
(2) 빨간 공 3개, 파란 공 2개, 노란 공 5개가 포함될 확률
(3) 10개 중에 포함될 노란 공의 평균
(1) r1=8, r2=10, r3=10이고 n=10이므로 결합확률질량함수 :
P(X=x, Y=y, Z=z) =
(2)
P(X=3, Y=2, Z=5) =
8
x
10
y
10
z
28
10
8
3
10
2
28
10
10
5
x+y+z = 10,
x=0,1,…,8,
y, z=0,1,…,10
= 0.0484
(3) 노란 공의 수 : Z~H(28, 10, 10)이므로 E(Z)= 10• 10 = 3.57
28
3
이항분포 (binomial distribution)
Bernoulli 분포, 이항분포의 확률질량함수와 평균, 분산 그
리고 이항확률 구하는 방법을 비롯한 특성, 초기하분포와
이항분포 사이의 관계에 대하여 알아본다.
Bernoulli 분포
동전 던지기의 앞면과 뒷면, 전기회로 스위치의 ON과 OFF, 설문조사에서
YES와 NO, 상품의 불량품과 양품 등과 같이,서로 상반되는 두 가지뿐인 실험
결과에 관한 확률분포
관심을 갖는 결과가 나오면 성공(성공률 p) 그렇지 않으면 실패(q=1-p)라 하
고, 성공이면 1 실패이면 0으로 대응시키는 확률변수(X)의 확률분포를 모수
p인 베르누이분포라 한다.
☞ 1) 확률질량함수
X ~ B(1, p)
1-p , x=0
f(x) =
p,
x=1
0 , 다른 곳에서
=
pxq1-x , x=0, 1
0 , 다른 곳에서
베르누이 시행 : 베르누이분포에 따르는 통계실험을 독립적으로 반복하여 시행하는 것
☞ 2) 평균
m = E(X) = S x f(x) = 0•(1-p) + 1•p = p
☞ 3) 분산
E(X2) = S x2 f(x) = 02•(1-p) + 12•p = p
s2 =Var(X) = E(X2) – E(X)2 = p – p2 = p(1-p)
주사위를 한 번 던져서 “1” 또는 “6”의 눈이 나오면 성공이라 하자.
이때, “1” 또는 “6”의 눈이 나오는 사건에 대한 확률분포 = ?
평균 = ? 분산 = ?
“1” 또는 “6”의 눈이 나올 확률 1/3, 이 경우 확률변수 X=1
X ~ B(1, 1/3)
2/3 , x=0
X의 확률질량함수 : f(x) =
1/3 , x=1
0 , 다른 곳에서
X의 평균 : m = E(X) = 1/3
X의 분산 : s2 =
1
3
•
2
2
=
3
9
예제 1의 실험을 독립적으로 3번 반복시행
X1, X2, X3 : 첫 번째, 두 번째, 세 번째 실험 결과
나타날 수 있는 모든 경우 :
(x1, x2, x3) : (0,0,0), (1,0,0), (0,1,0), (0,0,1), (1,1,0), (1,0,1), (0,1,1), (1,1,1)
각 경우의 확률 :
P(Xi = 0) =
2
,
3
P(Xi = 1) =
1
, i = 1, 2, 3
3
X = X1 + X2 + X3이라 하면, X 의 상태공간 :
SX = { 0, 1, 2, 3 }
X의 의미 :
독립적으로 주사위를 3번 반복하여 던져서 “1” 또는 “6”의 눈이 나온 횟수
X=0
{X1 =0, X2 = 0, X3 = 0 }
X=1
{X1 =1, X2 = 0, X3 = 0 } ∪ {X1 =0, X2 = 1, X3 = 0 }
∪ {X1 =0, X2 = 0, X3 = 1 }
X=2
{X1 =1, X2 = 1, X3 = 0 } ∪ {X1 =1, X2 = 0, X3 = 1 }
∪ {X1 =0, X2 = 1, X3 = 1 }
X=3
{X1 =1, X2 = 1, X3 = 1 }
X의 확률질량함수 :
P(X=0) = P(X1 =0, X2 = 0, X3 = 0 ) = P(X1 =0) P(X2 = 0) P(X3 = 0 )
=
1 1 1
· ·
=
3 3 3
1
3
3
{X1 =1, X2 = 0, X3 = 0 }, {X1 =0, X2 = 1, X3 = 0 }, {X1 =0, X2 = 0, X3 = 1 } : 배반사건
P(X=1) = P({X1 = 1,X2 = 0,X3 = 0 } or {X1 = 0,X2 = 1,X3 = 0 } or {X1 = 0,X2 = 0,X3 = 1 })
= P(X1 = 1,X2 = 0,X3 = 0) +P(X1 = 0,X2 = 1,X3 = 0) + P(X1 = 0,X2 = 0,X3 = 1)
= P(X1 = 1) P(X2 = 0) P(X3 = 0) +P(X1 = 0) P(X2 = 1) P(X3 = 0)
+ P(X1 = 0) P(X2 = 0) P(X3 = 1)
1 2
=
3 3
2
1 2
+
3 3
2
1 2
+
3 3
2
1 2
= 3•
3 3
2
{X1 =1, X2 = 1, X3 = 0 }, {X1 =1, X2 = 0, X3 = 1 }, {X1 =0, X2 = 1, X3 = 1 } : 배반사건
P(X=2) = P({X1 = 1,X2 = 1,X3 = 0 } or {X1 = 1,X2 = 0,X3 = 1 } or {X1 = 0,X2 = 1,X3 = 1 })
= P(X1 = 1,X2 = 1,X3 = 0) +P(X1 = 1,X2 = 0,X3 = 0) + P(X1 = 0,X2 = 0,X3 = 1)
= P(X1 = 1) P(X2 = 0) P(X3 = 0) +P(X1 = 0) P(X2 = 1) P(X3 = 0)
+ P(X1 = 0) P(X2 = 0) P(X3 = 1)
=
1 2 2
1 2 2
·
+ 3 ·
+
3
3
3
1 2 2
·
3
3
= 3•
1 2 2
·
3
3
P(X=3) = P(X1 = 1, X2 = 1, X3 = 1 ) = P(X1 = 1) P(X2 = 1) P(X3 = 1 )
2 2 2
= · ·
=
3 3 3
2
3
3
X의 확률질량함수 :
P(X=0) =
1
3
f(x) =
3
P(X=1) = 3•
1
3
1 2
3•
3 3
3•
1
3
2
3
()
3
x
f(x) =
0
P(X=2) = 3•
, x=1
2
3
1
3
2
2
3
2
P(X=3) =
3
3
조합의 수를 이용
() ()
3
3
=
1
,
0
1 =3,
, x=2
3
1
3
2
, x=0
2
2
3
1 2
3 3
, x=3
x
2
3
3-x
, x = 0, 1, 2, 3
, 다른 곳에서
()
3
2 =3,
()
3
3 =1
X에 대한 다른 관찰
FFF
0
3
0 =1
1 0 2 3
3
3
표본점
X의 값
각 경우의
확률
()
3
0
확률 히스토그램
1
3
0
2
3
SSF, SFS, FSS
2
3
2 =3
1 2 2 1
3
3
()
()
경우의 수
X의 분포
SFF, FSF, FFS
1
3
1 =3
1 1 2 2
3
3
3
()
3
1
1
3
1
2
3
SSS
3
3
3 =1
1 3 2 0
3
3
()
2
()
3
2
1
3
2
2
3
()
1
()
3
3
1
3
3
2
3
0
예제 1에 대하여 X = X1 + X2 + X3이라 할 때,
X의 평균 = ? 분산 = ?
“1” 또는 “6”의 눈이 나올 확률 1/3, 이 경우 확률변수 Xi=1 , i = 1, 2, 3
Xi ~ B(1, 1/3)
1
E(X
)
=
Xi의 평균 :
i
3
2
Xi의 분산 : s2i = 9
X의 평균 :
m = E(X) = E(X1 + X2 + X3)
= E(X1)+ E(X2) + E(X3)
1 1 1
=
+ + =1
3 3 3
X의 분산 : X1 , X2 , X3이 독립이므로
s2 = Var(X1 + X2 + X3 ) = Var(X1) + Var(X2) + Var(X3 )
2
2
2
=
+
+
= 2
9
9
9
3
이항분포
매 회 성공률이 p인 Bernoulli 실험을 n번 독립적으로 반복 시행하여 성공한
횟수(X)에 관한 확률분포를 모수 n, p인 이항분포라 하고, X~B(n, p)로 나타낸
다.
☞ 1) 확률질량함수
(nx)p (1-p)
x
f(x) =
0
n-x
, x = 0, 1, …, n
, 다른 곳에서
☞ 2) 평균
Xk ~ B(1, p), k=1,2,…,n이고 독립이라 하면,
X = X1 + X2 +… + Xn은 성공률이 p인 Bernoulli 실험을 n번 독립적으
로 반복 시행하여 성공한 횟수이므로
m = E(X) = E(X1 + X2 +… + Xn ) = E(X1) + E(X2) + … + E(Xn)
n번
= p + p + … + p = np
☞ 3) 분산
s2 =Var(X) = Var(X1 + X2 +… + Xn )
= Var(X1) + Var(X2) + … + Var(Xn)
n번
= p(1-p) + p(1-p) + … + p(1-p) = np(1-p) =npq (q=1-p)
☞ 이항확률변수에 대한 확률의 성질
X~B(n, p)이고 a, b = 0, 1, 2, … , n일 때,
n
(1) P(X ≥ a) = Sx=a f(x)
(2) P(X = a) = P(X ≤ a) – P(X ≤ a-1)
(3) P(a ≤ X ≤ b) = P(X ≤ b) - P(X ≤ a-1)
(4) P(X ≤ a) = 1- P(X ≥ a+1),
P(X ≥ a) = 1- P(X ≤ a-1)
공정한 동전을 8번 던질 때,
(1) 꼭 1번 앞면이 나올 확률
(2) 많아야 4번 앞면이 나올 확률
(3) 적어도 5번 이상 앞면이 나올 확률
(4) 평균 = ? 분산 = ?
X : 앞면이 나온 횟수
X~B(8, 0.5)
(1) X의 확률질량함수 :
()
8 0.5x (1-0.5)8-x , x = 0, 1, …, 8
x
f(x) =
0
P(X = 1) = f(1) =
(2)
, 다른 곳에서
()
8 0.51 (1-0.5)7 = 0.03125
1
P(X ≤ 4) = f(0) + f(1) + f(2) + f(3) + f(4)
()
8
0
= 0 0.5 (0.5)8
+
()
+
8 0.53 (0.5)5
3
()
()
8
+ ( 4)0.5 (0.5)
8 0.51 (0.5)7
+
1
4
8 0.52 (0.5)6
2
4
= 0.00391 + 0.03125 + 0.10938 + 0.21875 + 0.27344 = 0.63673
(3)
P(X ≥ 5) = 1 - P(X ≤ 4) = 1 – 0.63673 = 0.36327
(4) X의 평균 :
m = np = 8 • (0.5) = 4
X의 분산 :
s2 = npq = 8 • (0.5) • (0.5) = 2
☞ 이항확률표 사용방법
앞의 예제 3에 대하여 확률 P(X ≤ 4)을 구하는 방법
P(X = 1) = P(X ≤ 1) - P(X = 0) = 0.0352 – 0.0039 = 0.0313
5지선다형으로 주어진 10문제에서 임의로 답안을 선정
(1) 정답을 선택한 문제 수에 대한 확률질량함수
(2) 평균과 분산
(3) 꼭 2문제에서 정답을 선택할 확률
(4) 적어도 4문제 이상 정답을 선택할 확률
(1) X : 정답을 선택한 문제 수
X ~ B(10, 0.2)
X의 확률질량함수 :
( )
10 0.2x 0.810-x , x = 0, 1, …, 10
x
f(x) =
0
, 다른 곳에서
(2) X의 평균 : m = np = 10 • (0.2) = 2
X의 분산 : s2 = npq = 10 • (0.2) • (0.8) = 1.6
(3) 이항확률표로부터,
P(X ≤ 1) = 0.3758, P(X ≤ 2) = 0.6778
P(X = 1) = P(X ≤ 2) - P(X ≤ 1) = 0.6778 - 0.3758 = 0.3020
(4) P(X ≤ 3) = 0.8791
P(X ≥ 4) = 1 - P(X ≤ 3) = 1 - 0.8791 = 0.1209
☞ 모수 p에 따른 이항분포의 비교
오른쪽 긴 꼬리
대칭이항분포(symmetric binomial
distribution)
왼쪽 긴 꼬리
☞ 두 이항분포의 합성
X ~ B(m, p), Y ~ B(n, p)
X + Y ~ B(m+n, p)
X , Y : 독립
m
P(X + Y = k) = x=0
S P(X = x, x + Y = k)
m
=x=0
S P(X = x) P(x + Y = k)
m
= S P(X = x) P(Y = k - x)
x=0
m
( )
m
n p
( )(k-x
)
m
n
=x=0
S x px (1-p)m-x k-x pk-x (1-p)n-(k-x)
=x=0
S m
x
=
(
( )
k
(1-p)(m+n)-k
m+n k
p (1-p)(m+n)-k ~ B(m+n, p)
k
)
생산라인 A와 B에서 생산되는 TV의 불량률 : 동일한 5%
A에서 생산된 제품 “7”대와 B에서 생산된 제품 “13”대가 섞여 있을 때,
(1) 불량품이 꼭 하나 있을 확률
(2) 적어도 하나 이상 있을 확률
X, Y : 각각 A와 B에서 생산된 불량품의 수
X ~ B(7, 0.05), Y ~ B(13, 0.05)
Z = X + Y ~ B(20, 0.05)
P(Z = 1) = P(Z≤ 1) – P(Z =0) = 0.7358 – 0.3585 = 0.3773
P(Z ≥ 1) = 1 – P(Z = 0) = 1 – 0.3585 = 0.6415
☞ 초기하분포와
이항분포의 관계
X ~ H(N, r, n)
N→∞
r
p = N : 일정
X ~ B(n, p)
5,000개의 장난감 가운데 250개가 불량품
10개를 임의로 선정하여 수입하기로 계약을 맺었다.
(1) 불량품이 2개 미만일 확률(계산기 또는 관련 프로그램 사용),
(2) 불량품이 2개 미만일 이항분포에 의한 근사확률
(1) X : 불량품의 수
X의 확률질량함수 :
250 4750
x
10-x
f(x) =
5000
10
( )( )
,
( )
x = 0, 1, …, 10
P(X < 2) = f(0) + f(1) = 0.59845 + 0.31557 = 0.91402
.
(mathematica를 사용)
(2) p=250/5000=0.05이므로 X ~. B(10, 0.05)이고, 이항확률표에 의하여
P(X < 2) = P(X≤ 1) = 0.9139
4
기하분포 (geometric distribution)
음이항분포 (negative binomial distribution)
기하분포, 음이항분포의 확률질량함수와 평균, 분산을 비롯
하여 비기억성 성질에 대하여 알아본다.
기하분포
매 시행에서 성공률이 p인 베르누이 실험을 처음 성공할 때까지 독립적으로 반
복 시행한 횟수(X)에 관한 확률분포를 모수 p인 기하분포라 하고, X ~ G(p)로 나
타낸다.
☞ 1) 확률질량함수
X ~ G(p)
f(x) = pqx-1 ,
x = 1, 2, 3, …, q=1-p
☞
2) 평균
∞
∞
x=0
x=0
x-1
m= E(X) = S x f(x) = S x pq
∞
d
= p S d (qx ) = p
x=1 dq
dq
q
=p d
dq 1-q
( )=
∞
= p S xqx-1
x=0
( Sq )
∞
x
x=1
p
(1-p)2
1
= p
☞ 3) 분산
동일한 방법에 의하여
E[X(X-1)] =
2q
p2
s2 = Var(X) = E(X2) – E(X)2 = E[X(X-1)] + E(X) – E(X)2
=
=
2q
1
1
+
p
p
p2
q
p2
2
앞면이 나올 때까지 공정한 동전을 던지는 실험에서 던진 횟수(X)
의 확률분포
예
X
1
2
3
4
5
6
7
…
P(X=x)
1/2
1/4
1/8
1/16
1/32
1/64
1/128
…
P(X≤x)
1/2
3/4
7/8
15/16
31/32
63/64
127/128
…
“1”의 눈이 나올 때까지 반복해서 던지는 실험
X : 처음 “1”의 눈이 나올 때까지 시행한 횟수
(1) X의 확률질량함수
(2) X의 평균과 분산
(3) 세 번째에서 처음으로 “1”의 눈이 나올 확률
(1) 주사위 1개를 던져서 “1”의 눈이 나올 확률은 1/6이므로 X ~ G(1/6)
X의 확률질량함수 :
f(x) =
(2) X의 평균 :
m = 1/p =
2
2
X의 분산 : s = q/p =
(3) P(X = 3) = f(3) =
1
6
.
5
6
1
1/6
5/6
(1/6)2
3-1
1
6
.
5
6
x-1
, x = 1, 2, 3, …
=6
= 30
=
25
216
= 0.1157
정리 1 비기억성 성질(memorylessness property)
X ~ G(p)에 대하여 다음이 성립한다.
P(X > n+m | X > n) = P(X > m)
증명
P(X > n+m | X > n) =
=p•
1-q
=p•
q
=p•
1-q
P(X > n)
x-1
S
pq
x=n+m+1
P(X > n+m | X > n)
∞
pqx-1
S
x=n+1
= qn
1-q
P(X > m) = P(X ≥ m+1) =
qm
=
= qn+m
P(X > n) = P(X ≥ n+1) =
n
P(X > n)
P(X > n+m)
∞
P(X > n+m) = P(X ≥ n+m+1) =
qn+m
P(X > n+m, X > n)
∞
x-1
S
pq
x=m+1
=
P(X > n+m)
P(X > n)
=
qn+m
qn
= qm
= P(X > m)
= qm
증명 끝
X ~ G(0.35)에 대하여
확률 P(X > 5|X > 2) = ?
P(X > 3) = ?
X ~ G(0.35)이므로 X의 확률질량함수 :
f(x) = (0.35)•(0.65)x-1 , x = 1,2,3,…
조건부확률의 정의로부터
P(X > 5| X > 2) =
P(X > 5, X > 2)
P(X > 2)
=
P(X > 5)
P(X > 2)
한편,
∞
P(X > k) = S (0.35)•(0.65)
x-1
x=k+1
= (0.35)•
(0.65)k
= (0.65)k
1 – (0.65)
이므로 P(X > 5) = (0.65)5 , P(X > 2) = (0.65)2 , P(X > 3) = (0.65)3
P(X > 5| X > 2) =
P(X > 5)
P(X > 2)
=
(0.65)5
(0.65)2
= (0.65)3 = P(X > 3)
음이항분포
매 시행에서 성공률이 p인 베르누이 실험을 r 번째 성공이 있기까지 독립적으로
반복 시행한 횟수(X)에 관한 확률분포를 모수 r, p인 음이항분포라 하고, X ~
NB(r, p)로 나타낸다. 특히 r =1이면 X ~ G(p)이다.
예
매 시행에서 성공률이 p인 베르누이 실험을 3번째 성공이 있기까지
독립적으로 반복 시행한 횟수(X)의 확률분포
경우의 수 : 1가지
각 경우의 확률 : p3
P(X =3) = p3
경우의 수 : 3가지
각 경우의 확률 : qp3
P(X =4) = 3qp3 = ( 32 )qp3
경우의 수 : 6가지
각 경우의 확률 : q2 p3
P(X =5) = 6q2 p3 = ( 42 )q2 p3
x-1
경우의 수 : ( 2 ) 가지
각 경우의 확률 : qx-3 p3
x-1
P(X =x) = ( 2 )qx-3 p3
x-1번 중에 r-1번 성공하고, x번째에서 r번째 성공이 있을 확률 :
P(X = x) = P(x-1번 중에 r-1번 성공)• P(x번째에서 r번째 성공)
r-1 (x-1)-(r-1)
= ( x-1
•p
r-1 ) p q
=
r x-r
p
q
( x-1
)
r-1
☞ 1) 확률질량함수
X ~ NB(r, p)
pr qx-r ,
f(x) = ( x-1
)
r-1
x = r, r+1, r+2, …
처음 성공이 있기까지 반복 시행한 횟수 : X1
처음 성공 이후 두 번째 성공이 있기까지 반복 시행한 횟수 : X2
r-1번째 성공 이후 처음 성공할 때까지 반복 시행한 횟수 : Xr
X1
X2
Xr-1
Xr
비기억성 성질에 의하여
X = X1 + X2 + … + Xr : r 번 성공할 때까지 독립적으로
반복 시행한 횟수
1
E(Xi) = p ,
☞ 2) 평균
q
Var(Xi) = 2
p
, i = 1, 2, 3, …, r
m = E(X) = E(X1) + E(X2) + … + E(Xr )
1
1
r
1
= p + p +…+ p = p
☞ 3) 분산
s2 = Var(X) = Var(X1) + Var(X2) + … + Var(Xr )
=
q
q
q
+
+
…
+
p2
p2
p2
=
rq
p2
신용카드 한 장을 판매할 확률이 0.1인 카드 외판원이 하루 동안 3장의 카드를
판매할 때까지 예상 구매자를 방문
X : 외판원이 만난 예상 구매자 수
(1) X의 확률질량함수 : f(x)
(2) X의 평균 = ? 분산 = ?
(3) 3번째에서 처음으로 구매자를 만날 확률
(4) 10번째에서 3장의 카드를 모두 판매할 확률
(5) 8번째부터 10번째에 걸쳐 3장의 카드를 모두 판매할 확률
(1) X의 확률질량함수 :
신용카드 한 장을 판매할 확률이 0.1이고 3장의 카드를 판매할 때까지 예상
구매자를 방문하므로, 그 사람이 방문한 예상 구매자의 수 X는 모수
r =3, p = 0.1인 음이항분포를 이룬다.
(0.1)3 (0.9)x-3 ,
)
f(x) = ( x-1
2
x = 3, 4, 5, …
(2) X의 평균 :
X의 분산 :
r
3
m= p =
= 30
0.1
rq
3•(0.9)
2
s =
=
= 270
p2
(0.1)2
(3) 3번째에서 처음으로 구매자를 만날 확률은 모수 p=0.1 인 기하분포이므로
구하고자 하는 확률 :
(0.1)•(0.9)2 = 0.081
3
10-3
10-1
=
(4) f(10) = ( 2 )(0.1) (0.9)
( 92 )
(0.1)3 (0.9)7 = 0.0172
(5) 8번째에 처음 카드를 판매할 확률 : (0.1)•(0.9)7 = 0.0478
곧바로 두 번째 카드를 판매(9번째에서 2번째 구매자)할 확률 :
비기억성 성질에 의하여 0.1
9번째에 이어서 10번째도 판매할 확률 0.1
카드 판매는 독립적으로 반복 시행되므로
구하고자 하는 확률 : (0.1)3•(0.9)7 = 0.000478
X ~ NB(3, 0.1)의 확률질량함수 개형
5
포아송분포
포아송분포의 확률질량함수, 평균 그리고 분산 및 포아송
분포의 특성, 확률표 사용방법 및 이항분포와의 관계를 비
롯하여 포아송과정에 대한 개념 등에 대하여 알아본다.
컨테이너 박스 안의 수입 물품에 포함된 불량품의 수, 어떤 물질에 의하여
방출된 방사능 입자의 수, 어떤 주어진 시간 안에 걸려온 전화의 수 또는 소
설책의 한 면 당 오자의 수 등과 같이 한정된 단위 시간이나 공간에서 발생
하는 사건의 수에 관련되는 확률
ez에 대한 Maclaurin 급수식 :
z3
z2
e =1+z+
+
+ … +
3!
2!
∞
zk
=S
k=0 k!
z
-z
∞
1=e S
k=0
zk
k!
z = m, k = x라 하면,
mx -m
f(x) = e
x!
zk
+…
k!
확률질량함수 조건을 만족
zk -z
=S
e
k=0 k!
∞
mx -m
S
e =1
x=0 x!
∞
, x = 0, 1, 2, … : 확률질량함수
☞ 1) 확률질량함수
X ~ P(m)
mx -m
f(x) = e
x!
☞ 2) 평균
, x = 0, 1, 2, …
∞ mx-1
x
m
-m
m = E(X) = S x f(x) = S x•
=mS
e-m
e
x=0
x=0
x=1 (x-1)!
x!
∞
x-1 = t라 하면
mt -m
=mS
e
t=0 t!
∞
=m
∞
☞ 3) 분산
동일한 방법에 의하여
E[X(X-1)] = m2
s2 = Var(X) = E(X2) – E(X)2 = E[X(X-1)] + E(X) – E(X)2
= m2 + m – m2
=m
참고
포아송분포의 모수 m이 평균, 분산과 일치한다.
☞ 포아송분포의 특성
포아송 분포는 모수(m)가 클수록 기대값이 커짐과 동시에
기대값을 중심으로 퍼지는 정도도 넓어지며, 외형은 종 모양에 근접한다.
10개들이 CD 1묶음에 평균 0.15개의 결함이 있으며, 결함이 있는 CD의 수는
포아송분포에 따른다. CD 10 묶음에 대하여
(1) 결함이 있는 CD가 2개일 확률
(2) 적어도 2개 이상의 CD에 결함이 있을 확률
(1) CD 1묶음에 평균 0.15개의 결함이 있으므로, 10묶음에는 평균 1.5개
결함있는 CD의 수 : X ~ P(1.5)
X의 확률질량함수 :
1.5x -1.5
e
,
f(x) =
x!
구하고자 하는 확률 :
P(X = 2) =
(2)
x = 0, 1, 2, …
1.52 -1.5
e = 0.251
2!
P(X ≥ 2) = 1 – P(X ≤ 1) = 1- f(0) – f(1)
0
1
-1.5
1.5
1.5
e
e-1.5
=10!
1!
= 1- (0.223 + 0.335) = 0.442
☞ 포아송확률표 사용방법
X ~ P(1.5)에 대하여 P(X ≤ 2) = ?
P(X = 2) = P(X ≤ 2) - P(X ≤ 1) = 0.809 – 0.558 = 0.251
P(X ≥ 2) = 1 – P(X ≤ 1) = 1 – 0.558 = 0.442
☞ 이항분포와
포아송분포의
관계
X ~ B(n, p)
n→∞
m = np : 일정
X ~ P(m)
어떤 기계에서 생산된 제품은 0.1의 확률을 가지고 불량품이 독립적으로
나온다고 한다. 이 기계에서 생산된 제품 20개를 임의로 선정했을 때,
(1) 1개 이하의 불량품이 나올 확률
(2) 포아송분포에 의한 근사확률
(1) 불량품의 수 : X ~ B(20, 0.1)
이항확률표에 의하여
P(X ≤ 1) = 0.3917
.
(2) n = 20, p = 0.1이므로 X ~. P(2)
포아송분포에 의한 근사확률 :
.
P(X ≤ 1) =.0.406
재학생 수가 300명인 어느 학교에 신종 플루 바이러스에 걸린 학생이 3명일 때.
임의로 선정된 1명이 바이러스에 걸렸을 확률
(1) 바이러스에 걸린 학생 수 : X ~ B(300, 0.01)
.
n = 300, p = 0.01이므로 X ~. P(3)
포아송분포에 의한 근사확률 :
.
P(X = 1) = P(X ≤ 1) – P(X = 0) = .0.199 – 0.05 = 0.149
▶ 포아송과정(Poisson process) : 단위 구간에서 l의 비율로
특별한 사건이 관찰될 때, 길이가 t인 구간에서 이 사건이 관찰된
수 X(t)가 포아송분포에 따를 때, 이 사건이 관찰되는 과정
{X(t) : t > 0}을 모수 l인 포아송과정이라 한다.
(lt)x -lt
P[X(t) = x] =
e ,
x!
x = 0, 1, 2, …
☞ 포아송과정의 특성
(1) 임의의 양수 t와 s에 대하여, X(t+s) - X(t)는 {X(u) : u ≤ t}에 독립이다. 즉,
시구간 (t, t+s) 사이에 관찰된 횟수는 t이전에 관찰된 횟수에 독립
(2) 임의의 양수 t와 s에 대하여, X(t+s) - X(t)는 s에만 의존한다.
즉, 동일한 크기의 시구간 안에서 관찰된 횟수는 동일한 분포를 이룬다.
X(t)가 l = 8인 포아송과정에 따를 때,
P[X(2.5)=17, X(3.7)=22, X(4.3)=36] = ?
{X(2.5)=17, X(3.7)=22, X(4.3)=36}
동
치
관
계
처음 2.5시간 동안 어떤 사건이 17건 관찰되고,
처음 3.7시간 동안 22건 그리고
처음 4.3시간 동안 36건이 관찰됨을 의미
{X(2.5) = 17, X(3.7) – X(2.5) = 5, X(4.3) – X(3.7) = 14}
특성 (1)에 의하여
P[X(2.5)=17, X(3.7)=22, X(4.3)=36]
= P[X(2.5) = 17, X(3.7) – X(2.5) = 5, X(4.3) – X(3.7) = 14]
= P[X(2.5) = 17] P[X(3.7) – X(2.5) = 5] P[X(4.3) – X(3.7) = 14]
특성 (2)에 의하여
P[X(3.7) – X(2.5) = 5] = P[X(1.2) = 5]
P[X(4.3) – X(3.7) = 14] = P[X(0.6) = 14]
l= 8, X(t)~P(lt)이므로
X(2.5) ~ P(20), X(1.2) ~ P(9.6), X(0.6) ~ P(4.8)
구하고자 하는 확률 :
P[X(2.5) = 17] P[X(3.7) – X(2.5) = 5] P[X(4.3) – X(3.7) = 14]
=
(20)17
17!
-20
e
•
(9.6)5
5!
-9.6
e
•
(4.8)14
14!
e-4.8
= (0.07595)•(0.04602)•(0.00033) = (1.15)•(10) -6
6
다항분포
다항분포의 결합확률질량함수에 대하여 알아본다.
매회 실험 결과가 k개의 서로 배반인 사건 A1 , A2 , … , Ak 로 구성되고,
각각의 사건이 매회 발생할 가능성이 pi =P(Ai), i = 1,2,…,k인 통계실험에
서 사건 Ai 들의 발생 횟수 Xi 의 결합확률분포
☞ 결합확률질량함수(X , X , … , X ) ~ Mult(n, p , p , … , p )
1
f(x1 , x2 , … , xk) =
2
n!
k
x
x1! x2! … xk!
x
1
xk
p1 1 p2 2 … pk
2
0 ≤ xi ≤ n ,
,
k
i = 1, 2, …, k
x1 + x2 + …+ xk = n ,
p1 + p2 + …+ pk = 1
☞ 다항분포와 이항분포
(1) k = 2이면 이항분포이고, 각 확률변수들은 독립이 아니다.
(2) Xi ∼ B(n, pi )
E(Xi ) = n pi ,
Var(Xi ) = n pi(1-pi )
공정한 주사위를 36번 던져서 각각의 눈이 동일하게 6번씩 나올 확률
Xi : 주사위를 던져서 나온 눈이 “i”인 횟수
(X1 , X2 , … , X6) ~ Mult(36, 1/6 , 1/6, … , 1/6)
f(x1 , x2 , … , x6) =
36!
x1! x2! … x6!
1
6
x1
1
6
x2
…
1
6
x6
, x1 + x2 + …+ xk = 36
구하고자 하는 확률 :
P(X1 =6, X2 =6, … , X6 =6) = f(6, 6, 6, 6, 6, 6)
=
36!
x1! x2! … x6!
= 0.00026
1
6
6
1
6
6
…
1
6
6
제4장