Transcript + a 2

추 정
8
1
점추정과 구간추정
2
모평균의 구간추정
3
모분산과 모비율의 추정
4
표본의 크기
1
점추정과 구간추정
추정에 대한 개념, 점추정량의 성질 및 구간추정의 의미에 대
하여 알아본다.
▶ 통계적 추론(statistical inference) : 표본으로 부터 얻은 정보
를 이용하여 미지의 모수를 과학적으로 추론하는 과정
추정과 가설검정
▶ 추정(estimate) : 표본으로 부터 얻은 통계량을 이용하여 미지의
모수를 과학적으로 추론하는 과정
▶ 추정량(estimator) : 모수 q를 추정하기 위하여 사용되는 통계량
추정량은 X1, X2, … , Xn의 함수 q = Q(X1, X2, … , Xn)인 확률변수
▶ 점추정(point estimate) : 모수에 대한 추정량이 표본추출에
따라 가변적이므로 최적의 추정값을 얻어야 하며, 이러한 최적의
추정값을 구하는 과정
통계적 추론 방법
임의 추출
모수Q
∧
추정량 Q
추론
예
모평균에 대한 추론 과정
미지의 평균 m
모집단
인
표본평균 x를
이용하여 모평균
m를 추론한다.
모집단으로부터
크기 n인 표본을 선정
표본으로부터
표본평균 x 를
구한다.
☞ 1) 점추정량의 특성
∧
(1) 점추정값 q가 알려지지 않은 모수 q의 정확한 값은 아니지만, 가장 좋은 점추
정값은 미지인 모수의 가장 바람직한 가상의 값으로 생각할 수 있다.
(2) 이러한 추정값은 추출된 표본에 따라 변동이 있으며, 수치적으로 약간의 차
이가 있더라도 두 개 이상의 좋은 추정값이 존재할 수도 있다.
미지의 모집단 분포 : f(x)
m
∧
표본평균 : m
=x
모평균(미지)
표본으로부터 관측된 값
점추정량의 선택에 따른 추정값
점추정량 m∧ 1의 분포
x1
추정값
모집단의 분포
m
참값
∧
점추정량 m
2의 분포
x2
추정값
☞ 2) 불편성(unbiasedness)
∧
모수 q에 대한 점추정량 q = Q( X1, X2, …, Xn)에 대하여
∧
E(q) = q
∧
를 만족할 때, 추정량 q를 q의 불편추정량(unbiased estimator)
∧
E(q)  q
∧
일 때, q를 편의추정량(biased estimator)
∧
bias = E(q) - q
를 편의(bias)
불편추정량
편의추정량
표본평균의
E(X) = E
기대값 :
표본분산 :
(n
1 n
S Xi
i=1
)
=
1 n
1 n
1
n i=1
n i=1
n
S E(Xi) =
Sm=
(nm) = m
1 n
1 n
2
[(Xi – m) –(X - m)]2
(Xi – X) =
S =
S
S
n-1 i=1
n-1 i=1
1 n
[(Xi – m)2 –2(X - m)(Xi – m) + (X - m)2 ]
=
S
n-1 i=1
2
1
=
n-1
n
(Xi – m)2 – n(X - m)2
S
i=1
n
표본분산의 E(S2) = 1 E S (X – m)2 – n(X - m)2
i
n-1
i=1
기대값 :
1 n
E[(Xi – m)2 ] – nE[(X - m)2 ]
=
S
n-1 i=1
1
1
(ns2 – s2 ) = s2
[ns2 – n Var(X)] =
=
n-1
n-1
표본비율의
기대값 :
∧
E(p)
= E(X/n) = p
여기서, X ~ B(n, p)
(1) 표본평균 X는 모평균 m에 대한 불편추정량이다.
(2) 표본분산 S2은 모분산 s2에 대한 불편추정량이다.
∧
(3) 표본비율 p는
모비율 p에 대한 불편추정량이다.
1
S =
n
2
n
(Xi – X)
S
i=1
2
n-1
E(S ) = n s2
2
s2
: 편의추정량
bias = n
미지의 모평균 m를 가지는 모집단으로부터 크기 3인 확률표본 X1 , X2 , X3 을
추출하여, 모평균에 대한 점추정량을 다음과 같이 정의하였다.
각 추정량의 편의를 구하고 불편추정량과 편의추정량을 구분
∧
m1 =
1
3
(X1 + X2 + X3) ,
∧
1
∧
3
1
∧
4
1
E(m1 ) =
E(m2 ) =
E(m3 ) =
5
∧
m2 =
E(X1 + X2 + X3) =
1
3
E(X1 + 2X2 + X3) =
E(X1 + 2X2 + X3) =
1
4
∧
(X1 + 2X2 + X3) , m3 =
1
5
[E(X1) + E(X2) + E(X3)] =
1
4
1
5
(X1 + 2X2 + X3)
1
3
[E(X1) +2 E(X2) + E(X3)] =
[E(X1) +2 E(X2) + E(X3)] =
(3m) = m,
1
4
1
5
(4m) = m ,
4
(4m) =
5
각 추정량의 편의 :
∧
bias1 = E(m1) – m = 0,
∧
∧
불편추정량 : m
1 , m2
편의추정량 : ∧m3
∧
bias2 = E(m2) – m = 0,
∧
bias3 = E(m3) – m = -
1
5
m
m
모집단으로부터 크기 10인 확률표본을 다음과 같이 얻었다.
[
2.62 2.69 2.71 2.73 2.66 2.64 2.81 2.78 2.76 2.84 ]
이 표본을 이용하여 모평균 m와 모분산 s2의 불편추정값
표본평균과 표본분산이 각각 모평균과 모분산의 불편추정량이므로
모평균의 불편추정값 :
∧
m=x
1
= 10 (2.62 + 2.69 + 2.71 + 2.73 + 2.66 + 2.64 + 2.81 + 2.78 + 2.76 + 2.84 )
= 2.724
모분산의 불편추정값 :
s∧ 2 = s2 =
1
S(xi – 2.724)2 = 0.0054
9
☞ 3) 유효성(efficiency)
∧
∧
∧
모수 q에 대한 점추정량들 Q1, Q2, …, Qn에 대하여
∧
∧
∧
∧
Var(q) = min{ Var(Q1), Var(Q2), … , Var(Qn)}
∧
일 때, 추정량 Q를 q의 유효추정량(efficient estimator)
∧
∧
∧
추정량 Q의 표준오차(standard error) : S.E(Q) = Var(Q)
모수 q에 대한 유효추정량 :
∧
∧
∧
∧
S.E(Q) = min{ S.E(Q1), S.E(Q2), … , S.E(Qn)}
예제 1의 불편추정량들 중에서 모평균 m에 대한 유효추정량 ?
∧
Var(m1 ) =
=
∧
Var(m
2)=
=
1
9
1
9
1
16
1
16
Var(X1 + X2 + X3) =
(3s2) =
1
3
1
9
s2,
Var(X1 + 2X2 + X3) =
(6s2) =
3
8
[Var(X1) + Var (X2) + Var (X3)]
1
16
[Var(X1) +4 Var (X2) + Var (X3)]
s2
Var(m∧ 1) < Var(m∧ 2)
∧
불편성을 갖는 유효추정량 : m
1=
1
3
(X1 + X2 + X3)
▶ 최소분산불편추정량(minimum variance unbiased estimator;
MVUE) : 가장 작은 분산을 가지는 불편추정량
~
(1) 표본평균 X가 표본중앙값 X보다 더 좋은 효율성을 갖는다.
(2) 표본의 크기가 클수록 유효성이 크다
1
; Xn = n (X1 + X2 + … + Xn) ,
X2n =
1
(X + X2 + … + X2n)
2n 1
1 2
1
Var(Xn ) = 2 Var(X1 + X2 + … + Xn) = n s
n
1
Var(X2n ) = 2 Var(X1 + X2 + … + X2n) = 1 s2
4n
2n
Var(X2n ) < Var(Xn ) ;
X2n이 Xn에 비하여 유효성을 갖는다.
불편성 : E(Xn ) = E(X2n ) = m
평균 m와 분산 s2을 갖는 확률변수들 X1, X2에 대하여,
m에 대한 점추정량
∧
m
= a1X1 + a2X2 , a1, a2 : 양의 실수
∧
(1) m가
모평균 m에 대한 불편추정량이 되기 위한 a1, a2의 조건
∧
(2) m가
최소분산을 갖기 위한 a1, a2 =?
∧
∧
(1) m가
모평균 m에 대한 불편추정량이므로 E(m)
=m
∧
E(m)
= E(a1X1 + a2X2 ) = a1E(X1) + a2E(X2 ) = a1m + a2 m = (a1 + a2)m
a1 + a2 = 1
a1 + a2가 최소일 때,
∧
Var(m) 가 최소
∧
∧
(2) m가
최소분산을 갖기 위하여,
∧
Var(m) = Var(a1X1 + a2X2 ) = a21Var(X1) + a22Var(X2 ) = (a12+ a22)s2
2
a1 + a2 = a1 + (1 – a1 ) = 2
a1 -
1
2
2
+
1
2
: 최소
a1 = a2 =
1
2
모평균 m에 대한 최소분산불편추정량
일반적으로, 평균 m와 분산 s2을 갖는 확률변수들 X1, X2 , … , Xn 에 대하여,
m에 대한 점추정량을
m∧ = a1X1 + a2X2 + … + anXn
이라 하면, a1 = a2 = … = an = 1/n일 때 최소분산불편추정량이다.
즉, 표본평균 X =
1
n
S Xi는 모평균 m에 대한 최소분산불편추정량이다.
벽걸이 TV 두께에 대한 표본 :
조사된 표본으로부터 최소분산을 갖는 불편추정량 X를 이용하여, 이 회사에서
생산되는 TV의 두께에 대한 평균 두께를 추정
∧
m
=x=
1
(121 + 122 + 119 + 120 + 123 + 121 + 121 + 119 + 120 + 121)
10
= 120.7
☞ 4) 일치성(consistency)
∧
모수 q를 추정하기 위한 크기 n인 표본으로부터 얻은 추정량 Qn에 대하여,
∧
크기 n이 커질수록 Qn가 모수 q에 근접하는 경우, 즉 임의의 양수 e에 대하여
∧
lim P(|Qn- q | ≥ e) = 0
n→∞
∧
을 만족할 때, 추정량 Qn을 모수 q에 대한 일치추정량(consistent estimator)
이라 한다.
Chebyshev 부등식에 의하여
• E(X) = m, Var(X) = s2/n 이므로
P(|X – m| ≥ e) ≤
lim P(|X – m| ≥ e
n→∞
•
X
Var(X)
e2
s2
= 2
ne
s2
) ≤ lim
=0
n→∞ ne2
n-1 2
2s4
2
2
S ~ c (n-1)이므로 Var(S ) =
n-1
s2
Var(S2)
2s4
2
2
=
P(|S – s | ≥ e) ≤
2
(n-1)e2
e
2s4
2
2
lim P(|S – s | ≥ e ) ≤ lim
=0
2
n→∞
n→∞ (n-1)e
일치추정량
S2
∧
n→∞
p(1-p)
=0
2
ne
모분산
s2에 대한
일치추정량
p
lim P(|p – p|≥ e ) ≤ lim
n→∞
m에 대한
∧
∧
• Var(p) = p(1-p)/n이므로
모평균
모비율
p에 대한
일치추정량
서로 다른 기대값과 분산을 가지는 두 점추정량을 비교하는데 유용한 방법
∧
∧
모수 q에 대한 두 점추정량 Q1, Q2에 대하여
∧
∧
bias(Q1) < bias(Q2)
∧
∧
Var(Q1) > Var(Q2)
⊙ 평균제곱오차(mean square error; M.S.E)
∧
∧
M.S.E(Q) = E[(Q – q)2 ]
∧
∧
∧
= E[{Q – E(Q)}2] + {E(Q) – q}2
∧
∧
= Var(Q) + bias(Q)2 : 추정량의 분산과 편의의 제곱의 합
∧
∧
(1) Q가 불편추정량이면, Q의 평균제곱오차는 이 추정량의 분산과 일치한다.
(2) 평균제곱오차가 작은 점추정량이 평균제곱오차가 큰 점추정량에 비하여
보다 더 바람직한 점추정량이다.
∧
∧
모수 q에 대한 점추정량 Q1와 Q2가 각각 다음과 같은 정규분포를 이룬다고 하자.
∧
∧
Q1 ~ N((1.2)q, (0.02)q2) , Q2 ~ N((0.9)q, (0.04) q2)
(1) 모수 q로부터 편의가 작은 점추정량은?
(2) 두 점추정량 중에서 어느 것이 더 폭넓게 분포하는가?
(3) 어느 점추정량이 모수 q에 대한 추정량으로써 바람직한가?
∧
(1) bias1 = E(Q1) – q = (1.2)q – q = (0.2)q
∧
Q2의 편의가 더 작다
∧
bias2 = E(Q2) – q = (0.9)q – q = -(0.1)q
∧
∧
∧
(2) Q2의 분산이 Q1의 분산보다 더 크므로 Q2가 더 폭넓게 나타난다.
(3)
∧
∧
∧
∧
M.S.E(Q1) = Var(Q1) + (bias1)2 = (0.02) q2 + (0.04) q2 = (0.02) q2
M.S.E(Q2) = Var(Q2) + (bias2)2 = (0.04) q2 + (0.01) q2 = (0.05) q2
∧
Q2가 모수 q에 대한 추정량으로써 바람직하다.
표본에 따른 추정값
표본 1
모집단의 분포
표본 2
x1
m
x2
추정값
참값
추정값
점추정에 의한 모수의 추정은 표본이 어떻게 선정되느냐에 따라 잘못
추정하는 오류를 범할 수 있다.
▶ 구간추정(interval estimate) : 모수 q의 참값이 포함되리라고
믿어지는 구간을 추정하는 방법
▶ 신뢰수준(confidence level), 신뢰도(degree of confidence)
: 모수 q의 참값이 추정한 구간 안에 포함될 것으로 믿어지는
미리 정해 놓은 확신의 정도로 일반적으로 1-a로 나타낸다.
▶ 구간추정량(interval estimator) : 신뢰도 1-a에서 모수 q에
대한 두 통계량 L(X1,X2,…,Xn), U(X1,X2,…,Xn)을 적당히 취하여,
P(L < q < U) = 1 – a
일 때, 구간 (L(X1,X2,…,Xn), U(X1,X2,…,Xn))을 모수 q에 대한
구간추정량이라 한다.
▶ 신뢰구간(confidence interval) : 표본으로부터 얻은 관찰값
X1 = x1, X2 = x2, …, Xn = xn에 대한 통계량의 측정값이
l(x1, x2, …, xn ), u(x1, x2, …, xn )
일 때, 구간 (l, u)를 모수 q에대한신뢰도 1-a의 신뢰구간,
L을 신뢰구간의 하한, u를 신뢰구간의 상한이라 한다.
참 고
(1) 보편적으로, 신뢰수준은 a = 0.1, 0.05, 0.01 즉, 90%, 95%, 99%의 신뢰
도를 많이 사용한다.
∧
(2) 신뢰구간은 모수 q에 대한 점추정값 q을 중심으로 갖는 구간을 선택한
다.
(3) 신뢰도 90%라 함은 10개의 표본을 임의로 추출하여 모수 q에 대한 신
뢰구간을 구할 경우, 10개 중에서 9개의 신뢰구간은 모수 q의 참값을
포함하고 나머지 1개의 신뢰구간은 모수 q의 참값을 포함하지 않음을
의미한다.
예
모분산 s2을 아는 경우, 모평균 m에 대한 신뢰도
100(1-a)%의 신뢰구간
X의 표본분포
a/ 2
1-a
[------------------------- x -------------------------]
점추정값
a/ 2
예
모분산 s2을 아는 경우, 모평균 m에 대한 신뢰도
100(1-a)%의 신뢰구간의 의미
90%의 신뢰구간
0.05
X의 확률분포
0.90
[-------------------m
m를 포함하는
구간
0.05
x1 --------------------]
m를 포함하지
않는 구간
…
[-------------------- x2 --------------------]
[-------------------- x3 --------------------]
[-------------------- x --------------------]
[-------------------- x10--------------------]
4
2
모평균의 구간추정
모분산이 알려진 경우와 모르는 경우에 대한 모평균의 구간
추정과 두 모집단의 평균의 차에 대한 구간추정하는 방법에
대하여 알아본다.
☞ 1) 모분산이 알려진 경우
n개를 임의추출
x1
N(m, s2 )
s2 : 기지
x2
xn
점추정량 :
1 n
∧
m = X = n S Xi
i=1
s2
표본평균 : X ~ N m,
n
(
)
표준오차 : S.E(X) = Var(X) =
표준화
s
n
Z=
X-m
~ N(0, 1)
s/ n
P(|Z| < za/2) = P
(
X-m
s za/2
< za/2 = P |X – m| <
= 1- a
n
s/ n
) (
)
|X – m|에 대한 100(1-a)% 오차한계
신뢰구간의 상한•하한
x ±za/2
a/ 2
s
n
1 - a : 신뢰수준
1-a
a/ 2
x : 표본평균
s : 모표준편차
s za/2
n
[-------------------------
s za/2
n
x -------------------------]
m에 대한 100(1-a)% 신뢰구간
n : 표본의 크기
za/2 : 표준정규분포에서
상단 꼬리확률이 a/2인
임계점
z0.05 = 1.645
z0.025 = 1.96
z0.005 = 2.58
P
P
P
(
s
X-m
< 1.645 = P |X – m| < 1.645 n
s/ n
(
s
X-m
< 1.96 = P |X – m| < 1.96 n = 0.95
s/ n
(
s
X-m
< 2.58 = P |X – m| < 2.58 n = 0.99
s/ n
) (
) (
) (
) = 0.90
)
)
|X – m|에 대한 오차한계
모분산을 알고 있는 경우, m에 대한 100(1-a)% 신뢰구간
신뢰수준
(1- a)
신뢰구간
하한
상한
0.90(a = 0.1)
x – 1.645 s/ n
x + 1.645 s/ n
0.95(a = 0.05)
x – 1.96 s/ n
x + 1.96 s/ n
0.99(a = 0.01)
x – 2.58 s/ n
x + 2.58 s/ n
x
x - 1.645 s/ n
x - 1.96 s/ n
x - 2.58 s/ n
90%신뢰구간
95%신뢰구간
99%신뢰구간
x + 1.645 s/ n
x + 1.96 s/ n
x + 2.58 s/ n
모표준편차가 0.2인 정규모집단에서 10개의 자료를 표본으로 추출한 결과 :
[0.27, 0.34, 0.34, 0.36, 0.30, 0.28, 0.41, 0.35, 0.48, 0.43]
(1) 모평균에 대한 점추정값 ?
(2) |X – m|에 대한 95% 오차한계 ?
(3) 모평균 m에 대한 95% 신뢰구간 ?
(1) ∧m = x
1
= 10 (0.27 + 0.34 + 0.34 + 0.36 + 0.30 + 0.28 + 0.41 + 0.35 + 0.48 + 0.43)
= 0.356
(2) n=10, s = 0.2이므로 m에 대한 95% 오차한계 :
1.96
s
n
=
(3) x = 0.356, S.E(x) =
(1.96) •(0.2)
= 0.124
10
s
n =
0.2
= 0.063
10
이므로 m에 대한 95% 신뢰구간의 하한, 상한 :
하한 : l = x – (1.96) • S.E(x) = 0.356 – 0.123 = 0.233
상한 : u = x + (1.96) • S.E(x) = 0.356 + 0.123 = 0.479
m에 대한 95% 신뢰구간 :
(0.233, 0.479)
☞ 2) 모분산이 알려져 있지 않은 경우
n개를 임의추출
x1
N(m, s2 )
s2 : 미지
xn
점추정량 :
1 n
∧
m = X = n S Xi
i=1
표본분산 s2으로 대치
s2
표본평균 : X ~ N m,
n
(
x2
)
표준오차 : S.E(X) = Var(X) =
s
n
T=
X-m
~ t(n - 1)
s/ n
(
P
s
X-m
t (n-1) = 1- a
< ta/2(n-1) = P |X – m| <
n a/2
s/ n
) (
)
|X – m|에 대한 100(1-a)% 오차한계
신뢰구간의 상한•하한
t(n-1)의 분포
x ± ta/2(n-1)
s
n
1 - a : 신뢰수준
a/ 2
1-a
s t (n-1)
a/2
n
[-------------------------
s t (n-1)
a/2
n
x
-------------------------]
m에 대한 100(1-a)% 신뢰구간
a/ 2
x : 표본평균
s : 표본표준편차
n : 표본의 크기
ta/2(n-1) : t -분포에서
상단 꼬리확률이 a/2인
임계점
(
X-m
< t0.05(n-1) = P |X – m| < t0.05 (n-1)
s/ n
P
(
X-m
< t0.025 (n-1) = P |X – m| < t0.025 (n-1)
s/ n
) (
s
= 0.95
n
P
(
X-m
< t0.005 (n-1) = P |X – m| < t0.005 (n-1)
s/ n
s
= 0.99
n
P
) (
) (
|X – m|에 대한 90% 오차한계 :
|X – m|에 대한 95% 오차한계 :
|X – m|에 대한 99% 오차한계 :
s
= 0.90
n
)
)
)
s
n
s
t0.025 (n-1) n
s
t0.005 (n-1) n
t0.05 (n-1)
모분산을 모르는 경우, m에 대한 100(1-a)% 신뢰구간
신뢰수준
(1- a)
신뢰구간
하한
상한
0.90(a = 0.1)
x – t0.05(n-1) s / n
x – t0.05(n-1) s / n
0.95(a = 0.05)
x – t0.025(n-1) s / n
x – t0.025(n-1) s / n
0.99(a = 0.01)
x – t0.005(n-1) s / n
x – t0.005(n-1) s / n
t(n-1)의 분포
x
x – t0.05(n-1) s/ n
x - t0.025(n-1) s/ n
x - t0.005(n-1) s/ n
90%신뢰구간
95%신뢰구간
99%신뢰구간
x + t0.05(n-1) s/ n
x + t0.025(n-1) s/ n
x + t0.005(n-1) s/ n
N(m, s2)인 정규모집단에서 크기 5인 표본을 추출한 결과 :
[2.9, 2.5, 3.7, 3.0, 2.8]
(1) 모평균에 대한 점추정값 ?
(2) |X – m|에 대한 95% 오차한계 ?
(3) 모평균 m에 대한 95% 신뢰구간 ?
∧
(1) m = x =
1
(2.9 + 2.5 + 3.7 + 3.0 + 2.8) = 2.98
5
(2) 표본분산 : s2 =
S.E(x) =
s
n =
t0.025(4) = 2.776
1
2
S
(x
–
2.98)
= 0.197 ,
i
4
0.4438
= 0.1985
5
s = 0.197 = 0.4438
오차한계 :
t0.025(4)
s
n
= (2.776)•(0.1985) = 0.551
(3) x = 2.98, 오차한계 d = 0.551이므로 95% 신뢰구간의 하한, 상한 :
하한 : l = x – t0.025(4) • S.E(x) = 2.98 – 0.551 = 2.429
m에 대한 95% 신뢰구간 :
상한 : u = x + t0.025(4) • S.E(x) = 2.98 + 0.551 = 3.531
(2.429, 3.531)
☞ 3) 모분산을 모르는 모집단에서 대단위 표본을 추출하는 경우
표본평균 X는 중심극한정리에 의하여 정규분포에 근사
s2 → s2으로 수렴하므로
X-m .
~ N(0, 1)
s/ n .
z -추정에 의하여 근사적으로 모평균에 대한 신뢰구간을 구한다.
전국
평균
만일
전국
100세 이상 노인 103명을 대상으로 2002년 10월에 조사된 자료에 의하면,
혈중 콜레스테롤이 174.6㎎/㎗로 나타났다.
이 자료에서 표준편차가 12㎎/㎗으로 나타난다 할 때,
100세 이상 노인의 평균 혈당치에 대한 95% 신뢰구간
x = 174.6, n = 103, s = 12이므로 S.E(x) = s/ n = 1.183
95% 신뢰구간의 하한, 상한 :
하한 : l = x – (1.96) • S.E(x) = 174.6 – 2.317 = 172.283
m에 대한 95% 신뢰구간 :
상한 : u = x + (1.96) • S.E(x) = 174.6 + 2.317 = 176.917
(172.283, 176.917)
☞ 4) 단측 신뢰구간
모평균이 어떤 값 이상 또는 이하인 경우, 신뢰도 100(1 - a)%에서 표본
평균 x0 이상 또는 이하로 나타나는 신뢰구간
(A) 모분산을 아는 경우
X-m
~ N(0, 1)
s/ n
Z=
P
하한 신뢰경계
(
X-m
s
< za = P m > X - n za = 1- a
s/ n
(
X-m
s/ n
P
) (
)
(
> -za = P m < X +
)
s z
n a = 1- a
)
m에 대한 100(1-a)% 상단측신뢰구간 :
m에 대한 100(1-a)% 하단측신뢰구간 :
(x (-∞,
상한 신뢰경계
)
s z
)
n
s z
n a ,∞
x+
a
과거 자료에 의하면 어느 제조회사에서 생산된 mp3의 수명 ~ N(m, 102)
51개의 mp3를 임의로 선정하여 수명을 측정한 결과 : 평균 374일
이 회사에서 생산된 mp3의 평균수명에 대한 95% 하한신뢰경계와 단측신뢰구간
x = 374, n = 51, s = 10, z0.05 = 1.645이므로
95% 하한신뢰경계 :
s z
= 374 – (1.4002)• (1.645) = 371.1
l= xn 0.05
m에 대한 95% 신뢰구간 : (371.7, ∞),
즉, 평균수명이 371.7일 이상으로 추정
(B) 모분산을 모르는 경우
X-m
~ t(n - 1)
s/ n
T=
하한 신뢰경계
P
(
P
s
X-m
< ta(n-1) = P m > X - ta(n-1) n = 1- a
s/ n
( s/X - nm
) (
) (
> - ta(n-1) = P m < X + ta(n-1)
m에 대한 100(1-a)% 상단측신뢰구간 :
m에 대한 100(1-a)% 하단측신뢰구간 :
)
s
n
(x (-∞,
) = 1- a
상한 신뢰경계
s
t (n-1), ∞
n a
x+
)
)
s t (n-1)
n a
예제 6에서, 이 회사에서 mp3를 처음 생산
51개의 mp3를 임의로 선정하여 수명을 측정한 결과 : 평균 374일, 표준편차 12일
이 회사에서 생산된 mp3의 평균수명에 대한 95% 하한신뢰경계와 단측신뢰구간
x = 374, n = 51, s = 10, t0.05(50) = 1.676이므로
95% 하한신뢰경계 :
l= x-
s
t (50)= 374 – (1.6803)• (1.676) = 371.18
n 0.05
m에 대한 95% 신뢰구간 : (371.18, ∞),
즉, 평균수명이 371.18일 이상으로 추정
☞ 5) 두 모평균의 차에 대한 신뢰구간
(A) 두 모분산을 아는 경우
x1
N(m1, s1 )
2
n개
N(m2, s2)
2
m개
s12
표본평균 : X ~ N m1,
n
)
s22
표본평균 : Y ~ N m2,
m
)
(
표본평균 : X
y2
표본평균 : Y
xn
y1
(
x2
ym
m1 - m2에 대한 100(1 - a)%
신뢰구간 ?
X – Y의 확률분포 :
표준화
s12 s22
X – Y ~ N m1 - m2,
n +m
(
(X – Y ) – (m1 - m2 )
s12 s22
n +m
표준오차 : S.E(X - Y) = Var(X - Y) =
~ N(0, 1)
s12 s22
n +m
)
(X – Y ) – (m1 - m2 )
P
s12 s22
n +m
< za/2
= P (X – Y ) – (m1 - m2 ) < za/2
s12 s22
n +m
=1-a
|(X-Y) – (m1-m2)|에 대한 오차한계
|(X-Y) – (m1-m2)|에 대한 90% 오차한계 : (1.645)•
s12 s22
n +m
(1.96)•
s12 s22
n +m
(2.58)•
s12 s22
n +m
|(X-Y) – (m1-m2)|에 대한 95% 오차한계 :
|(X-Y) – (m1-m2)|에 대한 99% 오차한계 :
m1-m2에 대한 100(1-a)% 신뢰구간 :
(x – y – z
a/2
s12 s22
,
n +m
x – y + za/2
s12 s22
n +m
)
두 모분산을 알고 있는 경우, m1-m2에 대한 100(1-a)% 신뢰구간
신뢰수준
(1 – a)
0.9(a = 0.1)
신뢰구간
하한
x – y - (1.645)•
상한
s22
s12
+
m
n
x – y + (1.645)•
s22
s12
+
m
n
0.95(a = 0.05)
x – y -(1.96)•
s22
s12
+
m
n
x – y +(1.96)•
s22
s12
+
m
n
0.99(a = 0.01)
x – y -(2.58)•
s22
s12
+
m
n
x – y +(2.58)•
s22
s12
+
m
n
대도시와 중소도시의 무연 휘발유 가격에 차이가 있는가 ?
대도시 표본 : [1.69, 1.79, 1.68, 1.72, 1.66, 1.73, 1.59, 1.78, 1.72, 1.63, 1.55, 1.85]
중소도시 표본 : [1.46, 1.47, 1.42, 1.51, 1.55, 1.52, 1.48, 1.47, 1.53, 1.50]
단, 중소도시와 대도시의 휘발유 가격은 각각 독립이고,
모표준편차가 각각 0.03과 0.08인 정규분포를 이룬다
(1) 대도시와 중소도시의 평균 가격의 차에 대한 점추정값 ?
(2) 두 도시의 표본평균의 차에 대한 표준오차 ?
(3) 휘발유 평균가격의 차에 대한 90% 신뢰구간 ?
(1) 대도시와 중소도시의 표본평균을 각각 X와 Y라 하면,
점추정값 : x = 1.7023, y = 1.4910
m1 - m2의 점추정값 : x – y = 1.7023 – 1.4910 = 0.2113
(2) s21 = (0.03)2, s22= (0.08)2, n = 12, m = 10이므로
S.E(X – Y) =
s12 s22
=
n +m
(0.03)2 (0.08)2
+
= 0.000715 = 0.027
12
10
(3) 하한 : l = x – y - (1.645)• S.E(X – Y) = 0.2113 – (1.645)•(0.027) = 0.1669
상한 : u = x – y + (1.645)• S.E(X – Y) = 0.2113 + (1.645)•(0.027) = 0.2557
m1 - m2에 대한 90% 신뢰구간 : (0.1669, 0.2557)
(B) 두 모분산을 모르는 경우 (s12 = s22 = s2 : 미지)
x1
N(m1, s1 )
2
n개
xn
y1
N(m2, s2)
2
합동표본분산 :
표본평균 : X
x2
m개
S2p =
=
표본분산 :
표본분산 :
n
[ S (X – X )
i=1
1 n
S (Xi – X )2
n-1 i = 1
표본평균 : Y
y2
ym
1
n+m-2
S21 =
i
2
m
S22 =
1 m
S (Yj – Y )2
m-1 j = 1
+ S (Yj – Y )2
j=1
1
2
[(n-1)S12 + (m-1)S2]
n+m-2
]
합동표본분산 sp2으로 대치
X – Y의 확률분포 :
(
1
X – Y ~ N m1 - m2, n1 + m
s2
X – Y – (m1 – m2)
1
sp•
표준오차 : S.E(X – Y) = sp•
P
X – Y – (m1 – m2)
sp•
1
1
n +m
(
1
n +m
1
)
s2 : 미지
~ t(n + m - 2)
1
n +m
< ta/2(n+m-2)
=P |X – Y – (m1 – m2)|< ta/2(n+m-2) sp•
1
1
n +m
)= 1 - a
|X – Y – (m1 – m2)|에 대한 100(1-a)% 오차한계
두 모분산을 모르는 경우, m1 - m2에 대한 100(1-a)% 신뢰구간
( (x – y) – t
a/2(n+m-2) sp•
1
1 ,
+
n
m
(x – y) + ta/2(n+m-2) sp•
1
1
n +m
)
남학생과 여학생의 몸무게는 각각 동일한 분산을 갖는 정규분포를 이룬다.
두 그룹에서 각각 4명씩을 임의로 추출하여 조사한 결과
(1)
(2)
(3)
(4)
남학생
64
66
69
72
여학생
46
47
53
53
두 그룹의 평균 몸무게의 차에 대한 점추정값 ?
X – Y의 표준오차 ?
|X – Y –(m1 – m2)|에 대한 90% 오차한계 ?
남학생과 여학생의 평균 몸무게의 차에 대한 90% 신뢰구간 ?
(1) 남학생과 여학생 각각의 표본평균 : x = 67.75, y = 49.75
평균 몸무게의 차에 대한 추정값 : x - y = 67.75 - 49.75 = 18
(2) 두 표본의 표본분산과 합동표본분산 :
1 4
=
S (xi – 67.75)2 = 12.25
3 i=1
1 4
sY2 =
S (yi – 49.75)2 = 14.25
3 i=1
sX2
sp2 =
3•(12.25) + 3•(14.25)
1
[(n-1)sX2 + (m-1)sY]2 =
= 13.25
n+m-2
4+4-2
sp = 13.25 = 3.64
표준오차 : S.E(X – Y) = sp•
1
1 = (3.64)•
+
n
m
1
1 = 2.574
4 + 4
(3) 자유도 = 6, t0.05(6) = 1.943
|X – Y –(m1 – m2)|에 대한 90% 오차한계 :
d = t0.05(6)•S.E(x-y) = (1.943)•(2.574) = 5.001
(4) 평균 몸무게의 차에 대한 90% 신뢰구간의 하한, 상한 :
하한 : l = x – y – t0.05(6) sp•
상한 : u = x – y + t0.05(6) sp•
1
1 = 18 – 5.001 = 12.999
+
n
m
1
1 = 18 + 5.001 = 23.001
+
n
m
90% 신뢰구간 : (12.999, 23.001)
3
모분산과 모비율의 추정
모분산, 모비율에 대한 구간추정 방법과 두 모집단의 모비율
의 차, 모분산의 비(ratio)에 대한 구간추정 방법 등에 대하여
알아본다.
☞ 1) 모분산에 대한 구간추정
n개
x1
N(m, s2 )
x2
표본분산 : S2 =
xn
1 n
S (Xi – X )2
n-1 i = 1
S2: 모분산 s2에 대한 최소분산불편추정량, 일치추정량
s2을 추정하기 위하여 표본분산 S2을 이용
(n-1)S2
~ c2(n-1)
추정분포 : V =
2
s
E(S) < s
S는 s에 대한 편의추정량
n ≥ 10이면, 편의를 무시할 수 있음.
s를 추정하기 위하여 표본표준편차 S를 이용
2
c1-
(n-1) , c2/2 (n-1)에 대하여
/2
2
(n-1)S
P c 1-a/2 (n-1) <
<
s2
(
2
c2a/2(n-1)
)= 1 - a
또는
P
(
2
(n-1)S
2
ca/2(n-1)
2
< s <
2
(n-1)S
2
c 1-a/2 (n-1)
)= 1 - a
신뢰구간의 상한•하한
(n-1)S2
2
ca/2
(n-1)
,
(n-1)S2
c21-a/2 (n-1)
1 - a : 신뢰수준
S2 : 표본분산
n : 표본의 크기
2
ca/2
: 카이제곱분포에서
상단 꼬리확률이 a/2인
임계점
c21-a/2 : 카이제곱분포에
서 하단 꼬리확률이 a/2
인 임계점
모분산 s2에 대한 100(1-a)% 신뢰구간
(
(n-1)s2
,
c2a/2(n-1)
(n-1)s2
c21-a/2 (n-1)
)
모표준편차 s에 대한 100(1-a)% 신뢰구간
(
신뢰수준
(1 – a)
0.9(a = 0.1)
0.95(a = 0.05)
0.99(a = 0.01)
(n-1)s2
c2 (n-1)
a/2
,
(n-1)s2
c21-a/2 (n-1)
)
신뢰구간
하한
상한
(n-1)s2
(n-1)s2
2
c0.05
(n-1)
(n-1)s2
2
c0.025
(n-1)
(n-1)s2
2
c0.005
(n-1)
2
c0.95
(n-1)
(n-1)s2
c20.975 (n-1)
(n-1)s2
2
c0.995
(n-1)
정규모집단 N(m, s2)에서 크기 10인 표본을 추출한 결과 :
[2.9 2.5 3.4 3.0 2.8 2.9 3.1 2.8 2.8 2.9]
(1) 모분산의 점추정값
(2) s2에 대한 95% 신뢰구간
(1) 표본평균 : x = 2.91
1 10
0.489
표본분산 : s =
S (xi – 2.91)2 =
= 0.1223
4
9 i=1
2
∧
모분산에 대한 점추정값 : s2 = 0.1223
2
2
(2) 크기 10인 표본이므로, c0.025
(9) = 19.02, c0.975
(9) = 2.70
s2에 대한 95% 신뢰구간 :
(
(n-1)s2
c2a/2(n-1)
,
(n-1)s2
c21-a/2 (n-1)
) =(
9•(0.1223)
,
19.02
9•(0.1223)
2.7
) = (0.0579, 0.4077)
☞ 2) 모비율에 대한 구간추정
n개
성공률 : p
성공의 수 :
x
B(1, p)
∧
E(p)
= E(X/n) = p
∧
Var(p) = Var(X/n) =
실패의 수 :
p(1-p)
n
n-x
x
∧
표본비율 : p = n
표본의 크기 n이 충분히 크다면,
np > 5, n(1-p) > 5이면
중심극한정리에 의하여
∧ .
표본비율의 확률분포 : p ~. N p, p(1-p)
n
(
)
∧
Z=
p-p
~ N(0, 1)
p(1-p)
n
∧
P(-za/2 < Z < za/2) = P -za/2 <
=P
∧
P |p – p| < za/2 •
∧
p-p
p(1-p)
n
< za/2
p - za/2 •
p(1-p)
n
p(1-p)
n
=1-a
|p∧ – p|에 대한 100(1-a)% 오차한계
< p < p∧ + za/2 •
p(1-p)
n
=1-a
참고
1
p(1-p)
=
n
n
x(n-x)
n
.
∧
p : 모비율 p에 대한 불편추정량, 일치추정량 p∧ =. p
∧
표준오차 : S.E(p) =
p(1-p)
n
=
1
n
∧
p로 대치함
x(n-x)
n
신뢰구간의 상한•하한
p ± za/2 •
∧
1-a
a/2
a/2
∧
∧
p(1-p)
n
1 - a : 신뢰수준
∧
p : 표본비율
n : 표본의 크기
za/2
•
∧
p(1-p)
n
∧
za/2 •
∧
∧
p(1-p)
n
∧ -------------------------]
[------------------------- p
p에 대한 100(1-a)% 신뢰구간
za/2 : 표준정규분포에서
상단 꼬리확률이 a/2인
임계점
z0.05 = 1.645
z0.025 = 1.96
z0.005 = 2.58
(
P |p∧ – p| < (1.645)•
(
P |p∧ – p | < (1.96)•
(
∧
P |p – p | < (2.58)•
∧
∧
p(1-p)
n
∧
∧
p(1-p)
n
∧
∧
p(1-p)
n
)= 0.90
) = 0.95
) = 0.99
|p∧ – p|에 대한 오차한계
모비율 p에 대한 100(1-a)% 신뢰구간
(
∧
p - za/2 •
(
p-
∧
za/2
n
•
∧
∧
p(1-p)
,
n
p + za/2 •
x(n-x) ,
n
p+
∧
∧
za/2
n
•
∧
∧
p(1-p)
n
x(n-x)
n
)
신뢰구간
신뢰수준
(1 – a)
하한
∧
∧
∧
p(1-p)
n
상한
∧
p + (1.645) •
0.9(a = 0.1)
p - (1.645) •
0.95(a = 0.05)
p∧ - (1.96) •
∧
∧
p(1-p)
n
∧
p + (1.96) •
∧
∧
∧
p + (2.58) •
0.99(a = 0.01)
)
p - (2.58) •
∧
p(1-p)
n
∧
∧
p(1-p)
n
∧
∧
p(1-p)
n
∧
∧
p(1-p)
n
새로 개발된 50나노 디램의 신뢰성을 조사하기 위하여
200개를 임의로 추출하여 2,000시간을 사용한 결과 :
2,000시간 동안 정상적으로 작동한 램 : 195개
이 회사에서 제조된 전체 램을 모집단으로 하여,
(1) 이 회사에서 제조된 램이 정상적으로 작동할 비율 p의 점추정값
∧
(2) 표본비율 p의
표준오차
(3) |p∧ – p|에 대한 95% 오차한계
(4) 모비율 p에 대한 95% 신뢰구간
∧
195
(1) 표본비율 : p = 200 = 0.975
∧
(2) 표준오차 : S.E(p) =
(0.975)•(1-0.975) = 0.000122 = 0.011
200
∧
(3) 오차한계 : d = (1.96)• S.E(p) = (1.96)• (0.011) = 0.0216
(4) 95% 신뢰구간의 하한, 상한 :
하한 : l = p∧ - (1.96)•
상한 : u = p + (1.96)•
∧
∧
p(1-p) = 0.975 – 0.0216 = 0.9534
n
∧
∧
p(1-p) = 0.975 + 0.0216 = 0.9966
n
p에 대한 95% 신뢰구간 :
(0.9534, 0.9966)
(
∧
∧
P p - za•
∧
p(1-p) < p
n
)
=1-a,
∧
p
100(1-a)% 하단신뢰경계 : - za•
(
∧
P p < p + za•
∧
∧
∧
∧
∧
∧
p(1-p)
n
)= 1 - a
p(1-p)
n
∧
100(1-a)% 상단신뢰경계 : p + za•
p(1-p)
n
신제품을 개발하여 만족도를 알아보기 위하여 1500개를 생산하여 조사한 결과 :
[725개 제품에 만족한다.]
이 제품을 생산하여 판매할 경우 소비자들의 만족도에 대한 90% 하단신뢰경계
P(Z < 1.28) = 0.8997, P(Z < 1.29) = 0.9015
∧
z0.1 = 1.282, p =
보간법
P(Z < 1.282) = 0.90
725
∧
= 0.483, q = 0.517
1500
만족도에 대한 90% 하단신뢰경계
∧
p - za•
∧
∧
p(1-p) = 0.483 – (1.282)•
n
(0.483)•(0.517) = 0.483 – 0.0167 = 0.4663
1500
☞ 3) 두 모집단의 모비율의 차에 대한 구간추정
n개
성공률 : p1
B(1, p1)
성공의 수 :
x
실패의 수 :
n-x
x
∧
표본비율 : p1 = n
∧ .
p1 ~. N p1, p1 (1-p1)
n
)
y
∧
표본비율 : p2 = m
∧ .
p2 ~. N p2, p2 (1-p2)
n
)
(
m개
성공률 : p2
B(1, p2)
성공의 수 :
실패의 수 :
y
m-y
(
p q
p q
∧
∧ .
표본비율 차의 확률분포 : p1 - p2 ~. N p1 - p2 , 1 1 + 2 2
m
n
(
)
q1 = 1-p1 , q2 = 1-p2
표준화
∧
∧
(p1 - p2) – (p1 - p2)
.
~. N(0, 1)
p1 q1 p2 q2
n + m
p1→ p∧1
q1→ q∧1
p2→ p∧2
q2→ q∧2
∧
∧
(p1 - p2) – (p1 - p2)
∧
p1 q∧1 ∧p2 q∧2
n + m
∧
p : p의 일치추정량
.
~. N(0, 1)
∧
∧
(p1 - p2) – (p1 - p2)
P
∧
∧
∧
< za/2 = 1- a
∧
p1 q1 p2 q2
n + m
(
P
∧
∧
(p1 - p2) – (p1 - p2) < za/2 •
∧
p1 q∧1 ∧p2 q∧2
n + m
) = 1- a
|(p∧1 - p∧2) – (p1 - p2)|에 대한 100(1-a)% 오차한계
∧
∧
p1 – p2 : 모비율 p1 – p2에 대한 점추정량
∧
∧
표준오차 : S.E(p1 – p2) =
∧
p1 q∧1 ∧p2 q∧2
n + m
모비율 p1 – p2에 대한 100(1-a)% 신뢰구간
(
(
∧
p1 q∧1 ∧p2 q∧2 ,
n + m
∧
∧
(p
1 - p2) - za/2 •
x(n-x)
∧
∧
(p
1 p2) - za/2 •
3
n
+
y(m-y)
m
3
,
(p∧ 1 - p∧ 2) + za/2 •
∧
(p∧ 1 - p∧ 2) + za/2 •
x(n-x)
)
p1 q∧1 ∧p2 q∧2
n + m
3
n
y(m-y)
+
m
3
)
x, y : 두 표본에서 성공의 횟수
신뢰구간
신뢰수준
(1 – a)
0.9(a = 0.1)
0.95(a = 0.05)
0.99(a = 0.01)
하한
∧
∧
∧
∧
∧
∧
(p1 - p2) – (1.645)•
(p1 - p2) – (1.96)•
(p1 - p2) – (2.58)•
상한
∧
p1 q∧1
n +
∧
p2 q∧2
m
∧
∧
∧
∧
∧
∧
(p1 - p2) + (1.645)•
∧
p1 q∧1
n +
∧ ∧
p2 q2
m
(p1 - p2) + (1.96)•
∧
∧ ∧
(p1 - p2) + (2.58)•
p1 q∧1
n +
p2 q2
m
∧
p1 q∧1
n +
∧
p2 q∧2
m
∧
p1 q∧1
n +
∧ ∧
∧
∧ ∧
p1 q∧1
n +
p2 q2
m
p2 q2
m
작년에 R&D 업종에 종사하는 500명의 근로자를 무작위하게 선정하여,
그들 중에서 178명이 연봉 72,000(천원) 이상을 받았다. 그리고 올해 R&D에
종사한 450명의 근로자 중에서 220명이 연봉 72,000(천원) 이상을 받았다고 한다.
(1) p1과 p2를 작년과 올해 R&D에 종사한 근로자 중에서 연봉 72,000(천원)을
받은 사람의 비율이라 할 때, p1과 p2 그리고 p1 – p2의 추정값
(2) p2 – p1에 대한 95% 신뢰구간을 구하여라.
(1) 작년에 500명 중에서 연봉 72,000(천원) 이상을 받은 사람이 178명이므로
p1의 추정값 : p∧1 = 178/500 = 0.356
올해 450명 중에서 연봉 72,000(천원) 이상을 받은 사람이 220명이므로
∧
p2의 추정값 : p2 = 220/450 = 0.489
p1-p2의 추정값 : p∧1-p∧2 = 0.356 - 0.489 = -0.133
∧
(0.356)•(0.644) (0.489)•(0.5111)
+
500
450
∧
(2) 표준오차 : S.E(p1 – p2) =
=
0.000459 + 0.000555 = 0.032
95% 신뢰구간의 오차한계 :
95% 신뢰구간 :
∧
∧
z0.025 • S.E(p
–
p
1
2) = (1.96)•(0.032) = 0.0627
(-0.133 – 0.0627, -0.133 + 0.0627) = (-0.1957, -0.0703)
☞ 4) 두 모분산의 비(ratio)에 대한 구간추정
N(m1, s21 )
2
표본분산 : SX
n개
2
N(m2, s22 )
표본분산 : SY
m개
표본분산 비의 확률분포 :
S2X /s12
2
SY
/s 2
2
~ F(n-1, m-1)
▶ 분자의 자유도 n-1, 분모의 자유도 m-1인 F-분포에 대한 꼬리확률
 /2인 임계점 :
f1-a/2(n-1,m-1),
(
P f1-a/2(n-1,m-1)<
2
P
2
SX /SY
fa/2(n-1,m-1)
<
fa/2(n-1,m-1)
S2X /s12
2
SY
s12
2
s2
/s 2
)
< fa/2(n-1,m-1) = 1 - a
2
2
<
2
SX /SY
f1-a/2(n-1,m-1)
=1-a
모분산의 비 s21 / s22에 대한 100(1-a)% 신뢰구간
(f
신뢰수준
(1 – a)
0.9(a = 0.1)
0.95(a = 0.05)
0.99(a = 0.01)
2
2
2
SX /SY
a/2(n-1,m-1)
,
2
SX /SY
f1-a/2(n-1,m-1)
)
신뢰구간
하한
s2X /sY2
f0.05(n-1,m-1)
s2X /sY2
f0.025(n-1,m-1)
s2X /sY2
f0.005(n-1,m-1)
상한
s2X /sY2
f0.95(n-1,m-1)
s2X /sY2
f0.975(n-1,m-1)
s2X /sY2
f0.995(n-1,m-1)
컴퓨터 공정라인에서 종사하는 남자와 여자의 작업능률을 비교 결과 :
남·여 근로자를 각각 12명, 10명씩 임의추출 하여,
남자 근로자의 표준편차는 2.3대이고, 여자 근로자의 표준편차는 1.5대
남자와 여자의 모분산의 비에 대한 90% 신뢰구간
남자 근로자의 작업능률에 대한 분산 : s12 = 5.29
여자 근로자의 작업능률에 대한 분산 : s22 = 2.25
s12 / s22 = 5.29 / 2.25 = 2.35
분자·분모의 자유도 : 11과 9
90% 신뢰구간에 대한 임계점 :
f0.05(11, 9) = 3.1,
90% 신뢰구간의 하한 :
90% 신뢰구간의 상한 :
f0.95(11, 9) =
s21 /s22
f0.05
1
f0.05(9, 11)
=
2.35
= 3.1 = 0.758
(11, 9)
s21 /s22
1
= 0.345
2.9
2.35
= 6.812
=
f0.95(11, 9) 0.345
90% 신뢰구간 :
(0.758, 6.812)
4
표본의 크기
주어진 신뢰수준과 오차한계에 맞춰, 가장 효율적으로 모평균
과 모비율을 추정하기 위한 표본의 크기를 구하는 방법에 대
하여 알아본다.
☞ 1) 모평균을 추정하기 위한 표본의 크기
(모분산을 알고 있는 경우)
⊙ 정규모집단에서 크기 n인 표본을 추출할 때, 모평균 m에 대한 100(1-a)%
오차한계
P(|Z| < za/2) = P
(
s
X-m
< za/2 = P |X – m| < za/2 n = 1- a
s/ n
) (
)
|X – m|에 대한 100(1-a)% 오차한계
신뢰구간의 길이 : L = 2za/2 s
n
신뢰구간의 길이가 L0을 넘지 않도록 하기 위한 표본의 크기 :
2za/2
s
n
≤ L0
2za/2
s
L0 ≤
n
za/2 s
4
L0
(
2
)
≤n
모분산이 2로 알려진 모평균에 대한 95% 신뢰구간의 길이가 0.2보다 작게 하기
위한 표본의 크기
95% 신뢰수준에 대한 임계점은 z0.025 =1.96이고, s2 = 2이므로
신뢰구간의 길이가 L0 =0.2보다 작게 하므로 표본의 크기는
za/2 s
n≥ 4
L0
(
2
)
(
(1.96)• 2
=4
0.2
n = 769
2
) = 768.32
☞ 2) 모평균을 추정하기 위한 표본의 크기
(모분산을 모르는 경우)
⊙ 정규모집단에서 크기 n인 표본을 추출할 때, 모평균 m에 대한 100(1-a)%
오차한계
P
(
s
X-m
< ta/2(n-1) = P |X – m| < ta/2(n-1)
= 1- a
n
s/ n
) (
)
|X – m|에 대한 100(1-a)% 오차한계
신뢰구간의 길이 :
L = 2ta/2(n-1)
s
n
신뢰구간의 길이가 L0을 넘지 않도록 하기 위한 표본의 크기 :
2ta/2 s
n
≤ L0
2ta/2 s ≤
L0
n
ta/2 s
4
L0
(
2
)
≤n
s : 사전 실험에 의하여 얻은 표본표준편차
▶ 90%, 95% 그리고 99% 신뢰수준에서 표본을 선택할 경우,
표본의 크기 n이 충분히 크다면, ta/2(n-1) → za/2
t0.05 (n-1) ≤ 1.7, t0.025 (n-1) ≤ 2.1, t0.005 (n-1) ≤ 2.8
신뢰수준(1-a)
임 계 점 ( ta/2(n-1) )
n = 11
n = 21
n = 31
n = 41
n→∞
0.9(a = 0.1)
1.812
1.725
1.697
1.684
1.645
0.95(a=0.05)
2.228
2.086
2.042
2.021
1.960
0.99(a=0.01)
3.169
2.845
2.750
2.704
2.580
1.5리터 페트병에 들어 있는 음료수의 양을 조사 :
크기 21인 표본을 조사하여 95% 신뢰구간 (1.491, 1.507)
95% 신뢰구간의 길이가 0.01보다 작게 하기 위하여 더 필요한 페트병의 수 ?
사전 조사에 의한 신뢰구간의 길이 : L = 1.507-1.491 = 0.016
95% 신뢰수준에 대한 임계값 : t0.025 (20) =2.086
0.016 = 2t0.025(20)
사전조사에 의한 표본표준편차
s
21
s=
(0.016)•(4.583)
2•(2.086)
= 0.018
오차한계 : L0 = 0.01
ta/2 s 2
(2.086)•(0.018)
=
4
4
표본의 크기 : n ≥
L0
0.01
(
) (
2
) = 56.394
길이가 0.01보다 작은 95% 신뢰구간을 얻기 위하여
36개의 음료수 페트병이 더 필요하다.
n = 57
☞ 3) 두 모평균의 차를 추정하기 위한 표본의 크기
⊙ 두 정규모집단에서 크기 n, m인 두 표본을 추출할 때, 모평균의 차 m1 - m2에
대한 100(1-a)% 오차한계 (모분산을 알고 있는 경우)
s12 s22
n +m
P (X – Y ) – (m1 - m2 ) < za/2
=1-a
|(X-Y) – (m1-m2)|에 대한 오차한계
신뢰구간의 길이 : L = 2za/2
s12 s22
n +m
n = m인 경우,
신뢰구간의 길이가 L0을 넘지 않도록 하기 위한 표본의 크기 :
2za/2 •
s12 + s22
≤ L0
n
n=m≥
2
2
4za/2
•(s12+ s2)
L02
⊙ 두 정규모집단에서 동일한 크기 n인 두 표본을 추출할 때, 모평균의 차
m1 - m2에 대한 100(1-a)% 신뢰구간을 구하기 위한 표본의 크기
(모분산을 모르는 경우)
n=m≥
2 (2n-2)•(s 2+ s 2)
4ta/2
1
2
L02
두 회사에서 제조되는 1.5리터 페트병에 들어 있는 음료수 양의 평균 차를 조사.
각각 크기 15인 표본을 조사하여 얻은 결과 :
x = 1.56, s1 = 0.06, y = 1.53, s2 = 0.04
신뢰수준 95%에서 평균의 차에 대한 신뢰구간을 얻기 위하여 추가로 조사해야
할 페트병 수? 단, 신뢰구간의 길이를 0.02보다 작게 한다.
사전 조사에 의하여 두 표본의 표본분산 : s12 = 0.0036, s22 = 0.0016
t0.025 (28)=2.048 , L0 = 0.02
n=m≥
2 (2n-2)•(s 2+ s 2)
4ta/2
1
2
n = m = 219
L02
=
4• (2.048)2 • (0.0036 + 0.0016)
(0.02)
2
= 218.1
두 회사 제품을 각각 204개씩 추가로 더 조사해야 한다
☞ 4) 모비율을 추정하기 위한 표본의 크기
⊙ 크기 n인 표본으로부터 얻은 p에 대한 100(1-a)% 오차한계
∧
P |p – p| < za/2 •
∧
∧
p(1-p)
n
=1-a
|p∧ – p|에 대한 100(1-a)% 오차한계
신뢰구간의 길이 : L = 2za/2 •
∧
∧
p(1-p)
n
신뢰구간의 길이가 L0을 넘지 않도록 하기 위한 표본의 크기 :
2za/2 •
∧
∧
p(1-p) ≤ L
0
n
n≥
2
4za/2
•
∧
∧
p(1-p)
L20
▶ 사전정보가 없는 경우 :
2
1
1
1
p(1-p) = - p +
≤
2
4
4
∧
∧
∧
1
1
∧
최대값 = 4
p∧ = 2 일 때, ∧p(1-p)의
n≥
2
za/2
2
L0
▶ 사전정보 p ≈ p*가 있는 경우 :
2
n ≥ 4za/2
•
p*(1-p*)
L20
대통령 후보의 지지도에 대한 오차범위 ±2.6%에서 95%의 신뢰구간을 구하기
위하여 조사해야 할 유권자의 수 ?
|p∧ - p|≤ 0.026이므로 L0 =2•(0.026) =0.052이고, z0.025 = 1.96
n≥
2
za/2
2
L0
=
(1.96)2
(0.052)2
= 1420.71
n = 1,421
2002년도 대학문화신문이 발표한 자료에 따르면,
서울지역 대학생의 78%가 “강의도중 핸드폰을 사용한 경험이 있다”고 답하였다.
올해 신뢰수준 90%와 오차한계 ±2%에서 이와 같은 항목을 조사하려면,
얼마나 많은 학생을 대상으로 조사하여야 하는가?
90% 신뢰구간에 대한 임계점은 z0.05 =1.645, L = 2•(0.02) = 0.04
사전정보 : p* = 0.78, 1-p* = 0.22
n≥
2
4za/2
•
p*(1-p*)
4•(1.645)2•(0.78)•(0.22)
=
= 1160.88
2
L20
(0.04)
n = 1,161
제8장