Transcript H 0

가설검정
9
1
가설검정
2
모평균의 검정
3
모비율의 검정
4
c2-검정과 모분산의 검정
1
가설검정
가설검정의 의미, 가설의 설정 및 가설의 채택과 기각, 가설
검정을 실시하는 방법 등에 대하여 알아본다.
▶ 가설검정(hypothesis testing) : 모집단 또는 모수에 대한
주장이나 예측에 대하여 이미 설정된 가설과 추출된 표본을 기초
로 얻은 어떤 관찰값에 의하여, 설정된 가설에 대한 타당성을
인정하거나 인정하지 않는 것을 통계적 분석하는 방법
표본추출
모수에 대한
주장
관찰값
타당성이나 진위여부를 판정
표본을 추출하여 그 표본으로부터 얻은 정보를 기초로 진위여부를 판
정하므로 판정과정에는 항상 오류의 가능성이 존재
▶ 귀무가설(null hypothesis) : 거짓이 명확히 규명될 때까지 참인
것으로 인정되는 모수에 대한 주장, 즉 검증되지 않은 모수에 대한
주장과 같이 그 타당성을 입증해야 할 가설 H0
hypothesis) : 귀무가설이 거짓이라면
▶ 대립가설(alternative
참이 되는 가설, 즉 귀무가설에 반대되는 가설 H
1
예
보건복지부에서 전국의 100세 이상 노인의 평균 혈중 콜레스테롤
이 174.6mg/dl라는 주장에 대한 검정
m0 ≠ 174.6
귀무가설 H0 : m0 = 174.6
대립가설 H1 :
m0 > 174.6
m0 < 174.6
☞ 1) 대립가설의 유형
▶ 양측검정(two sided hypothesis) :
평균 m가 m0이라는 주장 H0과 이에 상반되는 주장 H1로 구성
▶ 상단측검정(one sided upper hypothesis):
평균 m가 m0 보다 작거나 같다는 주장 H0과 이에 상반되는 주장 H1로 구성
▶ 하단측검정(one sided lower hypothesis) :
평균 m가 m0 보다 크거나 같다는 주장 H0과 이에 상반되는 주장 H1로 구성
H0 : m = m0
H0 : m ≤ m0
H0 : m ≥ m0
H1 : m ≠ m0
H1 : m > m0
H1 : m < m0
양측검정
상단측검정
하단측검정
[주의] 모수의 주장에 대한 “=“ 부분은 항상 귀무가설에 포함시킨다.
☞ 2) 채택과 기각
▶ 채택(accept) :
H0이 타당하여 H0을 선택하는 경우, 귀무가설 H0을 채
택한다 하고, H0을 채택하는 범위를 채택역이라 한다.
▶ 기각(reject): 대립가설
H1이 타당하여 H0이 거짓인 경우, 귀무가설
H0을 기각한다 하고, H0을 기각시키는 범위를 기각역이라 한다.
▶ 임계값(critical value): 귀무가설을 기각시키거나 채택하는 범위를
구분하는 경계값
▶ 제1종 오류(type I error): 귀무가설
H0이 참이지만, 대립가설
H1을 채택함으로써 발생하는 오류
▶ 제2종 오류(type II error): 귀무가설
H0을 채택함으로써 발생하는 오류
H0이 거짓이지만, 귀무가설
모집단의 조건
H0 : 참
H0 : 거짓
H0을 채택
올바른 결정
제2종 오류
H0을 기각
제1종 오류
올바른 결정
검정 결과
▶ 검정통계량(test statistic) :
위하여 표본으로부터 얻은 통계량
귀무가설 H0에 대한 주장을 검정하기
☞ 3) 유의수준과 그 의미
▶ 유의수준(significance level) :
제1종 오류를 범할 확률 a
, a = P(H0 : 기각 | H0 : 참)
▶ 검정력(power of test): 제2종 오류를 범하지 않은 확률 1 – b
, b = P(H0 : 채택 | H0 : 거짓)
▶ 유의수준 a는 1%, 5% 그리고 10%를 많이 사용하며, 추정에서 사용하는
신뢰수준 99%, 95% 그리고 90%와 비교된다.
▶ 유의수준의 의미 : 유의수준이 5%라는 것은 원칙적으로 기각할 것을 예상
하여 설정한 귀무가설을 기각시킨다고 하더라도 그것에 의한 오차는 최대
5% 이하임을 나타낸다.
귀무가설 H0이 타당함에도 불구하고 H0을 기각함으로써
발생하는 오류를 범할 위험이 20번을 조사했을 때 최대
1회까지는 허용되는 것을 의미
☞ 4) 가설검정과 기각역
하단측검정
검정통계량의 분포
기각역
a
1-a
채택역
관찰값
H0을 기각
관찰값
H0을 채택
상단측검정
검정통계량의 분포
기각역
1-a
a
채택역
H0을 채택
관찰값
H0을 기각
관찰값
양측검정
검정통계량의 분포
기각역
a/2
기각역
1-a
a/2
채택역
H0을 기각
관찰값
관찰값
H0을 채택
관찰값
H0을 기각
☞ 4) p-값과 기각역
▶ p -값(p-value):
귀무가설 H0이 기각되는 최소의 유의수준
p-값에 대한 보충 설명 :
• 귀무가설 H0의 타당성 또는 신빙성에 대한 척도를 나타내는 값.
• 귀무가설에 대한 모순을 극복할 표본을 얻을 확률, 다시 말해서 표본으
로부터 얻은 검정통계량의 값을 초과할 확률을 나타냄.
• p-값이 작을수록 H0에 대한 신빙성은 떨어지고 따라서 p-값이 유의수
준 a보다 작으면 귀무가설을 기각
• p-값이 클수록 H0에 대한 신빙성이 높아지고 따라서 p-값이 유의수준
a보다 크면 귀무가설을 채택한다.
하단측검정
검정통계량의 분포
기각역
p-값 ≤ a
p-값
a
1-a
채택역
관찰값
H0을 기각
상단측검정
검정통계량의 분포
기각역
1-a
a
채택역
H0을 기각
관찰값
p-값
p-값 ≤
a
양측검정
검정통계량의 분포
기각역
p-값
기각역
a/2
1-a
a/2
p-값
채택역
관찰값
H0을 기각
H0을 기각
관찰값
☞ 5) 가설검정의 순서
1단계. 귀무가설 H0과 대립가설 H1을 설정한다.
2단계. 표본을 선정하고, 검정통계량을 선택한다.
3단계. 적당한 유의수준 a를 정한다.
임계값에 의한 판정
4단계. 유의수준 a에 대한 임계값과 기각역을 결정한다.
5단계. 검정통계량의 관찰값을 구하여, 관찰값이 기각역
안에 있는지 채택역 안에 있는지에 따라 귀무가설
H0 의 기각을 결정한다.
p – 값에 의한 판정
4단계. p – 값을 구한다.
5단계. p – 값 ≤ a이면 귀무가설을 기각하고, p – 값 > a
이면 귀무가설을 채택한다.
유의수준
a = 0.1
p– 값
p ≥ 0.1
H0: 채택
0.05 ≤ p < 0.1 H0: 기각
0.01≤ p < 0.05 H0: 기각
p < 0.01
H0: 기각
a = 0.05
a = 0.01
H0:
H0:
H0:
H0:
H 0:
H 0:
H 0:
H 0:
채택
채택
기각
기각
채택
채택
채택
기각
2
모평균의 검정
모분산이 알려진 경우와 모르는 경우, 모평균에 대한 가설과
두 모평균의 차에 대한 가설을 검정하는 방법에 대하여 알아
본다.
☞ 1) 모분산이 알려진 경우, 양측검정
H0 : m = m0 , H1 : m ≠ m0
n개를 임의추출
x1
N(m, s2 )
s2 : 기지
x2
xn
검정통계량 :
1 n
s2
X = S Xi ~ N m0 ,
ni=1
n
(
표준화
Z=
X – m0
~ N(0, 1)
s/ n
)
유의수준 a에서 귀무가설 H0 : m = m0이 참이지만 H0을 기각시킬 확률
기각시킬 임계점 : c
a = P(H0 : 기각|H0 : 참)
= P(X≠m0|X ~ N(m0 , s2/n ))
= P(X < c1|X ~ N(m0 , s2/n)) + P(X > c2|X ~ N(m0 , s2/n))
c – m0
c – m0
=P Z< 1
+P Z> 2
s/ n
s/ n
= P(Z < -za/2) + P(Z > za/2)
(
) (
c1 – m0
= -za/2
s/ n
유의수준 a에서 H0을 기각시킬 임계점 :
)
c2 – m0
= za/2
s/ n
s
±
m0 za/2
n
⊙ 유의수준 a에 대한 H0의 기각역
R : X ≤ m0 - za/2•
R : Z ≤ - za/2
Z=
X – m0
s
s 또는
n
또는
s
n
R : X ≥ m0 + za/2•
R : Z ≥ za/2
의 표본분포
n
기각역
a/2
- za/2
기각역
채택역
0
a/2
za/2
z
표본평균의 관찰값 x0에 대하여
x0 ≤ m0 - za/2•
s 또는 x ≥ m + z •
0
0
a/2
n
x0 – m0
z0 = s/ n ≤ - za/2
s
n
x0 – m0
또는 z0 = s/ n ≥ za/2
귀무가설 H0 : m = m0을 기각시킨다.
⊙ p – 값과 유의수준 a에 대한 H0의 기각역
x0 – m0
z0 = s/ n 에 대하여, p – 값 = P(Z < -z0) + P(Z > z0) = 2(1-F(z0))
p – 값 ≤ a이면 H0을 기각, p – 값 > a이면 H0을 채택
Z=
X – m0
s
의 표본분포
n
a/2
a/2
기각역
기각역
채택역
1
2
1
2
p–값
-z0
0
p–값
z0
z
귀무가설 H0 : m = 40에 대한 주장을 확인하기 위하여 크기 64인 표본을 임의로
추출하여 조사한 결과 표본평균 : x0 = 41.1 , 모표준편차 : s = 6.2
(1) 표본평균의 관찰값을 이용하여 유의수준 a = 0.05에서 양측검정
(2) p-값을 구하고 유의수준 a = 0.05에서 양측검정
(1) ① 귀무가설 H0 : m = 40에 대한 대립가설 H1 : m ≠ 40을 설정한다.
② 모표준편차를 알고 있으므로 모평균에 대한 검정통계량과 그의 분
포는 다음과 같다.
X – m0
X – 40
~ N(0, 1)
Z = s/ n =
6.2/ 64
③ 유의수준 a = 0.05에 대한 양측검정의 임계값은 z0.025 =1.645이고
기각역 R : Z ≤ -1.645
또는 R : Z ≥ 1.645
④ 표본으로부터 얻은 표본평균이 x0 = 41.1이므로
검정통계량의 관측값
x0 – m0
41.1 - 40
z0 = s/ n = 0.775 = 1.419
⑤ 검정결과 : 이 관측값은 기각역 안에 들어가지 않으므로 귀무가설을
기각할 수 없다. 즉, 유의수준 a = 0.05에서 귀무가설 m = 40은 타당성이
있다.
(2) p - 값을 구하면, z0 = 1.419이므로
p - 값 = 2•P(Z > z0 ) = 2•P (Z > 1.419)
= 2•(0.0778) = 0.1556 > 0.05
p - 값 > a = 0.05
검정결과 : 유의수준 a = 0.05에서 귀무가설 m = 40을 기각할 수 없다.
☞ 2) 모분산이 알려진 경우, 하단측검정
H0 : m ≥ m0 , H1 : m < m0
유의수준 a에서귀무가설 H0 : m ≥ m0이 참이지만 H0을 기각시킬 확률
기각시킬 임계점 : c
a = P(H0 : 기각|H0 : 참)
= P(X< c|X ~ N(m0 , s2/n ))
(
=P Z<
c – m0
s/ n
) = P(Z < -z )
a
c – m0
= -za
s/ n
유의수준 a에서 H0을 기각시킬 임계점 :
m0 - za
s
n
⊙ 유의수준 a에 대한 H0의 기각역
R : X ≤ m0 - za•
s
n
R : Z ≤ - za
또는
Z=
X – m0
s
의 표본분포
n
기각역
a
- za
채택역
0
z
표본평균의 관찰값 x0에 대하여
x0 < m0 - za•
s
n
x0 – m0
z0 = s/ n < - za
귀무가설 H0 : m ≥ m0을 기각시킨다.
⊙ p – 값과 유의수준 a에 대한 H0의 기각역
x0 – m0
z0 = s/ n 에 대하여, p – 값 = P(Z < -z0)
p – 값 ≤ a이면 H0을 기각, p – 값 > a이면 H0을 채택
Z=
X – m0
s
의 표본분포
n
a
기각역
채택역
p–값
-z0
0
z
☞ 3) 모분산이 알려진 경우, 상단측검정
H0 : m ≤ m0 , H1 : m > m0
유의수준 a에서귀무가설 H0 : m ≤ m0이 참이지만 H0을 기각시킬 확률
기각시킬 임계점 : c
a = P(H0 : 기각|H0 : 참)
= P(X > c|X ~ N(m0 , s2/n ))
(
=P Z>
c – m0
s/ n
) = P(Z > z )
a
c – m0
= za
s/ n
유의수준 a에서 H0을 기각시킬 임계점 :
m0 + za
s
n
⊙ 유의수준 a에 대한 H0의 기각역
R : X ≥ m0 + za•
s
n
R : Z ≥ za
또는
Z=
X – m0
s
의 표본분포
n
기각역
채택역
0
a
za
z
표본평균의 관찰값 x0에 대하여
x0 > m0 + za• s
n
x0 – m0
z0 = s/ n > za
귀무가설 H0 : m ≤ m0을 기각시킨다.
⊙ p – 값과 유의수준 a에 대한 H0의 기각역
x0 – m0
z0 = s/ n 에 대하여, p – 값 = P(Z > z0)
p – 값 ≤ a이면 H0을 기각 , p – 값 > a이면 H0을 채택
Z=
X – m0
s
의 표본분포
n
a
기각역
채택역
0
p–값
z0
z
가설과 검정방법
가설과 기각역
검정방법
귀무가설
H0
대립가설
H1
기각역 R
p- 값
하단측검정
m = m0
(m ≥ m0)
m < m0
R : Z ≤ -za
F(-z0)
상단측검정
m = m0
(m ≤ m0)
m > m0
R : Z ≥ za
1- F(z0)
양측검정
m = m0
m ≠ m0
R : |Z|≥za/2
2(1- F(z0))
귀무가설 H0 : m ≥ 50에 대한 주장을 확인하기 위하여 크기 100인 표본을 임의로
추출하여 조사한 결과 x0 = 49.99, s = 0.05
(1) 표본평균의 관찰값을 이용하여 유의수준 a = 0.05에서 검정
(2) 표본평균의 관찰값을 이용하여 유의수준 a = 0.01에서 검정
(3) p -값을 구하고 (1)과 (2)의 결과를 확인
(1) ① 귀무가설 H0 : m ≥ 50에 대한 대립가설 H0 : m < 50 을 설정한다.
② 모표준편차를 알고 있으므로 모평균에 대한 검정통계량과 그의 분포
Z=
X - 50
0.05/ 100
~ N(0, 1)
③ 유의수준 a = 0.05에 대한 하단측검정
임계값 : -z0.05 = -1.645
기각역 : R : z ≤ -1.645
④ 표본으로부터 얻은 표본평균이 x0 = 49.99이므로 검정통계량의 관찰값 :
z0 =
x0 - 50
0.05/ 100
=
49.99 - 50
0.05/ 100
= -2.0
⑤ 이 관찰값은 기각역 안에 들어가므로 귀무가설을 기각한다. 즉, 유의수준 a
= 0.05에서 귀무가설 H0 : m ≥ 50은 타당성이 없다.
(2) 유의수준 a = 0.01에 대한 하단측검정
임계값 : -z0.01 = -2.326
기각역 : R : Z ≤ -2.326
검정통계량의 관찰값 : z0 = -2.0
⑤ 검정통계량의 관찰값이 기각역 안에 들어가지 않으므로 귀무가설 H0 : m ≥ 50
을 기각할 수 없다. 즉, 유의수준 a = 0.01에 대하여 “m ≥ 50”이라는 주장은
타당성을 갖는다.
Z=
관찰값
X – m0
s
의 표본분포
n
기각역
a
=
0.05
a = 0.01
-2.0
0
z
(3) z0 = -2이므로
(1)의 경우,
p - 값 = P(Z < -2) = 1 - P(Z >2) = 1-0.9772 = 0.0228 < 0.05
p - 값 <  = 0.05
귀무가설 H0 : m ≥ 50을 기각한다
(2)의 경우,
p - 값 = P(Z < -2) = 0.0228 > 0.01
p - 값 >  = 0.01
귀무가설 H0 : m ≥ 50을 기각할 수 없다.
모표준편차가 s = 1.75인 정규모집단에서 모평균이 “m ≤ 10”이라고 한다.
이 모집단에서 15개의 자료를 임의로 추출하여 조사한 결과 : x0 = 10.8
(1) 모평균에 대한 주장이 타당한지 유의수준 a = 0.05에서 검정
(2) p -값을 구하고, 유의수준 a = 0.05에서 검정
(1) ① 귀무가설 H0 : m ≤ 10에 대하여 대립가설 H1 : m > 10을 설정한다.
② 모표준편차 s = 1.75를 알고 있으므로 검정통계량
X - 10
Z = 1.75/
15
~ N(0, 1)
③ 유의수준 a = 0.05에 대한 상단측검정
임계값 : z0.05 = 1.645
기각역 : R : Z ≥ 1.645
④ 표본평균이 x0 =10.8이므로 검정통계량의 관찰값 :
z0 =
x0 - 10
1.75/ 15
10.8 - 10
= 1.75/
15
= 1.77
⑤ 이 관찰값은 기각역 안에 들어가므로 귀무가설 H0 : m ≤ 10을 기각한다.
(2) p - 값을 이용하여 검정하면, 검정통계량의 관찰값은 z0 = 1.77이고,
상단측검정이므로
p - 값 = 1 – F(1.77) = 1-0.9616 = 0.0384
p - 값 = 0.0384 < a = 0.05
귀무가설 H0 : m ≤ 10을 기각한다
Z=
X – m0
s
의 표본분포
n
기각역
a
=
0.05
p- 값= 0.0384
0
1.77
z
☞ 4) 모분산을 모르는 경우, 양측검정
H0 : m = m0 , H1 : m ≠ m0
n개를 임의추출
N(m, s2 )
s2 : 미지
x1
x2
xn
표본분산 s2으로 대치
검정통계량 :
1 n
s2
X = S Xi ~ N m0 ,
ni=1
n
(
T=
X – m0
~ t(n-1)
s/ n
P
)
X – m0
≤ ta/2(n-1) = 1-a
s/ n
⊙ 유의수준 a에 대한 H0의 기각역
R : X ≤ m0 - ta/2 (n-1)•
s0
또는
n
R : T ≤ - ta/2 (n-1)
또는
T=
R : T ≥ ta/2 (n-1)
X – m0
의 표본분포
s0 n
T ~ t(n-1)
기각역
a/2
-ta/2 (n-1)
R : X ≥ m0 + ta/2 (n-1)•
기각역
채택역
0
a/2
ta/2 (n-1)
T
s0
n
유의수준 a에서 H0을 기각시킬 임계점 :
s0
m0 ±ta/2(n-1)
n
표본평균의 관찰값 x0에 대하여
x0 ≤ m0 - ta/2 (n-1)•
s0
또는 x0 ≥ m0 + ta/2 (n-1)•
n
x0 – m0
t0 = s / n ≤ - ta/2 (n-1)
0
또는
s0
n
x0 – m0
t0 = s / n ≥ ta/2 (n-1)
0
귀무가설 H0 : m = m0을 기각시킨다.
⊙ p – 값과 유의수준 a에 대한 H0의 기각역
x0 – m0
t0 = s / n 에 대하여, p – 값 = P(T < -t0) + P(T > t0) = 2•P(T > t0)
0
p – 값 ≤ a이면 H0을 기각, p – 값 > a이면 H0을 채택
T=
X – m0
의 표본분포
s0 n
T ~ t(n-1)
a/2
a/2
기각역
기각역
채택역
1
2
1
2
p–값
-t0
0
p–값
t0
T
T – 검정방법
① t(n-1) 분포에 대하여 다음 검정통계량을 구한다.
X –m0
~ t(n-1)
T=s
n
0
②
③
④
⑤
유의수준 a에 대한 임계값 ta/2(n-1)을 t-분포표에서 구한다.
임계값을 이용하여 H0의 기각역을 구한다.
표본으로부터 검정통계량의 관찰값 t0 (또는 p-값)을 구한다.
관찰값이 기각역 안에 들어있는지 또는 p-값이 유의수준보다 작은지
조사하여 귀무가설 H0의 기각 또는 채택을 결정한다.
☞ 5) 모분산을 모르는 경우, 하단측검정
H0 : m ≥ m0 , H1 : m < m0
⊙ 유의수준 a에 대한 H0의 기각역
R : X ≤ m0 - ta(n-1)•
s0
또는 R : T ≤ - ta(n-1)
n
T=
X – m0
의 표본분포
s0 n
기각역
a
-ta(n-1)
채택역
0
T
s0
m0 - ta(n-1)
n
유의수준 a에서 H0을 기각시킬 임계점 :
표본평균의 관찰값 x0에 대하여
x0 < m0 - ta(n-1)•
s0
n
x0 – m0
t0 = s / n < - ta(n-1)
0
귀무가설 H0 : m ≥ m0을 기각시킨다.
⊙ p – 값과 유의수준 a에 대한 H0의 기각역
x0 – m0
t0 = s / n 에 대하여, p – 값 = P(T < -t0)
0
p – 값 ≤ a이면 H0을 기각, p – 값 > a이면 H0을 채택
T=
X – m0
의 표본분포
s0 n
a
기각역
채택역
p–값
-t0
0
T
☞ 6) 모분산을 모르는 경우, 상단측검정
H0 : m ≤ m0 , H1 : m > m0
⊙ 유의수준 a에 대한 H0의 기각역
R : X ≥ m0 + ta(n-1)•
s0
또는 R : T ≥ ta(n-1)
n
T=
채택역
0
X – m0
의 표본분포
s0 n
기각역
a
ta(n-1)
T
s0
m0 + ta(n-1)
n
유의수준 a에서 H0을 기각시킬 임계점 :
표본평균의 관찰값 x0에 대하여
x0 > m0 + ta(n-1)•
s0
n
x0 – m0
t0 = s / n > ta(n-1)
0
귀무가설 H0 : m ≤ m0을 기각시킨다.
⊙ p – 값과 유의수준 a에 대한 H0의 기각역
x0 – m0
t0 = s / n 에 대하여, p – 값 = P(T > t0)
0
p – 값 ≤ a이면 H0을 기각 , p – 값 > a이면 H0을 채택
T=
X – m0
의 표본분포
s0 n
a
기각역
채택역
0
p–값
t0
T
가설과 검정방법
d.f. = n-1
가설과 기각역
검정방법
귀무가설
H0
대립가설
H1
기각역 R
p- 값
하단측검정
m = m0
(m ≥ m0)
m < m0
R : T ≤ -ta
P(T ≤ -t0)
상단측검정
m = m0
(m ≤ m0)
m > m0
R : T ≥ ta
P(T ≥ t0)
양측검정
m = m0
m ≠ m0
R : |T|≥ta/2
P(|T|≥ t0)
모평균이 “m ≤ 10”이라는 주장에 대한 타당성을 조사하기 위하여 크기 25인
표본을 조사한 결과 표본평균 10.3과 표본표준편차 2를 얻었다.
(1) 모평균에 대한 주장이 타당한지 유의수준 a = 0.05에서 검정
(2) p -값을 구하고, 유의수준 a = 0.05에서 검정
(1) ① 귀무가설 H0 : m ≤ 10에 대하여 대립가설 H1 : m > 10을 설정한다.
② 표본표준편차 s = 2이므로 모평균에 대한 T-검정통계량과 분포는
다음과 같다.
X - 10
T=
~ t(24)
2/ 25
③ 유의수준 a = 0.05에 대한 상단측검정
임계값 : t0.05 = 1.711
기각역 : R : T ≥ 1.711
④ 표본으로부터 얻은 표본평균이 x0 = 10.3이므로 검정통계량의 관찰값 :
10.3 - 10
= 0.75
t0 = 2/
25
⑤ 이 관찰값은 기각역 안에 들어가지 못하므로 귀무가설 H0 : m ≤ 10을
기각할 수 없다.
(2) p-값을 이용하여 검정하면, 검정통계량의 관찰값은 t0 = 0.75이고,
p-값 = P(T ≥ 0.75)
한편 t0.25(24) = 0.685, t0.20(24) = 0.857
0.20 < p-값 < 0.25 즉, p-값 > α =0.05
귀무가설 H0 : m ≤ 10을 기각할 수 없다.
T ~ t(24)
확률 = 0.25
p–값
확률 = 0.20
a =0.05
0
0.685 0.75 0.857
T
수학능력시험 다음날 고교 자연계 재학생을 상대로 가채점한 결과 :
학원측 주장 : 지난해 자연계 평균 239.2점보다 평균 10점 이상 상승한다.
이 주장의 타당성을 조사하기 위하여, 20명의 점수를 임의로 조사
(1) 이 자료를 근거로 학원측 주장에 대한 타당성을 유의수준 a = 0.05에서 검정
(2) p -값을 구하고, 유의수준 a = 0.05에서 검정
249 222 231 285 286 231 226 253 256 208
228 241 267 211 250 270 218 279 241 214
(1) ① 가설설정 H0 : m - 239.2 ≥ 10, H1 : m - 239.2 < 10
즉, 귀무가설 H0 : m ≥ 249.2, 대립가설 H1 : m < 249.2
② 모평균에 대한 T-검정통계량과 분포는 다음과 같다.
T=
X – 249.2
s/ 20
~ t(19)
③ 표본으로부터 평균과 표준편차를 구한다.
x0 = 243.3, s = 24.64
유의수준 a = 0.05에 대한 하단측검정
임계값 : -t0.05(19) = -1.729
기각역 : R : T ≤ -1.729
④ 표본으로부터 얻은 검정통계량의 관찰값 :
t0 =
243.3 – 249.2
= -1.07
24.64/ 20
⑤ 검정통계량의 관찰값 -1.07이 기각역 안에 들어가지 않으므로 귀무가설을
기각할 수 없다. 즉, 유의수준 a = 0.05에서 자연계 학생들의 수능 점수가
10점 이상 상승하였다고 할 수 있다.
(2) 자유도 19인 t-분포표로부터
t0.15 = -1.066, t0.10 = -1.328
T ~ t(19)
a = 0.05 < 0.10 < p-값 < 0.15
확률 = 0.15
p–값
확률 = 0.10
a =0.05
귀무가설 H0을 기각할 수 없다.
-1.328
-1.07
-1.066
0
T
☞ 7) 모집단에 정보가 없는 경우
n→ ∞
(1) S2 → s2
(2) 표본평균 X는 정규분포에 가까워진다.
⊙ 모분산을 알고 있는 경우에 검정통계량과 확률분포 :
Z=
X – m0 .
~. N(0, 1)
s0 n
⊙ 모분산을 모르는 경우에 검정통계량과 확률분포 :
X – m0 .
~. N(0, 1)
T=s
n
0
모집단의 정보가 없는 귀무가설 H0의 타당성에 대한 검정방법
가설과 기각역
검정방법
귀무가설
H0
대립가설
H1
근사기각역
R
p- 값
하단측검정
m = m0
(m ≥ m0)
m < m0
R : Z ≤ -za
F(-z0)
상단측검정
m = m0
(m ≤ m0)
m > m0
R : Z ≥ za
1- F(z0)
양측검정
m = m0
m ≠ m0
R : |Z|≥za/2
2(1- F(z0))
직경이 0.1㎜인 정밀부품을 생산하는 회사의 주장 : “m = 0.1㎜”
정밀 부품을 400개 생산한 결과 :
평균 : 0.10024, 표준편차 : 0.0025
이 회사의 주장의 타당성을 유의수준 a = 0.05에서 검정
① 귀무가설 H0 : m = 0.1에 대한 대립가설 H1 : m ≠ 0.1을 설정
② 유의수준 a = 0.05 에 대한 양측검정 기각역 R : |Z| ≥ 1.96
③ 귀무가설에 대한 검정통계량과 그의 분포는 다음과 같다.
X – 0.1 .
~. N(0, 1)
Z= s
400
0
표본평균 : x0 = 0.10024
표본표준편차 : s = 0.0025
검정통계량의 관찰값 :
0.10024 – 0.1
z0 =
= 1.92 < z0.025 = 1.96
0.0025
400
④ 관찰값 z0 = 1.92는 기각역 안에 들어 있지 않으므로 귀무가설을 채택한다.
☞ 8) 두 모평균의 차 m1-m2 = d0에 대한 검정
(A) 두 모분산을 아는 경우
x1
N(m1, s1 )
2
n개
N(m2, s2)
2
m개
s12
표본평균 : X ~ N m1,
n
)
s22
표본평균 : Y ~ N m2,
m
)
(
표본평균 : X
y2
표본평균 : Y
xn
y1
(
x2
ym
X – Y의 확률분포 :
s12 s22
X – Y ~ N m1 - m2,
n +m
(
)
표준화
Z=
(X – Y ) – (m1 - m2 )
s12 s22
n +m
~ N(0, 1)
H0 : m1 – m2 = d0 , H1 : m1 – m2 ≠ d0
H0 : m1 – m2 ≥ d0 , H1 : m1 – m2 < d0 에 대한 가설검정
H0 : m1 – m2 ≤ d0 , H1 : m1 – m2 > d0
검정통계량과 확률분포 :
Z=
(X – Y ) – d0
s12
s22
n +m
검정통계량의 관찰값 :
z0 =
(x0 – y0 ) – d0
s12 s22
n +m
~ N(0, 1)
(B) 두 모분산을 모르는 경우
n, m이 충분히 큰 경우 : s12 → s12 , s22→ s22
X – Y의 확률분포 :
표준화
.
s12 s22
X – Y ~. N m1 - m2,
n +m
(
Z=
검정통계량과 확률분포 :
(X – Y ) – (m1 - m2 ) .
~. N(0, 1)
2
2
s1
s2
+
n
m
Z=
(X – Y ) – d0
s12
s22
n +m
검정통계량의 관찰값 :
)
z0 =
(x0 – y0 ) – d0
s12 s22
n +m
~ N(0, 1)
가설과 검정방법
두 모분산을 아는 경우와 모르는 경우
가설과 기각
귀무가설
H0
대립가설
H1
기각역 R
p- 값
하단측검정
m1 – m2 = d0
(m1 – m2 ≥ d0)
m1 – m2 < d0
R : Z ≤ -za
F(-z0)
상단측검정
m1 – m2 = d0
(m1 – m2 ≤ d0)
m1 – m2 > d0
R : Z ≥ za
1- F(z0)
양측검정
m1 – m2 = d0
m1 – m2 ≠ d0
R : |Z|≥za/2
2(1- F(z0))
역
검정방법
보도자료에 의한 주장 : 평균 초혼 연령은 남자가 여자보다 3.5세 이상이다.
이러한 주장의 진위여부를 알기 위하여, 남자와 여자 각각 20명을 표본조사 실시
이 보도자료의 주장에 대한 타당성을 유의수준 5%에서 검정
단, 남자와 여자의 초혼연령에 대한 모표준편차는 각각 2.5세와 2.6세이고,
이들 초혼연령은 정규분포에 따른다고 한다.
남자
여자
32
33
32
28
26
27
25
29
33
28
26
25
31
28
25
26
30
27
27
30
30
31
28
30
34
30
23
25
29
35
27
27
26
32
28
26
34
32
30
25
① 남자의 평균연령을 m1 , 여자의 평균연령을 m2라 하면,
귀무가설 H0 : m1 - m2 ≥ 3.5 , 대립가설 H1 : m1 - m2 < 3.5
② 남자와 여자의 표본에 대한 평균연령을 각각 X, Y라 하면, 모표준편차가
각각 s1 = 2.5, s2 = 2.6이므로
Z=
(X – Y ) – d0
6.25 6.76
+
20
20
=
(X – Y )–3.5
0.8065
~ N(0, 1)
③ 유의수준 a = 0.05에서 하단측검정
임계값 : -z0.025 = -1.645
기각역 : R : Z ≤ -1.645
④ 검정통계량의 관찰값 :
z0 =
(30.4 – 27.1 ) – 3.5
= -0.248
0.8065
⑤ 이 관찰값은 기각역 안에 들어있지
않으므로 귀무가설 H0 : m1 - m2 ≥ 3.5를
기각할 수 없다. 즉, 평균 초혼 연령은
남성이 여성보다 3.5세 이상이라는 주
장은 타당성이 있다.
(C) 두 모분산을 모르지만 s12 = s22 = s2 인 경우
합동표본분산 :
S2p =
1
2
[(n-1)S21 + (m-1)S2]
n+m-2
검정통계량과 확률분포 :
검정통계량의 관찰값 :
X – Y – d0
sp•
t0 =
1
1
n +m
~ t(n + m - 2)
(x0 – y0 ) – d0
sp •
1
1
n +m
가설과 검정방법
가설과 기각
두 모분산을 모르는 경우(s12 = s22= s2
)
귀무가설
H0
대립가설
H1
기각역 R
하단측검정
m1 – m2 = d0
(m1 – m2 ≥ d0)
m1 – m2 < d0
R : T≤ -ta
P(T ≤ -t0)
상단측검정
m1 – m2 = d0
(m1 – m2 ≤ d0)
m1 – m2 > d0
R : T ≥ ta
P(T ≥ t0)
양측검정
m1 – m2 = d0
m1 – m2 ≠ d0
R : |T|≥ ta/2
P(|T|≥ t0)
역
검정방법
(d.f. = n+m-2)
p- 값
인근에 위치한 두 지역에서 각각 15가구와 16가구를 표본추출 결과, A와 B
지역의 단위 면적 당 평균 쌀 생산량은 각각 364㎏과 330㎏이고, 표준편차는 각각
45㎏과 60㎏이었다. 두 지역의 쌀 생산량에 차이가 있는지 유의수준 a = 0.05에서
검정
① A와 B 두 지역의 평균 생산량을 각각 m1 , m2 그리고 표본추출한 가구들의
표본평균을 X, Y 그리고 표본분산을 S12, S22 라 하면,
귀무가설 H0 : m1 - m2 = 0, 대립가설 H1 : m1 - m2 ≠ 0
② x = 364, y = 330, s12 = 2025, s22= 3600이므로 합동표본분산은
2
Sp =
14•(2025) + 15•(3600)
29
합동표준편차 : Sp = 53.288
= 2839.655
검정통계량과 확률분포 :
(X – Y ) – 0
T=
sp•
1
1
n +m
X–Y
=
(53.288) •
1
1
~ t(29)
15 + 16
③ 유의수준 a = 0.05에 대한 임계값과 기각역을 구한다.
자유도 29인 t-분포에 대하여 양측검정
임계값 : t0.025 (29) = 2.045
기각역 : R : T ≤ -2.045 또는 T ≥ 2.045
④ 검정통계량의 관찰값 :
t0 =
364 – 330
(53.288) • (0.3594)
= 1.775
⑤ 이 관찰값은 기각역 안에 들어있지 않으므로 귀무가설 H0 : m1 - m2 = 0을
기각할 수 없다. 즉, “두 지역의 평균 쌀 생산량에는 차이가 없다”는 주장에
타당성이 있다.
3
모비율의 검정
단일 모집단의 모비율과 두 모집단의 모비율의 차에 대한 가
설을 검정하는 방법에 대하여 알아본다.
☞ 1) 모비율에 대한 가설 H0 : p = p0 의 검정
n개
성공률 : p0
성공의 수 :
x
B(1, p0)
실패의 수 :
n-x
∧ .
표본비율의 확률분포 : p ~. N p0 , p0(1-p0)
n
(
표준화
x
∧
p
=
표본비율 :
n
)
표본이 충분히 큰 경우
검정통계량 :
∧
Z=
p – p0
p0(1-p0)
n
~ N(0, 1)
또는
Z=
X – np0
np0(1-p0)
~ N(0, 1)
▶ 연속성 수정
(표본이 충분히 크다면 연속성 수정은 의미가 없다.)
(1) x -np0 > 0.5인 경우 : Z =
(2) x -np0 < 0.5인 경우 : Z =
X – np0 – 0.5
np0(1-p0)
X – np0 + 0.5
np0(1-p0)
▶ 정확한 p-값은 이항분포 X ∼ B(n, p0)에 대하여
∧
(3) p = X/n > p0일 때, p-값 = 2•P(X ≥ x)
∧
(4) p = X/n > p0일 때, p-값 = 2•P(X ≤ x)
▶ 표본의 크기가 충분히 큰 경우
(5) z0 > 0 또는 x0 > np0 인 경우 : p-값 = 2•P(Z > z0 )
(6) z0 < 0 또는 x0 < np0 인 경우 : p-값 = 2•P(Z < z0 )
▶ 표본의 크기가 충분히 큰 경우, 연속성을 수정한 p-값 :
(7) x -np0 > 0.5인 경우 : p-값 = 2•P(Z > z0 )
(8) x -np0 < 0.5인 경우 : p-값 = 2•P(Z < z0 )
가설과 검정방법
가설과 기각역
검정방법
귀무가설
H0
대립가설
H1
기각역 R
p- 값
하단측검정
p = p0
(p ≥ p0)
p < p0
R : Z ≤ -za
F(-z0)
상단측검정
p = p0
(p ≤ p0)
p > p0
R : Z ≥ za
1- F(z0)
양측검정
p = p0
p ≠ p0
R : |Z|≥za/2
2(1- F(z0))
전동장치의 주요 결점은 외부적인 영향에 의한 일시적인 것으로 70%가 어떤
특정한 원인에 있다고 주장한다. 200개의 결점을 조사한 결과 151개의 결점이
특정한 원인에 의하여 생긴 것으로 판명되었다. 이 주장에 대하여
(1) 유의수준 5%에서 양측검정
(2) p-값을 구하고, 유의수준 5%에서 양측검정
(3) 연속성을 수정하여 양측검정
(1) ① 귀무가설 H0 : p = 0.7과 대립가설 H1 : p ≠ 0.7을 설정
② Z-통계량을 선택
Z=
∧
p – p0
p0(1-p0)/n
=
X – np0
np0(1-p0)
~ N(0, 1)
③ n = 200, x = 151 그리고 p0 = 0.7이므로 Z-통계량의 관찰값 :
z0 =
151 – 200•(0.7)
200•(0.7)•(0.3)
④ 유의수준 a = 0.05에서 양측검정
임계값 : z0.025 = 1.96
기각역 : R : |Z| ≥ 1.96
=
11 = 1.697
6.4807
⑤ 검정통계량의 관찰값이 기각역 안에 들어있지 않으므로 귀무가설 H0을
기각할 수 없다. 즉, 특정한 원인에 의한 비율이 70%라고 할 수 있다.
(2) Z-통계량의 관찰값이 z0 = 1.697이므로
p-값 = 2 F(-1.697) = 2•(1-0.9555) = 0.089 > a = 0.05
귀무가설 H0을 기각할 수 없다.
(3) x - np0 > 0.5이므로 검정통계량의 관찰값 :
z0 =
151 – 200•(0.7)-0.5
= 10.5 = 1.620
6.4807
200•(0.7)•(0.3)
이 관찰값은 기각역 안에 들어가지 않으므로 귀무가설 H0을 기각할 수 없다.
주머니쥐의 번식에서 암컷과 수컷의 비율이 동일한가를 알아보기 위하여
20마리의 갓 태어난 새끼 쥐를 관찰한 결과 :
[수컷 : 12마리, 암컷 : 8마리]
암컷과 수컷의 비율이 동등한지 유의수준 10%에서 검정
(1) p-값 = 2P(X ≥ x0)을 이용
(2) p-값 = 2F(-|z0|)을 이용
(1) ① 암컷과 수컷의 비율이 동등한 것을 검정하고자 하므로 가설을 설정
귀무가설 H0 : p = 0.5와 대립가설 H1 : p ≠ 0.5
② 표본비율 ∧p =12/20=0.60이고, 따라서 p > p0 = 0.5
③ 표본의 확률분포는 X~B(20, 0.5) 이고 x0 =12이므로 p-값은
p-값 = 2•P(X ≥ 12) = 2•(1 - 0.8684) = 0.2632
④ p-값 > a = 0.1이므로 H0을 기각하지 않는다.
(2) ① 귀무가설과 대립가설은 (1)과 동일하다.
② n = 20, p∧ = 0.60이므로 정규근사 Z-통계량의 관찰값 :
z0 =
0.6 - 0.5
= 0.89
(0.5)•(0.5)/20
p-값 = 2 F(-0.89) = 2•(1 - 0.8133) = 0.3734 > a = 0.1 이므로 p = 0.5라는
③
주장은 타당성이 있다.
☞ 2) 두 모비율에 대한 가설 H0 : p1 – p2 = d0 의 검정
n개
성공률 : p1
x
∧
표본비율 : p1 = n
성공의 수 :
x
B(1, p1)
실패의 수 :
n-x
성공률 : p2
B(1, p2)
표본비율 차의 확률분포 :
∧ .
p1 ~. N p1, p1 (1-p1)
n
)
y
∧
표본비율 : p2 = m
∧ .
p2 ~. N p2, p2 (1-p2)
n
)
(
m개
성공의 수 :
실패의 수 :
y
m-y
(
.
p∧1 - p∧2 ~. N p1 - p2 , p1 q1 + p2 q2
m
n
q1 = 1-p1 , q2 = 1-p2
(
)
.
∧ .
p1 ~. p1, p2 ~. p2
∧
∧
검정통계량 :
Z=
표준화
∧
(p1 - p2) – d0
∧
p1 q∧1 ∧p2 q∧2
n + m
n과 m이 충분히 큰 경우
.
~. N(0, 1)
가설과 검정방법
가설과 기각
귀무가설
H0
대립가설
H1
기각역 R
p- 값
하단측검정
p1 – p2 = d0
(p1 – p2 ≥ d0)
p1 – p2 < d0
R : Z ≤ -za
F(-z0)
상단측검정
p1 – p2 = d0
(p1 – p2 ≤ d0)
p1 – p2 > d0
R : Z ≥ za
1- F(z0)
양측검정
p1 – p2 = d0
p1 – p2 ≠ d0
R : |Z|≥za/2
2(1- F(z0))
역
검정방법
귀무가설 H0 : p1 – p2 = 0인 경우 : 두 모비율이 동일하다는 가설
x+y
∧
합동표본비율 : p = n + m
검정통계량 :
Z=
p∧ 1 - p∧2
∧ ∧
pq
( n1 + m1 )
.
~. N(0, 1)
어느 대기업에 대한 취업 성향의 차이 검정 :
18세 이상 30세 이하의 청년 952명 중에서 627명이 선호
31세 이상의 장년층 1,043명 중에서 421명이 선호
청년층과 장년층의 선호도에 차이가 있는지 유의수준 5%에서 검정
① 청년층과 장년층의 선호도를 각각 p1, p2 라 하고, 가설을 설정한다.
귀무가설 H0 : p1 = p2 , 대립가설 H1 : p1 ≠ p2
② n = 952, x = 627, m = 1043, y = 421이므로
합동표본비율 :
∧
p=
③ 검정통계량의 관찰값 :
z0 =
x+y
∧
= 1048 = 0.5253, q = 1- 0.5253 = 0.4747
n+m
1995
0.6586 – 0.4036
(0.5253)•(0.4747)•
(
1
1
+
952 1043
)
= 11.384
④ 유의수준 a = 0.05에 대한 임계값은 |z0.025|= 1.96이고 기각역은
R : |Z| ≥ 1.96이므로 두 계층간의 선호도에 차이가 있다고 할 수 있다.
근로자를 대상 특정 교육을 실시할 경우에 효율이 0.5% 정도 향상된다는 주장.
250명의 근로자를 표본추출하여 교육을 실시한 후, 그들의 효율성을 조사한 결과 :
교육을 실시하기 전 24명이 어느 기준 이상이었으며, 교육을 실시한 후에는
27명이 기준 이상의 능력을 보인 것으로 관찰됨.
특정 교육이 0.5%의 효율성을 높인다는 주장에 대하여 유의수준 5%에서 검정
① 근로자를 대상으로 어떤 특정 교육을 받은 후와 받기 전의 효율을 각각
p1, p2 라 하고, 가설을 설정한다.
귀무가설 H0 : p1 - p2 = 0.005, 대립가설 H1 : p1 - p2 ≠ 0.005
② 250명을 선정하여 교육을 받은 후의 비율과 받기 전의 비율을 조사
n = m = 250이고
교육을 받은 후에 효율성을 보인 근로자 수 : x = 27
교육을 받기 전에 효율성을 보인 근로자 수 : y = 24
∧
p1 =
26
∧
∧
24
= 0.096, q∧2 = 0.904
= 0.108, q1 = 0.892, p2 =
250
250
③ 검정통계량의 관찰값 :
z0 =
(0.108 – 0.096) – 0.005
(0.108)•(0.892) (0.096)•(0.904)
+
250
250
= 0.259
④ 유의수준 a = 0.05에 대한 양측검정
임계값 : |z0.025| = 1.96,
기각역 : R : |Z| ≥ 1.96
⑤ 검정통계량의 관찰값 z0은 기각역 안에 놓이지 않는다. 즉, 교육을 받으면
근로자의 효율이 0.5% 정도 향상된다고 할 수 있다.
4
c2- 검정과 모분산의 검정
모분산에 대한 검정방법과 범주형 자료에 대한 적합도 검정
그리고 두 모분산의 비(ratio)에 대한 검정 방법에 대하여 알
아본다.
☞ 1) 모분산에 대한 가설 H0 : s
n개
x1
N(m, s2 )
xn
2
= s02의 검정
표본분산 : S2 =
x2
1 n
S (Xi – X )2
n-1 i = 1
(n-1)S2
검정통계량 : V =
~ c2(n-1)
2
s0
가설과 검정방법
d.f. = n-1
가설과 기각역
검정방법
귀무가설 H0
대립가설 H1
기각역 R
하단측검정
s2 = s20
(s2 ≥ s02)
s2 < s02
2
R : V ≤ c1-a
상단측검정
s2 = s02
(s2 ≤ s02)
s2 > s02
R : V ≥ ca2
s2 ≠ s02
2
R : V ≤ c1-a/2
2
V ≥ ca/2
양측검정
2
s =
s20
어느 대학의 심리학 교수의 주장 :
[이 대학 학생들의 IQ 점수의 표준편차가 s = 10인 정규분포]
주장을 입증하기 위하여 23명을 임으로 선출하여 표본분산 s = 12.16을 얻었다.
이 심리학 교수의 주장에 대한 타당성을 유의수준 5%에서 양측검정
① 표준편차가 s = 10이라는 주장에 대한 검정이므로, 두 가설을 설정한다.
귀무가설 H0 : s = 10, 대립가설 H1 : s ≠ 10
동치가설
귀무가설 H0 : s2 = 100, 대립가설 H1 : s2 ≠ 100
② 23명의 학생을 상대로 조사하였으므로 자유도는 22이고,
검정 통계량과 확률분포 :
22S2
22S2
=
= (0.22)•S2 ~ c2(22)
V=
2
100
s0
③ 유의수준 a = 0.05에 대한 양측검정
임계값 : c20.975 (22)=10.98, c20.025 (22)=36.78
기각역 : R : V ≤ 10.98
또는
V ≥ 36.78
④ s2 = (12.16)2이므로 검정통계량의 관찰값은
v0 = (0.22)•(12.16)2 = 32.53
⑤ 이 관찰값은 기각역 안에 들어가지 않으므로 유의수준 5%에서 귀무가설
H0을 기각할 수 없다. 즉, 교수의 주장에 타당성이 있다고 할 수 있다.
어느 지역의 쌀 생산량은 단위 면적당 평균 125㎏이고 표준편차가 9㎏이라고
한다. 이것을 확인하기 위하여 20농가를 선정하여 단위 면적당 쌀 생산량을
조사한 결과 다음 표와 같았다. 이때, 쌀 생산량은 정규분포에 따른다고 한다.
(1) 유의수준 5%에서 H0 : s = 9와 H1 : s < 9를 검정
(2) 유의수준 5%에서 H0 : m = 125와 H1 : m > 125를 검정
(단위 : kg)
128 149 136 114 126 142 124 136 122 118
122 129 118 122 129 130 129 131 125 119
(1) ① 모표준편차에 대한 검정은 모분산의 검정으로 바꾸어 가설을 설정
H0 : s2 = 81, H1 : s2 < 81
② 20 가구의 쌀 생산량을 조사하였으므로 자유도는 19이고,
검정통계량 :
19S2
19S2
=
= (0.2346)•S2 ~ c2(19)
V=
2
81
s0
③ 유의수준 a = 0.05에 대한 하단측검정
2 (19) = 10.12 ,
임계값 : c0.95
기각역 : R : V ≤ 10.12
④ 조사된 표본으로부터 표본평균과 표본분산을 구하면
x = 127.45, s2 = 73.1026
⑤ 검정통계량의 관찰값 :
v0 = (0.2346)• (73.1026) = 17.15
이고, 따라서 귀무가설을 기각할 수 없다. 쌀 생산량에 대한 표준편차는
9㎏이라고 할 수 있다.
(2) ① s = 9이므로 모평균에 대한 검정통계량과 그의 분포는 다음과 같다.
Z=
X - 125
9/ 20
~ N(0, 1)
② 유의수준 a = 0.05에 대한 상단측검정
임계값 : z0.05 = 1.96
기각역 : R : Z ≥ 1.96
③ 표본평균이 x = 127.45이므로 검정통계량의 관찰값 :
z0 =
127.45 - 125
= 1.217
9/ 20
④ 이 관찰값은 기각역 안에 들어가지
않으므로 귀무가설을 기각할 수 없다.
즉, 유의수준 a = 0.05에서 귀무가설
m = 125는 타당성이 있다.
☞ 2) 범주형 자료에 대한 적합도 검정
예
“예”, “아니오”, “모름” 중에서 하나를 독립적으로
선택하는 설문조사 응답결과 :
2008년도 결과 :[예-57%, 아니오-39%, 모름-4%]
1,000명을 대상으로 금년도에 조사할 경우,
◈ 기대되는 응답도수 :
[예-570명, 아니오-390명, 모름-4명]
◈ 실제 응답도수 :
[예-624명, 아니오-337명, 모름-39명]
▶ 기대도수(expected frequency) : 이론적으로 기대되는 각
범주의 도수
▶ 관측도수(observed frequency) : 실험이나 관측에 의하여
얻은 각 범주의 도수
▶ 적합도(goodness of fit) : 기대도수와 관측도수가 어느 정도
일치하는가를 나타내는 척도
▶ 적합도 검정(goodness-of-fit test) : 관측값들이 이론적인
확률분포에 어느 정도 따르는가를 확인하는 검정
귀무가설 설정 방법 :
2008년도 실시한 설문조사에 변화가 없다는 가설을 설정
즉, “예”의 비율 p1 = 0.57, “아니오”의 비율 p2 = 0.39, “모름”의 비율 p3 = 0.04
를 귀무가설로 설정
H0 : p1 = 0.57, p2 = 0.39, p3 = 0.04
H0의 기각 또는 채택을 결정하기 위하여 c2-분포를 이용
어느 특정한 범주의 비율에 변화가 있는가를 검정할 경우, 예를 들어
“예”의 비율에 변화가 있는가를 검정할 경우에는 귀무가설
H0 : p1 = 0.57
을 설정하고, Z-검정을 실시
⊙ 적합도 검정과 검정통계량
2
k
S
검정통계량 : c = i=1
2
(ni – ei )
~ c2(k-1)
ei
ni : i번째 범주의 관측도수
ei : i번째 범주의 기대도수
k : 범주의 수
가설과 검정방법
항상 상단측검정을 실시한다.
1단계. 귀무가설 H0과 대립가설 H1을 설정한다.
2단계. 표본을 선정하고, 검정통계량을 선택한다.
3단계. 적당한 유의수준 a를 정한다.
4단계. 유의수준 a에 대한 임계값과 기각역을 결정한다.
5단계. 검정통계량의 관찰값을 구하여, 관찰값이 기각역
안에 있는지 채택역 안에 있는지에 따라 귀무가설
H0의 기각을 결정한다.
예
자동차 선호도 조사 : ‘A회사에서 생산된 자동차가 B회사에서 생산된
자동차보다 좋은가?’
“예”, “아니오”, “모름” 중에서 하나를 독립적으로 선택하는 설문조사
응답결과 :
2008년도 결과 :[예-57%, 아니오-39%, 모름-4%]
A회사에서 생산된 자동차 선호도가 작년과 차이가 없다는 주장에 대
하여 1,000명을 대상으로 금년도에 조사한 결과 :
[예-624명, 아니오-337명, 모름-39명]
유의수준 0.01에서 적합도 검정을 실시
1단계. 귀무가설 H0과 대립가설 H1을 설정한다.
H0 : p1 = 0.57, p2 = 0.39, p3 = 0.04, H1 : H0이 아니다.
2단계. 검정통계량을 선택한다.
(ni – ei )2
~ c2(2)
S
검정통계량 : c = i=1
ei
2
3
3단계. 적당한 유의수준 a를 정한다. a = 0.01
4단계. 유의수준 a = 0.01에 대한 임계값과 기각역을 결정한다.
2 (2) = 9.21
임계값 : c0.01
기각역 : R : V ≥ 9.21
(상단측검정이므로)
5단계. 검정통계량의 관찰값을 구하여, 관찰값이 기각역 안에 있는지 채택역
안에 있는지에 따라 귀무가설 H0의 기각을 결정한다.
c2 = 12.344이므로 H0을 기각한다. 즉, A회사의 자동차에 대한
선호도가 전년도와 동일하다는 것은 타당성이 없다.
범주
관찰도수
(ni)
예
비율(pi)
기대도수
(ei = npi)
ni - ei
(ni - ei )
(ni - ei)2
ei
624
0.57
570
54
2916
5.116
아니오
337
0.39
390
-53
2809
7.203
모름
39
0.04
40
-1
1
0.025
n=1,000
2
합:
12.344
주사위를 60회 던져서 다음 표의 결과를 얻었다. 이 결과로부터 주사위가 공정
하게 만들어 졌는지 유의수준 5%에서 검정
주사위의 눈
1
2
3
4
5
6
관찰도수
13
8
10
15
7
7
합
60
① 귀무가설 H0과 H1을 설정 : 공정하게 주사위가 만들어졌다면, 60번 주사위
를 던져서 각각의 눈이 나올 기대도수는 10회이고, 각 기대비율은 1/6이므
로 눈의 수 i가 나올 확률 pi = 1/6 = 0.167이므로 귀무가설과 대립가설은 다
음과 같다.
H0 : p1 = 0.167, p2 = 0.167, p3 = 0.167, p4 = 0.167, p5 = 0.167, p6 = 0.167
H1 : H0이 아니다.
② 검정통계량을 선정한다.
(ni – ei )2
~ c2(5)
S
검정통계량 : c = i=1
ei
2
6
③ 유의수준 a = 0.05에 대한 상단측검정
임계값 :  0.95 (5) = 11.07 ,
기각역 : R : V ≥ 11.07
④ c2 –통계량의 관찰값 : c2 = 5.6이고, 따라서 귀무가설을 기각할 수 없다.
즉, 실험결과로부터 주사위가 공정하지 않다는 근거가 없다.
범주
관찰도수
(ni)
1
비율(pi)
기대도수
(ei = npi)
ni - ei
(ni - ei )
13
1/6
10
3
9
(ni - ei)2
ei
0.9
2
8
1/6
10
-2
4
0.4
3
10
1/6
10
0
0
0
4
15
1/6
10
5
25
2.5
5
7
1/6
10
-3
9
0.9
6
7
1/6
10
-3
9
0.9
n = 60
2
합 : 5.6
☞ 3) 두 모분산에 대한 가설 H0 : s1
2
= s22의 검정
H0 : s12 /s22 = 1의 검정
2
표본분산 : SX
n개
N(m1, s21 )
2
표본분산 : SY
m개
N(m2, s22 )
2
표본분산 비의 확률분포 :
검정통계량 :
2
F=
SX
2
SY
SX /s12
2
2
SY /s2
~ F(n-1, m-1)
▶ 분자•분모의 자유도 n-1, m-1인 F-분포에 대한 아래쪽 꼬리확률  인 임계점 :
f1-a(n-1,m-1)
▶ 분자•분모의 자유도 n-1, m-1인 F-분포에 대한 위쪽 꼬리확률  인 임계점 :
fa(n-1,m-1)
▶ 분자•분모의 자유도 n-1, m-1인 F-분포에 대한 양쪽 꼬리확률  /2인 임계점 :
f1-a/2(n-1,m-1),
fa/2(n-1,m-1)
가설과 검정방법
d.f. =(n-1, m-1)
가설과 기각역
검정방법
귀무가설 H0
대립가설 H1
기각역 R
하단측검정
s21 = s22
(s21 /s22 ≥ 1)
s12 /s22 < 1
R : V ≤ f1-a
상단측검정
s21 = s22
(s21 /s22 ≤ 1)
s12 /s22 > 1
R : V ≥ fa
s21 /s22 ≠ 1
R : V ≤ f1-a/2
V ≥ fa/2
양측검정
s21 = s22
(s12 /s22 = 1)
두 양조장 A와 B에서 생산된 맥주에 대한 색인의 분산이 동일하다는 주장.
두 양조장에서 각각 26개씩 표본추출하여 맥주 맛에 대한 색인을 조사한 결과표
2
이때 H0 : s12 = s22에 대한 대립가설 H1 : s12> s2을
유의수준 5%에서 검정.
단, 맛에 대한 다양성은 정규분포에 따른다고 한다.
A 양조장
평균
3.2
분산
1.04
B 양조장
3.0
0.51
2
2
① A와 B 양조장에서 생산된 맥주 맛의 색인에 따른 분산을 각각 SX, SY라 하고,
검정통계량 F = SX2 /SY2 의 관찰값을 구한다.
2
f0 =
SX
2
SY
=
1.04
0.51
= 2.039
② 분자·분모의 자유도는 각각 25이고, 유의수준 a = 0.05인 상단측검정
임계점 : f0.05 (25, 25) = 1.96
기각역 : R : F ≥ 1.96
③ 검정통계량의 관찰값 f0이 기각역 안에 놓이므로 귀무가설 H0을 기각한다.
즉, B 양조장에서 생산된 맥주 맛의 다양성이 A 양조장에서 제조된 맛의
다양성보다 덜하다고 말할 수 있다.
두 지역에 서식하고 있는 어떤 종류의 식물의 줄기에 대한 굵기가 동일하다는
주장에 대하여 표본추출하여 측정한 결과표
두 지역의 식물의 줄기의 굵기에 대한 분산이 서로 다른지를 유의수준
5%에서 검정. 단, 굵기는 정규분포에 따른다고 한다.
(단위 : ㎜)
A 지역 0.8 1.8 1.0 0.1 0.9 1.7 1.4 1.0 0.9 1.2 0.5
B 지역 1.0 0.8 1.6 2.6 1.3 1.1 2.4 1.8 2.5 1.4 1.9 2.0 1.2
① A 지역과 B 지역의 식물 줄기의 굵기에 대한 분산을 각각 s12, s22 이라 하고,
귀무가설 H0 : s12 / s22 =1와 대립가설 H1 : s12 / s22 ≠ 1을 설정한다.
② n=11, m=13이므로 분자와 분모의 자유도가 각각 10, 12이고,
유의수준 a = 0.05인 양측검정
임계점 : f0.975(10, 12) = 1/f0.025(12, 10) = 1/(3.62) = 0.28, f0.025(10, 12) = 3.37
기각역 : R : F ≤ 0.28, F ≥ 3.37
③ 주어진 자료로부터 s12 = 0.24, s22 = 0.35이므로 검정통계량
F = S21 /S22의 관찰값은
F0 = 0.24 / 0.35 = 0.686
이고, 기각역 안에 놓이지 않으므로 두 모분산은 같다고 할 수 있다.
제9장