Transcript 가설검정
전산통계학
(가설검정)
선우하식
1
용어 설명
• 통계적가설: 모집단의 분포에 대한 주장
• 귀무가설(H0: null hypothesis)
– 기존에 알려져 있는 사실
• 대립가설(H1: alternative hypothesis)
– 새로 주장하는 가설
– 통계적으로 입증하고자 하는 목적
2
가설의 예
• 평소 볼링 평균 점수가 100점인 학생이 자신의 평균 점
수가 120이라고 주장
– H 0 : 100 vs H1 : 120
• 기존 약의 치료율이 70%인데 비해 새로 개발한 약의 치
료율이 우수하다는 주장
– H 0 : p 0.7 vs
H1 : p 0.7
• 두 반의 수학 성적의 평균이 차이가 있을 것이라는 주장
– H 0 : 1 2 vs
H1 : 1 2
3
가설의 종류
• 단순가설: 모수의 값이 하나인 가설
–예
H 0 : 100
H1 : 2 3
H1 : p 0.7
• 복합가설: 모수의 값이 여러 개인 가설
–예
H 0 : 100
H1 : 2 3
H1 : p 0.7
4
가설검정의 원리
• 귀무가설과 대립가설 중 하나만 참
• 가설로서 의미있는 가설은 대립가설
• 귀무가설은 대립가설을 받아들이지 못할
때 할 수 없이 인정
• 가설검정은 귀무가설을 기각할지 안할지
를 결정
– 귀무가설은 기각 또는 기각하지 않음으로 서
술한다.
5
유의수준이란?
H0 참
H0 거짓
Reject H0
제1종오류
옳은 결정
Accept H0
옳은 결정
제2종오류
유의수준 = P(제1종 오류)
= P(Reject H0 | H0)
6
제1종오류와 제2종오류
H0
H1
임계값
제2종 오류
제1종 오류
7
임계값
•
•
•
•
기각역: 귀무가설을 기각하는 영역
채택역: 귀무가설의 기각하지 못하는 영역
임계값: 기각역과 채택역을 구분하는 값
예: 가설 H 0 : 100 vs H1 : 100
가설검정의 룰: 표본평균의 값이 클수록 귀무가설 기각한다.
H0가 참일때
채택역
기각역
유의수준 = P(제1종 오류)
100
임계값
= P(Reject H0 | H0)
8
모평균에 대한 가설의 종류와 기각역
가설의 종류
H 0 : 0
vs
기각역
구분
H1 : 0
한쪽검정
H 0 : 0
vs
H1 : 0
H 0 : 0
vs
H1 : 0
양쪽검정
9
모비율에 대한 가설의 종류와 기각역
가설의 종류
H 0 : p p0
vs
기각역
구분
H1 : p p0
한쪽검정
H 0 : p p0
vs
H1 : p p0
H 0 : p p0
vs
H1 : p p0
양쪽검정
10
임계값의 결정 예제
• 가설: H 0 : 100 vs H1 : 100
• n = 25, σ = 8로 가정
• 기각역: Reject H0 if X c
P( X c) 0.05 를 만족하는 c가 임계값
• 유의수준: 0.05
• 모표준편차를 아는 경우이므로
X
100
c
100
P( Z 1.645)
0.05 P( X c) P
8
8
25
25
여기서
c 100
1.645
8
25
이므로
c 100 1.645
8
102.632
25
11
검정통계량
H0가 참일때
0.05
표준화
0.05
임계값=c
P( X c) 0.05
검정통계량
z0
X 0
N (0,1)
임계값
=1.645
X
0
P
1.654 0.05
n
Reject H0 if
z0 1.645 z0.05
n
12
가설검정의 절차
1. 가설 설정 – 귀무가설과 대립가설 설정
2. 검정통계량의 분포 결정
–
–
–
모표준편차를 아는 경우 표준정규분포
모표준편차를 모르는 경우 t 분포
모비율의 검정인 경우 표준정규분포
3. 유의수준과 임계값 결정 – 보통의 경우 0.05
4. 검정통계량 계산 및 기각역 결정
–
Reject H0 if
5. 결과 해석
–
귀무가설을 기각하는 경우 통계적으로 유의하다(significant)라
고 표현한다.
13
모평균의 검정에 대한 검정통계량
• 모표준편차를 아는 경우(대표본)
z0
X 0
N (0,1)
n
• 모표준편차를 모르는 경우(소표본)
X 0
t0
s
n
t (n 1)
14
모비율의 검정에 대한 검정통계량
가설
H 0 : p p0
vs
에 대하여 표본비율이
z0
pˆ
H1 : p p0
X
n
일 때, 검정통계량은
pˆ p0
N (0,1)
p0 (1 p0 )
n
15
모평균에 대한 가설검정
(모표준편차를 아는 경우)
검정통계량
z0
X 0
N (0,1)
n
가설의 종류
H 0 : 0
H 0 : 0
H 0 : 0
vs
vs
vs
H1 : 0
H1 : 0
H1 : 0
기각역
Reject H0 if
Reject H0 if
z0 z
Reject H0 if
z0 z
Reject H0 if
| z0 | z / 2
16
모평균에 대한 가설검정
(모표준편차를 모르는 경우)
가설의 종류
H 0 : 0
H 0 : 0
H 0 : 0
vs
vs
vs
H1 : 0
H1 : 0
H1 : 0
검정통계량
t0
기각역
X 0
t (n 1)
s
n
Reject H0 if
Reject H0 if
t0 t (n 1)
Reject H0 if
t0 t (n 1)
Reject H0 if
| t0 | t / 2 (n 1)
17
모비율에 대한 가설검정
가설의 종류
H 0 : p p0
H 0 : p p0
H 0 : p p0
vs
vs
vs
H1 : p p0
H1 : p p0
H1 : p p0
z0
기각역
검정통계량
pˆ p0
N (0,1)
p0 (1 p0 )
n
Reject H0 if
Reject H0 if
z0 z
Reject H0 if
z0 z
Reject H0 if
| z0 | z / 2
18
검정통계량의 결정
모표준편차
아는 경우
z0
모표준편차
모르는 경우
모비율 검정?
N (0,1)
n
모평균 검정?
시작
X 0
t0
z0
X 0
t (n 1)
s
n
pˆ p0
N (0,1)
p0 (1 p0 )
n
19
예제9.1
• 어느 회사에서 생산하는 낚싯줄의 장력은 평균이
36.50파운드이고, 표준편차가 6.02파운드인 정규분
포를 따른다고 한다. 이 회사는 낚시줄의 장력을 개
선하기 위해 신기술을 도입하였다. 생산된 신제품 중
에서 크기 49인 임의표본을 추출하였더니 평균이
39.08파운드였다고 한다. 다음 내용을 유의수준 5%
에서 검정하여라.
1.
2.
3.
신기술 도입 후 생산된 제품은 종전 제품과 차이가 있다.
신기술 도입 후 생산된 제품은 종전 제품보다 개선되었
다.
신기술 도입 후 생산된 제품은 종전 제품보다 못하다.
20
• 풀이(1)
• 주어진 조건: 0 36.50 6.02 n 49 X 39.08
1.
가설: H 0 : 36.5 vs H1 : 36.5
2.
검정통계량의 분포:
3.
임계값: 양쪽검정이고 유의수준이 5%이므로
4.
검정통계량의 값
5.
의사결정
Z
z0
Reject H0 if | z0 | z / 2
X 36.5
N (0,1)
6.02 / 49
z0.025 1.96
39.08 36.5
3.0
6.02 / 49
|3|>1.96이므로 귀무가설을 기각한다.
즉 종전 제품과 차이가 있다고 볼 수 있다.
21
예제9.2
• 어느 공장에서 생산되는 A 제품의 평균 무게는 4kg이라
고 한다. 여기서 크기 10인 표본을 임의추출하여 그 무게
를 측정해보니 다음과 같았다.
3.72
3.61
3.80
3.96
4.03
3.56
3.90
3.67
4.10
3.85
이 제품의 무게가 정규분포를 따른다고 할 때, 모평균은 4kg보다 작다고 할 수
있는지를 유의수준 5%에서 검정하여라.
22
• 예제9.2 풀이
• 주어진 조건:
0 4 n 10 X 3.82 s 0.18
H 0 : 4 vs H1 : 4
1.
가설:
2.
검정통계량의 분포:
3.
임계값: 좌측검정이고 유의수준이 5%이므로 t0.05 (9) 1.833
4.
검정통계량의 값
5.
의사결정
T
t0
Reject H0 if t0 t
X 4
t (9)
s / 10
3.82 4
3.16
0.18 / 10
-3.16<-1.833이므로 귀무가설을 기각
즉 모평균은 4kg보다 작다고 볼 수 있다.
23
T 검정
• T 검정이란 두 모집단의 평균에 대한 검정을 말한다.
H 0 : 1 2
vs
H1 : 1 2
H 0 : 1 2
vs
H1 : 1 2
H 0 : 1 2
vs
H1 : 1 2
• 독립표본 T 검정: 서로 독립인 두 모집단의 평균에 대한
검정
• 대응표본 T 검정: 쌍으로 수집되는 자료의 평균에 대한
검정
24
독립표본 T 검정의 예
• 특정한 기술의 교육방법 두 가지를 비교하기 위해 20명을 대상으로
10명을 랜덤추출하여 방법 I을, 나머지는 방법 II를 적용하여 교육시
킨 후 실제 일을 끝내는 데에 소요되는 시간을 기록한 결과가 다음
과 같다. 시간(분)
---------------------------------------------방법 I 15 20 11 23 16 21 18 16 27 24
방법 II 23 31 13 19 23 17 28 26 25 28
---------------------------------------------이 자료로부터 방법 I에 의한 평균작업시간이 방법II에 의한 경우보
다 훨씬 적다고 결론을 내릴 수 있는가? 유의수준 5%로 검정하라
25
대응표본 T 검정의 예
• 16세 소년 10명을 대상으로 아침 기상시와 저녁 취침시
의 키를 측정하여 다음과 같은 결과를 얻었다.
소년
1
2
3
4
5
6
7
8
9
10
아침
169.7
168.5
165.9
177.7
179.6
168.8
169.2
167.9
181.8
163.3
저녁
168.2
165.5
164.4
175.7
176.6
166.5
167.4
166.3
179.7
161.5
이 자료로 보아 이 16세 소년들의 키는 저녁에 아침보다
줄어든다고 할 수 있는지 유의수준 5%에서 검정하여라.
26
독립표본 T 검정의 검정통계량
•
모집단1, 2의 분포: N ( 1 , 12 )
•
표본1:
X 1 , X 2 , , X m
•
표본2:
Y1 , Y2 ,, Yn
•
표본평균:
X
•
2
표본분산: S1
•
(m 1) S12 (n 1) S 22
합동분산: S
mn2
•
검정통계량 (두 모표준편차가 같을 때)
N ( 21 , 22 )
1
1
X
,
Y
i
Yi
m
n
1
( X i X )2
m
S 22
1
(Yi Y ) 2
n
2
p
X Y
T
t (m n 2)
1 1
sp
m n
27
대응표본 T 검정의 검정통계량
• 표본:
( X 1 , Y1 ), ( X 2 , Y2 ), , ( X n , Yn )
• 자료의 변환: 각 자료의 차를 계산한다. 즉 Di X i Yi
• 새로운 표본:
D1 , D2 ,, Dn
• 표본평균과 표본분산 계산
D
• 검정통계량
1
1
2
D
S
( Di D ) 2
i
D
n
n
D
T
t (n 1)
sD / n
28
독립표본 T 검정 절차
1. 두 모집단의 분산이 같은지의 여부 검정
즉 등분산검정
–
𝜎12
𝐻0 : 2
𝜎2
= 1 𝑣𝑠
𝜎12
𝐻1 : 2
𝜎2
<1
2. 두 모집단의 평균에 대한 검정
H 0 : 1 2
vs
H1 : 1 2
H 0 : 1 2
vs
H1 : 1 2
H 0 : 1 2
vs
H1 : 1 2
29
독립표본 T 검정 실습
• 특정한 기술의 교육방법 두 가지를 비교하기 위해 20명을 대상으로
10명을 랜덤추출하여 방법 I을, 나머지는 방법 II를 적용하여 교육시
킨 후 실제 일을 끝내는 데에 소요되는 시간을 기록한 결과가 다음
과 같다. 시간(분)
---------------------------------------------방법 I 15 20 11 23 16 21 18 16 27 24
방법 II 23 31 13 19 23 17 28 26 25 28
---------------------------------------------이 자료로부터 방법 I에 의한 평균작업시간이 방법II에 의한 경우보
다 훨씬 적다고 결론을 내릴 수 있는가? 유의수준 5%로 검정하라
30
엑셀에서 독립표본 T 검정-1
자료입력
31
엑셀에서 독립표본 T 검정-2
[데이터]-[데이터분석] 이용
32
엑셀에서 독립표본 T 검정-3
분석 결과
33
결과해석 - 등분산검정
• 가설:
𝜎12
𝐻0 : 2
𝜎2
= 1 𝑣𝑠
𝜎12
𝐻1 : 2
𝜎2
<1
• 검정통계량의 분포: 자유도 (9,9)인 F 분포
• 임계값: 𝐹0.05 9,9
• 검정통계량의 값:
• 의사결정
1
=
= 0.314465
3.18
23.21
𝐹0 =
= 0.7511
30.9
– Reject H0 if 𝐹0 < 𝐹0.05 (9,9)
– 0.7511 < ! 0.31이므로 귀무가설을 기각하지 못함.
즉 두 모집단의 분산은 같다고 할 수 있다.
34
결과 해석-평균비교(등분산)
• 𝜇1 : 방법I 작업시간, 𝜇2 : 방법II 작업시간
1. 가설: 𝐻0 : 𝜇1 = 𝜇2 𝑣𝑠 𝐻1 : 𝜇1 < 𝜇2 (한쪽검정)
2. 검정통계량의 분포: 자유도 10+10-2=18인 t 분포
3. 임계값: 좌측검정이고 유의수준이 0.05이므로
−𝑡0.05 18 = −1.734
4. 검정통계량의 값: 𝑡0 = −1.80554
5. 의사 결정
– Reject H0 if 𝑡0 < −𝑡0.05 (18)
– 그런데 −1.80554 < −1.734이므로 귀무가설을 기각
– 따라서 방법I에 의한 작업시간이 더 작다고 할 수 있다.
35
SPSS 결과
36
대응표본 T 검정의 예
• 16세 소년 10명을 대상으로 아침 기상시와 저녁 취침시
의 키를 측정하여 다음과 같은 결과를 얻었다.
소년
1
2
3
4
5
6
7
8
9
10
아침
169.7
168.5
165.9
177.7
179.6
168.8
169.2
167.9
181.8
163.3
저녁
168.2
165.5
164.4
175.7
176.6
166.5
167.4
166.3
179.7
161.5
이 자료로 보아 이 16세 소년들의 키는 저녁에 아침보다
줄어든다고 할 수 있는지 유의수준 5%에서 검정하여라.
37
엑셀에서 대응표본 T 검정-1
자료입력과 [데이터분석]을 이용한 분석
38
엑셀에서 대응표본 T 검정-2
분석 결과
39
결과 해석
• 𝜇1 : 아침키, 𝜇2 : 저녁키
1. 가설: 𝐻0 : 𝜇1 = 𝜇2 𝑣𝑠 𝐻1 : 𝜇1 > 𝜇2 (한쪽검정)
2. 검정통계량의 분포: 자유도 10-1=9인 t 분포
3. 임계값: 우측검정이고 유의수준이 0.05이므로
𝑡0.05 9 = 1.833
4. 검정통계량의 값: 𝑡0 = 11.67
5. 의사 결정
– Reject H0 if 𝑡0 > 𝑡0.05 (9)
– 그런데 11.67 > 1.833이므로 귀무가설을 기각한다.
– 따라서 아침의 키는 저녁의 키보다 크다고 할 수 있다.
40
SPSS 결과
41
P-value(유의확률)
검정통계량의 값이 𝑡0 =
을 p-value라고 한다.
•
•
•
𝑋−𝜇0
일
𝑠/ 𝑛
때, 확률 𝑷( 𝑻 > 𝒕𝟎 )
한쪽(우측)검정일 때, 위 그림에서 𝑡0 > 임계값 이다.
이때, 확률을 비교해보자.
P T > 임계값
P(T > t 0 )
42
P-value를 이용한 의사결정
• 일반적으로 통계패키지
에서는 오른쪽 그림과
같이 유의확률(양쪽)과 같이 p-value가
주어진다.
• 한쪽검정: Reject H0 if p-value/2 < 유의수준
• 양쪽검정: Reject H0 if p-value < 유의수준
43