가설검정

Download Report

Transcript 가설검정

전산통계학
(가설검정)
선우하식
1
용어 설명
• 통계적가설: 모집단의 분포에 대한 주장
• 귀무가설(H0: null hypothesis)
– 기존에 알려져 있는 사실
• 대립가설(H1: alternative hypothesis)
– 새로 주장하는 가설
– 통계적으로 입증하고자 하는 목적
2
가설의 예
• 평소 볼링 평균 점수가 100점인 학생이 자신의 평균 점
수가 120이라고 주장
– H 0 :   100 vs H1 :   120
• 기존 약의 치료율이 70%인데 비해 새로 개발한 약의 치
료율이 우수하다는 주장
– H 0 : p  0.7 vs
H1 : p  0.7
• 두 반의 수학 성적의 평균이 차이가 있을 것이라는 주장
– H 0 : 1  2 vs
H1 : 1  2
3
가설의 종류
• 단순가설: 모수의 값이 하나인 가설
–예
H 0 :   100
H1 :  2  3
H1 : p  0.7
• 복합가설: 모수의 값이 여러 개인 가설
–예
H 0 :   100
H1 :  2  3
H1 : p  0.7
4
가설검정의 원리
• 귀무가설과 대립가설 중 하나만 참
• 가설로서 의미있는 가설은 대립가설
• 귀무가설은 대립가설을 받아들이지 못할
때 할 수 없이 인정
• 가설검정은 귀무가설을 기각할지 안할지
를 결정
– 귀무가설은 기각 또는 기각하지 않음으로 서
술한다.
5
유의수준이란?
H0 참
H0 거짓
Reject H0
제1종오류
옳은 결정
Accept H0
옳은 결정
제2종오류
유의수준 = P(제1종 오류)
= P(Reject H0 | H0)
6
제1종오류와 제2종오류
H0
H1
임계값
제2종 오류
제1종 오류
7
임계값
•
•
•
•
기각역: 귀무가설을 기각하는 영역
채택역: 귀무가설의 기각하지 못하는 영역
임계값: 기각역과 채택역을 구분하는 값
예: 가설 H 0 :   100 vs H1 :   100
가설검정의 룰: 표본평균의 값이 클수록 귀무가설 기각한다.
H0가 참일때
채택역
기각역
유의수준 = P(제1종 오류)
100
임계값
= P(Reject H0 | H0)
8
모평균에 대한 가설의 종류와 기각역
가설의 종류
H 0 :   0
vs
기각역
구분
H1 :   0
한쪽검정
H 0 :   0
vs
H1 :   0
H 0 :   0
vs
H1 :   0
양쪽검정
9
모비율에 대한 가설의 종류와 기각역
가설의 종류
H 0 : p  p0
vs
기각역
구분
H1 : p  p0
한쪽검정
H 0 : p  p0
vs
H1 : p  p0
H 0 : p  p0
vs
H1 : p  p0
양쪽검정
10
임계값의 결정 예제
• 가설: H 0 :   100 vs H1 :   100
• n = 25, σ = 8로 가정
• 기각역: Reject H0 if X  c
P( X  c)  0.05 를 만족하는 c가 임계값
• 유의수준: 0.05
• 모표준편차를 아는 경우이므로




X

100
c

100
  P( Z  1.645)
0.05  P( X  c)  P

8 
 8


25
25


여기서
c  100
 1.645
8
25
이므로
c  100  1.645 
8
 102.632
25
11
검정통계량
H0가 참일때
0.05
표준화
0.05
임계값=c
P( X  c)  0.05
검정통계량
z0 
X  0

 N (0,1)
임계값
=1.645




X


0
P
 1.654   0.05
 



n


Reject H0 if
z0  1.645  z0.05
n
12
가설검정의 절차
1. 가설 설정 – 귀무가설과 대립가설 설정
2. 검정통계량의 분포 결정
–
–
–
모표준편차를 아는 경우 표준정규분포
모표준편차를 모르는 경우 t 분포
모비율의 검정인 경우 표준정규분포
3. 유의수준과 임계값 결정 – 보통의 경우 0.05
4. 검정통계량 계산 및 기각역 결정
–
Reject H0 if
5. 결과 해석
–
귀무가설을 기각하는 경우 통계적으로 유의하다(significant)라
고 표현한다.
13
모평균의 검정에 대한 검정통계량
• 모표준편차를 아는 경우(대표본)
z0 
X  0

 N (0,1)
n
• 모표준편차를 모르는 경우(소표본)
X  0
t0 
s
n
 t (n  1)
14
모비율의 검정에 대한 검정통계량
가설
H 0 : p  p0
vs
에 대하여 표본비율이
z0 
pˆ 
H1 : p  p0
X
n
일 때, 검정통계량은
pˆ  p0
 N (0,1)
p0 (1  p0 )
n
15
모평균에 대한 가설검정
(모표준편차를 아는 경우)
검정통계량
z0 
X  0

 N (0,1)
n
가설의 종류
H 0 :   0
H 0 :   0
H 0 :   0
vs
vs
vs
H1 :   0
H1 :   0
H1 :   0
기각역
Reject H0 if
Reject H0 if
z0  z
Reject H0 if
z0   z
Reject H0 if
| z0 | z / 2
16
모평균에 대한 가설검정
(모표준편차를 모르는 경우)
가설의 종류
H 0 :   0
H 0 :   0
H 0 :   0
vs
vs
vs
H1 :   0
H1 :   0
H1 :   0
검정통계량
t0 
기각역
X  0
 t (n  1)
s
n
Reject H0 if
Reject H0 if
t0  t (n  1)
Reject H0 if
t0  t (n  1)
Reject H0 if
| t0 | t / 2 (n  1)
17
모비율에 대한 가설검정
가설의 종류
H 0 : p  p0
H 0 : p  p0
H 0 : p  p0
vs
vs
vs
H1 : p  p0
H1 : p  p0
H1 : p  p0
z0 
기각역
검정통계량
pˆ  p0
 N (0,1)
p0 (1  p0 )
n
Reject H0 if
Reject H0 if
z0  z
Reject H0 if
z0   z
Reject H0 if
| z0 | z / 2
18
검정통계량의 결정
모표준편차
아는 경우
z0 
모표준편차
모르는 경우
모비율 검정?

 N (0,1)
n
모평균 검정?
시작
X  0
t0 
z0 
X  0
 t (n  1)
s
n
pˆ  p0
 N (0,1)
p0 (1  p0 )
n
19
예제9.1
• 어느 회사에서 생산하는 낚싯줄의 장력은 평균이
36.50파운드이고, 표준편차가 6.02파운드인 정규분
포를 따른다고 한다. 이 회사는 낚시줄의 장력을 개
선하기 위해 신기술을 도입하였다. 생산된 신제품 중
에서 크기 49인 임의표본을 추출하였더니 평균이
39.08파운드였다고 한다. 다음 내용을 유의수준 5%
에서 검정하여라.
1.
2.
3.
신기술 도입 후 생산된 제품은 종전 제품과 차이가 있다.
신기술 도입 후 생산된 제품은 종전 제품보다 개선되었
다.
신기술 도입 후 생산된 제품은 종전 제품보다 못하다.
20
• 풀이(1)
• 주어진 조건:  0  36.50   6.02 n  49 X  39.08
1.
가설: H 0 :   36.5 vs H1 :   36.5
2.
검정통계량의 분포:
3.
임계값: 양쪽검정이고 유의수준이 5%이므로
4.
검정통계량의 값
5.
의사결정
Z
z0 
Reject H0 if | z0 | z / 2
X  36.5
 N (0,1)
6.02 / 49
z0.025  1.96
39.08  36.5
 3.0
6.02 / 49
|3|>1.96이므로 귀무가설을 기각한다.
즉 종전 제품과 차이가 있다고 볼 수 있다.
21
예제9.2
• 어느 공장에서 생산되는 A 제품의 평균 무게는 4kg이라
고 한다. 여기서 크기 10인 표본을 임의추출하여 그 무게
를 측정해보니 다음과 같았다.
3.72
3.61
3.80
3.96
4.03
3.56
3.90
3.67
4.10
3.85
이 제품의 무게가 정규분포를 따른다고 할 때, 모평균은 4kg보다 작다고 할 수
있는지를 유의수준 5%에서 검정하여라.
22
• 예제9.2 풀이
• 주어진 조건:
 0  4 n  10 X  3.82 s  0.18
H 0 :   4 vs H1 :   4
1.
가설:
2.
검정통계량의 분포:
3.
임계값: 좌측검정이고 유의수준이 5%이므로 t0.05 (9)  1.833
4.
검정통계량의 값
5.
의사결정
T
t0 
Reject H0 if t0  t
X 4
 t (9)
s / 10
3.82  4
 3.16
0.18 / 10
-3.16<-1.833이므로 귀무가설을 기각
즉 모평균은 4kg보다 작다고 볼 수 있다.
23
T 검정
• T 검정이란 두 모집단의 평균에 대한 검정을 말한다.
H 0 : 1  2
vs
H1 : 1  2
H 0 : 1  2
vs
H1 : 1  2
H 0 : 1  2
vs
H1 : 1  2
• 독립표본 T 검정: 서로 독립인 두 모집단의 평균에 대한
검정
• 대응표본 T 검정: 쌍으로 수집되는 자료의 평균에 대한
검정
24
독립표본 T 검정의 예
• 특정한 기술의 교육방법 두 가지를 비교하기 위해 20명을 대상으로
10명을 랜덤추출하여 방법 I을, 나머지는 방법 II를 적용하여 교육시
킨 후 실제 일을 끝내는 데에 소요되는 시간을 기록한 결과가 다음
과 같다. 시간(분)
---------------------------------------------방법 I 15 20 11 23 16 21 18 16 27 24
방법 II 23 31 13 19 23 17 28 26 25 28
---------------------------------------------이 자료로부터 방법 I에 의한 평균작업시간이 방법II에 의한 경우보
다 훨씬 적다고 결론을 내릴 수 있는가? 유의수준 5%로 검정하라
25
대응표본 T 검정의 예
• 16세 소년 10명을 대상으로 아침 기상시와 저녁 취침시
의 키를 측정하여 다음과 같은 결과를 얻었다.
소년
1
2
3
4
5
6
7
8
9
10
아침
169.7
168.5
165.9
177.7
179.6
168.8
169.2
167.9
181.8
163.3
저녁
168.2
165.5
164.4
175.7
176.6
166.5
167.4
166.3
179.7
161.5
이 자료로 보아 이 16세 소년들의 키는 저녁에 아침보다
줄어든다고 할 수 있는지 유의수준 5%에서 검정하여라.
26
독립표본 T 검정의 검정통계량
•
모집단1, 2의 분포: N ( 1 ,  12 )
•
표본1:
X 1 , X 2 , , X m
•
표본2:
Y1 , Y2 ,, Yn
•
표본평균:
X
•
2
표본분산: S1 
•
(m  1) S12  (n  1) S 22
합동분산: S 
mn2
•
검정통계량 (두 모표준편차가 같을 때)
N (  21 ,  22 )
1
1
X
,
Y

 i
 Yi
m
n
1
( X i  X )2

m
S 22 
1
(Yi  Y ) 2

n
2
p
X Y
T
 t (m  n  2)
1 1
sp

m n
27
대응표본 T 검정의 검정통계량
• 표본:
( X 1 , Y1 ), ( X 2 , Y2 ), , ( X n , Yn )
• 자료의 변환: 각 자료의 차를 계산한다. 즉 Di  X i  Yi
• 새로운 표본:
D1 , D2 ,, Dn
• 표본평균과 표본분산 계산
D
• 검정통계량
1
1
2
D
S

( Di  D ) 2


i
D
n
n
D
T
 t (n  1)
sD / n
28
독립표본 T 검정 절차
1. 두 모집단의 분산이 같은지의 여부 검정
즉 등분산검정
–
𝜎12
𝐻0 : 2
𝜎2
= 1 𝑣𝑠
𝜎12
𝐻1 : 2
𝜎2
<1
2. 두 모집단의 평균에 대한 검정
H 0 : 1  2
vs
H1 : 1  2
H 0 : 1  2
vs
H1 : 1  2
H 0 : 1  2
vs
H1 : 1  2
29
독립표본 T 검정 실습
• 특정한 기술의 교육방법 두 가지를 비교하기 위해 20명을 대상으로
10명을 랜덤추출하여 방법 I을, 나머지는 방법 II를 적용하여 교육시
킨 후 실제 일을 끝내는 데에 소요되는 시간을 기록한 결과가 다음
과 같다. 시간(분)
---------------------------------------------방법 I 15 20 11 23 16 21 18 16 27 24
방법 II 23 31 13 19 23 17 28 26 25 28
---------------------------------------------이 자료로부터 방법 I에 의한 평균작업시간이 방법II에 의한 경우보
다 훨씬 적다고 결론을 내릴 수 있는가? 유의수준 5%로 검정하라
30
엑셀에서 독립표본 T 검정-1
자료입력
31
엑셀에서 독립표본 T 검정-2
[데이터]-[데이터분석] 이용
32
엑셀에서 독립표본 T 검정-3
분석 결과
33
결과해석 - 등분산검정
• 가설:
𝜎12
𝐻0 : 2
𝜎2
= 1 𝑣𝑠
𝜎12
𝐻1 : 2
𝜎2
<1
• 검정통계량의 분포: 자유도 (9,9)인 F 분포
• 임계값: 𝐹0.05 9,9
• 검정통계량의 값:
• 의사결정
1
=
= 0.314465
3.18
23.21
𝐹0 =
= 0.7511
30.9
– Reject H0 if 𝐹0 < 𝐹0.05 (9,9)
– 0.7511 < ! 0.31이므로 귀무가설을 기각하지 못함.
즉 두 모집단의 분산은 같다고 할 수 있다.
34
결과 해석-평균비교(등분산)
• 𝜇1 : 방법I 작업시간, 𝜇2 : 방법II 작업시간
1. 가설: 𝐻0 : 𝜇1 = 𝜇2 𝑣𝑠 𝐻1 : 𝜇1 < 𝜇2 (한쪽검정)
2. 검정통계량의 분포: 자유도 10+10-2=18인 t 분포
3. 임계값: 좌측검정이고 유의수준이 0.05이므로
−𝑡0.05 18 = −1.734
4. 검정통계량의 값: 𝑡0 = −1.80554
5. 의사 결정
– Reject H0 if 𝑡0 < −𝑡0.05 (18)
– 그런데 −1.80554 < −1.734이므로 귀무가설을 기각
– 따라서 방법I에 의한 작업시간이 더 작다고 할 수 있다.
35
SPSS 결과
36
대응표본 T 검정의 예
• 16세 소년 10명을 대상으로 아침 기상시와 저녁 취침시
의 키를 측정하여 다음과 같은 결과를 얻었다.
소년
1
2
3
4
5
6
7
8
9
10
아침
169.7
168.5
165.9
177.7
179.6
168.8
169.2
167.9
181.8
163.3
저녁
168.2
165.5
164.4
175.7
176.6
166.5
167.4
166.3
179.7
161.5
이 자료로 보아 이 16세 소년들의 키는 저녁에 아침보다
줄어든다고 할 수 있는지 유의수준 5%에서 검정하여라.
37
엑셀에서 대응표본 T 검정-1
자료입력과 [데이터분석]을 이용한 분석
38
엑셀에서 대응표본 T 검정-2
분석 결과
39
결과 해석
• 𝜇1 : 아침키, 𝜇2 : 저녁키
1. 가설: 𝐻0 : 𝜇1 = 𝜇2 𝑣𝑠 𝐻1 : 𝜇1 > 𝜇2 (한쪽검정)
2. 검정통계량의 분포: 자유도 10-1=9인 t 분포
3. 임계값: 우측검정이고 유의수준이 0.05이므로
𝑡0.05 9 = 1.833
4. 검정통계량의 값: 𝑡0 = 11.67
5. 의사 결정
– Reject H0 if 𝑡0 > 𝑡0.05 (9)
– 그런데 11.67 > 1.833이므로 귀무가설을 기각한다.
– 따라서 아침의 키는 저녁의 키보다 크다고 할 수 있다.
40
SPSS 결과
41
P-value(유의확률)
검정통계량의 값이 𝑡0 =
을 p-value라고 한다.
•
•
•
𝑋−𝜇0
일
𝑠/ 𝑛
때, 확률 𝑷( 𝑻 > 𝒕𝟎 )
한쪽(우측)검정일 때, 위 그림에서 𝑡0 > 임계값 이다.
이때, 확률을 비교해보자.
P T > 임계값
P(T > t 0 )
42
P-value를 이용한 의사결정
• 일반적으로 통계패키지
에서는 오른쪽 그림과
같이 유의확률(양쪽)과 같이 p-value가
주어진다.
• 한쪽검정: Reject H0 if p-value/2 < 유의수준
• 양쪽검정: Reject H0 if p-value < 유의수준
43