Transcript 가설검정
전산통계학 (가설검정) 선우하식 1 용어 설명 • 통계적가설: 모집단의 분포에 대한 주장 • 귀무가설(H0: null hypothesis) – 기존에 알려져 있는 사실 • 대립가설(H1: alternative hypothesis) – 새로 주장하는 가설 – 통계적으로 입증하고자 하는 목적 2 가설의 예 • 평소 볼링 평균 점수가 100점인 학생이 자신의 평균 점 수가 120이라고 주장 – H 0 : 100 vs H1 : 120 • 기존 약의 치료율이 70%인데 비해 새로 개발한 약의 치 료율이 우수하다는 주장 – H 0 : p 0.7 vs H1 : p 0.7 • 두 반의 수학 성적의 평균이 차이가 있을 것이라는 주장 – H 0 : 1 2 vs H1 : 1 2 3 가설의 종류 • 단순가설: 모수의 값이 하나인 가설 –예 H 0 : 100 H1 : 2 3 H1 : p 0.7 • 복합가설: 모수의 값이 여러 개인 가설 –예 H 0 : 100 H1 : 2 3 H1 : p 0.7 4 가설검정의 원리 • 귀무가설과 대립가설 중 하나만 참 • 가설로서 의미있는 가설은 대립가설 • 귀무가설은 대립가설을 받아들이지 못할 때 할 수 없이 인정 • 가설검정은 귀무가설을 기각할지 안할지 를 결정 – 귀무가설은 기각 또는 기각하지 않음으로 서 술한다. 5 유의수준이란? H0 참 H0 거짓 Reject H0 제1종오류 옳은 결정 Accept H0 옳은 결정 제2종오류 유의수준 = P(제1종 오류) = P(Reject H0 | H0) 6 제1종오류와 제2종오류 H0 H1 임계값 제2종 오류 제1종 오류 7 임계값 • • • • 기각역: 귀무가설을 기각하는 영역 채택역: 귀무가설의 기각하지 못하는 영역 임계값: 기각역과 채택역을 구분하는 값 예: 가설 H 0 : 100 vs H1 : 100 가설검정의 룰: 표본평균의 값이 클수록 귀무가설 기각한다. H0가 참일때 채택역 기각역 유의수준 = P(제1종 오류) 100 임계값 = P(Reject H0 | H0) 8 모평균에 대한 가설의 종류와 기각역 가설의 종류 H 0 : 0 vs 기각역 구분 H1 : 0 한쪽검정 H 0 : 0 vs H1 : 0 H 0 : 0 vs H1 : 0 양쪽검정 9 모비율에 대한 가설의 종류와 기각역 가설의 종류 H 0 : p p0 vs 기각역 구분 H1 : p p0 한쪽검정 H 0 : p p0 vs H1 : p p0 H 0 : p p0 vs H1 : p p0 양쪽검정 10 임계값의 결정 예제 • 가설: H 0 : 100 vs H1 : 100 • n = 25, σ = 8로 가정 • 기각역: Reject H0 if X c P( X c) 0.05 를 만족하는 c가 임계값 • 유의수준: 0.05 • 모표준편차를 아는 경우이므로 X 100 c 100 P( Z 1.645) 0.05 P( X c) P 8 8 25 25 여기서 c 100 1.645 8 25 이므로 c 100 1.645 8 102.632 25 11 검정통계량 H0가 참일때 0.05 표준화 0.05 임계값=c P( X c) 0.05 검정통계량 z0 X 0 N (0,1) 임계값 =1.645 X 0 P 1.654 0.05 n Reject H0 if z0 1.645 z0.05 n 12 가설검정의 절차 1. 가설 설정 – 귀무가설과 대립가설 설정 2. 검정통계량의 분포 결정 – – – 모표준편차를 아는 경우 표준정규분포 모표준편차를 모르는 경우 t 분포 모비율의 검정인 경우 표준정규분포 3. 유의수준과 임계값 결정 – 보통의 경우 0.05 4. 검정통계량 계산 및 기각역 결정 – Reject H0 if 5. 결과 해석 – 귀무가설을 기각하는 경우 통계적으로 유의하다(significant)라 고 표현한다. 13 모평균의 검정에 대한 검정통계량 • 모표준편차를 아는 경우(대표본) z0 X 0 N (0,1) n • 모표준편차를 모르는 경우(소표본) X 0 t0 s n t (n 1) 14 모비율의 검정에 대한 검정통계량 가설 H 0 : p p0 vs 에 대하여 표본비율이 z0 pˆ H1 : p p0 X n 일 때, 검정통계량은 pˆ p0 N (0,1) p0 (1 p0 ) n 15 모평균에 대한 가설검정 (모표준편차를 아는 경우) 검정통계량 z0 X 0 N (0,1) n 가설의 종류 H 0 : 0 H 0 : 0 H 0 : 0 vs vs vs H1 : 0 H1 : 0 H1 : 0 기각역 Reject H0 if Reject H0 if z0 z Reject H0 if z0 z Reject H0 if | z0 | z / 2 16 모평균에 대한 가설검정 (모표준편차를 모르는 경우) 가설의 종류 H 0 : 0 H 0 : 0 H 0 : 0 vs vs vs H1 : 0 H1 : 0 H1 : 0 검정통계량 t0 기각역 X 0 t (n 1) s n Reject H0 if Reject H0 if t0 t (n 1) Reject H0 if t0 t (n 1) Reject H0 if | t0 | t / 2 (n 1) 17 모비율에 대한 가설검정 가설의 종류 H 0 : p p0 H 0 : p p0 H 0 : p p0 vs vs vs H1 : p p0 H1 : p p0 H1 : p p0 z0 기각역 검정통계량 pˆ p0 N (0,1) p0 (1 p0 ) n Reject H0 if Reject H0 if z0 z Reject H0 if z0 z Reject H0 if | z0 | z / 2 18 검정통계량의 결정 모표준편차 아는 경우 z0 모표준편차 모르는 경우 모비율 검정? N (0,1) n 모평균 검정? 시작 X 0 t0 z0 X 0 t (n 1) s n pˆ p0 N (0,1) p0 (1 p0 ) n 19 예제9.1 • 어느 회사에서 생산하는 낚싯줄의 장력은 평균이 36.50파운드이고, 표준편차가 6.02파운드인 정규분 포를 따른다고 한다. 이 회사는 낚시줄의 장력을 개 선하기 위해 신기술을 도입하였다. 생산된 신제품 중 에서 크기 49인 임의표본을 추출하였더니 평균이 39.08파운드였다고 한다. 다음 내용을 유의수준 5% 에서 검정하여라. 1. 2. 3. 신기술 도입 후 생산된 제품은 종전 제품과 차이가 있다. 신기술 도입 후 생산된 제품은 종전 제품보다 개선되었 다. 신기술 도입 후 생산된 제품은 종전 제품보다 못하다. 20 • 풀이(1) • 주어진 조건: 0 36.50 6.02 n 49 X 39.08 1. 가설: H 0 : 36.5 vs H1 : 36.5 2. 검정통계량의 분포: 3. 임계값: 양쪽검정이고 유의수준이 5%이므로 4. 검정통계량의 값 5. 의사결정 Z z0 Reject H0 if | z0 | z / 2 X 36.5 N (0,1) 6.02 / 49 z0.025 1.96 39.08 36.5 3.0 6.02 / 49 |3|>1.96이므로 귀무가설을 기각한다. 즉 종전 제품과 차이가 있다고 볼 수 있다. 21 예제9.2 • 어느 공장에서 생산되는 A 제품의 평균 무게는 4kg이라 고 한다. 여기서 크기 10인 표본을 임의추출하여 그 무게 를 측정해보니 다음과 같았다. 3.72 3.61 3.80 3.96 4.03 3.56 3.90 3.67 4.10 3.85 이 제품의 무게가 정규분포를 따른다고 할 때, 모평균은 4kg보다 작다고 할 수 있는지를 유의수준 5%에서 검정하여라. 22 • 예제9.2 풀이 • 주어진 조건: 0 4 n 10 X 3.82 s 0.18 H 0 : 4 vs H1 : 4 1. 가설: 2. 검정통계량의 분포: 3. 임계값: 좌측검정이고 유의수준이 5%이므로 t0.05 (9) 1.833 4. 검정통계량의 값 5. 의사결정 T t0 Reject H0 if t0 t X 4 t (9) s / 10 3.82 4 3.16 0.18 / 10 -3.16<-1.833이므로 귀무가설을 기각 즉 모평균은 4kg보다 작다고 볼 수 있다. 23 T 검정 • T 검정이란 두 모집단의 평균에 대한 검정을 말한다. H 0 : 1 2 vs H1 : 1 2 H 0 : 1 2 vs H1 : 1 2 H 0 : 1 2 vs H1 : 1 2 • 독립표본 T 검정: 서로 독립인 두 모집단의 평균에 대한 검정 • 대응표본 T 검정: 쌍으로 수집되는 자료의 평균에 대한 검정 24 독립표본 T 검정의 예 • 특정한 기술의 교육방법 두 가지를 비교하기 위해 20명을 대상으로 10명을 랜덤추출하여 방법 I을, 나머지는 방법 II를 적용하여 교육시 킨 후 실제 일을 끝내는 데에 소요되는 시간을 기록한 결과가 다음 과 같다. 시간(분) ---------------------------------------------방법 I 15 20 11 23 16 21 18 16 27 24 방법 II 23 31 13 19 23 17 28 26 25 28 ---------------------------------------------이 자료로부터 방법 I에 의한 평균작업시간이 방법II에 의한 경우보 다 훨씬 적다고 결론을 내릴 수 있는가? 유의수준 5%로 검정하라 25 대응표본 T 검정의 예 • 16세 소년 10명을 대상으로 아침 기상시와 저녁 취침시 의 키를 측정하여 다음과 같은 결과를 얻었다. 소년 1 2 3 4 5 6 7 8 9 10 아침 169.7 168.5 165.9 177.7 179.6 168.8 169.2 167.9 181.8 163.3 저녁 168.2 165.5 164.4 175.7 176.6 166.5 167.4 166.3 179.7 161.5 이 자료로 보아 이 16세 소년들의 키는 저녁에 아침보다 줄어든다고 할 수 있는지 유의수준 5%에서 검정하여라. 26 독립표본 T 검정의 검정통계량 • 모집단1, 2의 분포: N ( 1 , 12 ) • 표본1: X 1 , X 2 , , X m • 표본2: Y1 , Y2 ,, Yn • 표본평균: X • 2 표본분산: S1 • (m 1) S12 (n 1) S 22 합동분산: S mn2 • 검정통계량 (두 모표준편차가 같을 때) N ( 21 , 22 ) 1 1 X , Y i Yi m n 1 ( X i X )2 m S 22 1 (Yi Y ) 2 n 2 p X Y T t (m n 2) 1 1 sp m n 27 대응표본 T 검정의 검정통계량 • 표본: ( X 1 , Y1 ), ( X 2 , Y2 ), , ( X n , Yn ) • 자료의 변환: 각 자료의 차를 계산한다. 즉 Di X i Yi • 새로운 표본: D1 , D2 ,, Dn • 표본평균과 표본분산 계산 D • 검정통계량 1 1 2 D S ( Di D ) 2 i D n n D T t (n 1) sD / n 28 독립표본 T 검정 절차 1. 두 모집단의 분산이 같은지의 여부 검정 즉 등분산검정 – 𝜎12 𝐻0 : 2 𝜎2 = 1 𝑣𝑠 𝜎12 𝐻1 : 2 𝜎2 <1 2. 두 모집단의 평균에 대한 검정 H 0 : 1 2 vs H1 : 1 2 H 0 : 1 2 vs H1 : 1 2 H 0 : 1 2 vs H1 : 1 2 29 독립표본 T 검정 실습 • 특정한 기술의 교육방법 두 가지를 비교하기 위해 20명을 대상으로 10명을 랜덤추출하여 방법 I을, 나머지는 방법 II를 적용하여 교육시 킨 후 실제 일을 끝내는 데에 소요되는 시간을 기록한 결과가 다음 과 같다. 시간(분) ---------------------------------------------방법 I 15 20 11 23 16 21 18 16 27 24 방법 II 23 31 13 19 23 17 28 26 25 28 ---------------------------------------------이 자료로부터 방법 I에 의한 평균작업시간이 방법II에 의한 경우보 다 훨씬 적다고 결론을 내릴 수 있는가? 유의수준 5%로 검정하라 30 엑셀에서 독립표본 T 검정-1 자료입력 31 엑셀에서 독립표본 T 검정-2 [데이터]-[데이터분석] 이용 32 엑셀에서 독립표본 T 검정-3 분석 결과 33 결과해석 - 등분산검정 • 가설: 𝜎12 𝐻0 : 2 𝜎2 = 1 𝑣𝑠 𝜎12 𝐻1 : 2 𝜎2 <1 • 검정통계량의 분포: 자유도 (9,9)인 F 분포 • 임계값: 𝐹0.05 9,9 • 검정통계량의 값: • 의사결정 1 = = 0.314465 3.18 23.21 𝐹0 = = 0.7511 30.9 – Reject H0 if 𝐹0 < 𝐹0.05 (9,9) – 0.7511 < ! 0.31이므로 귀무가설을 기각하지 못함. 즉 두 모집단의 분산은 같다고 할 수 있다. 34 결과 해석-평균비교(등분산) • 𝜇1 : 방법I 작업시간, 𝜇2 : 방법II 작업시간 1. 가설: 𝐻0 : 𝜇1 = 𝜇2 𝑣𝑠 𝐻1 : 𝜇1 < 𝜇2 (한쪽검정) 2. 검정통계량의 분포: 자유도 10+10-2=18인 t 분포 3. 임계값: 좌측검정이고 유의수준이 0.05이므로 −𝑡0.05 18 = −1.734 4. 검정통계량의 값: 𝑡0 = −1.80554 5. 의사 결정 – Reject H0 if 𝑡0 < −𝑡0.05 (18) – 그런데 −1.80554 < −1.734이므로 귀무가설을 기각 – 따라서 방법I에 의한 작업시간이 더 작다고 할 수 있다. 35 SPSS 결과 36 대응표본 T 검정의 예 • 16세 소년 10명을 대상으로 아침 기상시와 저녁 취침시 의 키를 측정하여 다음과 같은 결과를 얻었다. 소년 1 2 3 4 5 6 7 8 9 10 아침 169.7 168.5 165.9 177.7 179.6 168.8 169.2 167.9 181.8 163.3 저녁 168.2 165.5 164.4 175.7 176.6 166.5 167.4 166.3 179.7 161.5 이 자료로 보아 이 16세 소년들의 키는 저녁에 아침보다 줄어든다고 할 수 있는지 유의수준 5%에서 검정하여라. 37 엑셀에서 대응표본 T 검정-1 자료입력과 [데이터분석]을 이용한 분석 38 엑셀에서 대응표본 T 검정-2 분석 결과 39 결과 해석 • 𝜇1 : 아침키, 𝜇2 : 저녁키 1. 가설: 𝐻0 : 𝜇1 = 𝜇2 𝑣𝑠 𝐻1 : 𝜇1 > 𝜇2 (한쪽검정) 2. 검정통계량의 분포: 자유도 10-1=9인 t 분포 3. 임계값: 우측검정이고 유의수준이 0.05이므로 𝑡0.05 9 = 1.833 4. 검정통계량의 값: 𝑡0 = 11.67 5. 의사 결정 – Reject H0 if 𝑡0 > 𝑡0.05 (9) – 그런데 11.67 > 1.833이므로 귀무가설을 기각한다. – 따라서 아침의 키는 저녁의 키보다 크다고 할 수 있다. 40 SPSS 결과 41 P-value(유의확률) 검정통계량의 값이 𝑡0 = 을 p-value라고 한다. • • • 𝑋−𝜇0 일 𝑠/ 𝑛 때, 확률 𝑷( 𝑻 > 𝒕𝟎 ) 한쪽(우측)검정일 때, 위 그림에서 𝑡0 > 임계값 이다. 이때, 확률을 비교해보자. P T > 임계값 P(T > t 0 ) 42 P-value를 이용한 의사결정 • 일반적으로 통계패키지 에서는 오른쪽 그림과 같이 유의확률(양쪽)과 같이 p-value가 주어진다. • 한쪽검정: Reject H0 if p-value/2 < 유의수준 • 양쪽검정: Reject H0 if p-value < 유의수준 43