Transcript 분산분석
분산분석 (ANOVA: Analysis of Variance) 선우하식 1 용어 • 반응변수(종속변수): 관측하고자 하는 물리적인 양 • 요인(factor): 반응변수에 영향을 미치는 변수 • 수준: 요인의 여러 가지 값 • 예 – 벼 종자 5종류가 있다. 종자에 따른 수확량에 차이가 있는지 알 아보고자 한다. – 반응변수: 수확량 – 요인: 벼 종자 – 수준: 5종류의 종자 2 실험계획법 관심있는 문제 해결을 위하여 • 실험을 어떻게 행하고 • 자료를 어떻게 수집하고 • 어떤 통계기법으로 자료를 분석하는 방법 실험계획법의 목적 • 최소의 실험으로 최대의 정보 도출 3 분산분석의 종류 일원배치분산분석 • One-way ANOVA • 요인이 하나인 분산분석 이원배치분산분석 • Two-way ANOVA • 요인이 2개인 분산분석 4 일원배치분산분석 - 자료 하나의 요인(A)에 대하여 요인의 값을 𝐴1 , 𝐴2 , ⋯ , 𝐴𝑘 만큼 변화하면 반응변 수의 값을 각각 𝑛회씩 반복하여 측정 요인 … 𝑨𝟏 𝑨𝟐 1 2 . . . n 𝑦11 𝑦12 . . . 𝑦1𝑛 𝑦21 𝑦22 . . . 𝑦2𝑛 𝑦𝑘1 𝑦𝑘2 . . . 𝑦𝑘𝑛 합계 𝑦1. 𝑦2. 𝑦𝑘. 평균 𝑦1. 𝑦2. 𝑦𝑘. 반복 𝑨𝒌 5 분산분석표 작성 요인 제곱합 자유도 평균제곱합 인자(집단간) SSR k-1 MSR=SSR/(k-1) 오차(집단내) SSE k(n-1) 전체 SST nk-1 여기서 SST = =𝑛 𝑦𝑖𝑗 − 𝑦.. 𝑦𝑖. − 𝑦.. F값 MSE=SSE/k(n-1) 𝐹= 𝑀𝑆𝑅 𝑀𝑆𝐸 유의확률 P-value 2 2 + 𝑦𝑖𝑗 − 𝑦.. 2 Error Sum of Squares = SSR + SSE (집단간) + (집단내) 참고: F = MSR/MSE 이므로 집단간의 차이가 클수록 F 값이 커진다. 6 분산분석에서의 가설과 검정 방법 • 귀무가설(H0) – 요인에 따른 차이가 없다. – 각 그룹간의 평균이 모두 같다. – 요인이 반응변수에 영향을 미치지 않는다. • 대립가설(H1) – 요인에 따른 평균의 차이가 있다. – 적어도 2그룹의 평균은 차이가 있다. – 요인이 반응변수에 영향을 미친다. • 가설 검정 방법 – Reject H0 if p-value < 유의수준 7 일원배치분산분석 예제 • 예제11.3 • 어느 직공의 생산성이 일주일(5일) 동안 한결 같은지를 알아 보려고 다음과 같이 무작위로 생산성을 기록하였다. 월 화 수 목 금 반복 측정 143 128 110 124 130 162 136 144 158 150 160 132 180 160 138 138 168 120 122 162 110 130 135 120 130 표본크기 표본합계 표본평균 5 635 127 5 750 150 5 770 154 5 710 142 5 625 125 8 엑셀을 이용한 일원배치분산분석 열 방향 9 분산분석 결과 따라서 이 직공은 요일에 따른 생산성에 차이가 있다고 볼 수 있다. 이때 이 분산분석은 통계적으로 유의하다고 한 다. P-value가 0.02로 유 의수준 0.05보다 작으 므로 귀무가설을 기 각한다. 10 11 반복없는 이원배치분산분석 • 실험 설계 및 자료의 구조 요인B-1 요인B-2 ... 요인B-b 요인A-1 𝑦11 𝑦12 𝑦1𝑏 요인A-2 𝑦21 𝑦22 𝑦2𝑏 𝑦𝑎1 𝑦𝑎2 𝑦𝑎𝑏 ... 요인A-a 12 분산분석표(반복없는 경우) 요인 제곱합 자유도 평균제곱합 F값 P값 요인A 요인B 잔차 SSA SSB SSE (a-1) (b-1) (a-1)(b-1) MSA=SSA/(a-1) MSB=SSB/(b-1) MSE=SSE/(a-1)(b-1) FA=MSA/MSE FB=MSB/MSE 𝑃𝐴 𝑃𝐵 전체 SST ab-1 요인 효과 검정 • H0: 요인 A 영향 없다 vs H1: 요인 A 영향있다. Reject H0 if 𝑷𝑨 < 유의수준 • H0: 요인 B 영향 없다 vs H1: 요인 B 영향있다. Reject H0 if 𝑷𝑩 < 유의수준 13 반복없는 이원배치분산분석-예제 • 4개 자동차 회사에서 생산되는 소형차를 6명의 운전자에게 운전하 게 하여 휘발율 1리터 당 주행거리를 측정한 결과가 다음과 같았다. 운전자1 운전자2 운전자3 운전자4 운전자5 운전자6 가 15 10 13 14 17 9 나 17 12 18 13 15 12 다 17 7 9 13 8 12 라 10 12 8 7 9 11 • 차종에 따라 리터당 주행거리가 차이가 있는가? 또 운전자에 따라 리터당 주행거리가 차이가 있는지 유의수준 5%에서 각각 검정하여 라. 14 엑셀 분석 15 분석 결과 분산 분석: 반복 없는 이원 배치법 요약표 관측수 합 평균 분산 가 6 78 13 9.2 나 6 87 14.5 6.7 다 6 66 11 14 라 6 57 9.5 3.5 운전자1 4 59 14.75 10.91667 운전자2 4 41 10.25 5.583333 운전자3 4 48 12 20.66667 운전자4 4 47 11.75 운전자5 4 49 12.25 19.58333 운전자6 4 44 • 𝑃𝐴 = 0.037 < 0.05이므 로 자동차 회사에 따른 연비의 차이는 있다고 할 수 있다. • 𝑃𝐵 = 0.366 > 0.05이므 로 운전자에 따른 차이 는 없다고 할 수 있다. 10.25 11 2 분산 분석 변동의 요인 제곱합 자유도 제곱 평균 F비 P-값 F 기각치 인자 A(행) 87 3 29 3.625 0.037889 3.287382 인자 B(열) 47 5 9.4 1.175 0.366563 2.901295 잔차 120 15 8 계 254 23 16 예제11.5(반복없는 이원배치) • 어느 화학공정에서 제품의 수율(yield)에 영향을 미칠 것으로 생각되는 반응온도(A)와 원료 (B)를 요인으로 택하고, 각 요인의 수준은 다음과 같이 분류하였다. • 반응온도(A): 180도, 190도, 200도, 210도 • 원료(B): K회사, L회사, M회사 K회사 L회사 M회사 평균 180도 190도 200도 210도 87.6 88.6 89.0 88.0 87.3 88.2 88.0 87.7 86.7 86.9 87.9 86.5 87.2 87.9 88.3 87.4 평균 88.3 87.8 87.0 87.7 17 분석 결과 분산 분석: 반복 없는 이원 배치법 요약표 180도 190도 210도 220도 관측수 3 3 3 3 합 261.6 263.7 264.9 262.2 평균 87.2 87.9 88.3 87.4 분산 0.21 0.79 0.37 0.63 K회사 L회사 4 4 353.2 351.2 88.3 0.386667 87.8 0.153333 M회사 4 348 87 0.386667 • 𝑃𝐴 = 0.016 < 0.05이므 로 온도에 따른 수율의 차이는 있다고 할 수 있 다. • 𝑃𝐵 = 0.002 < 0.05이므 로 원료에 따른 수율의 차이는 있다고 할 수 있 다. 분산 분석 변동의 요인 인자 A(행) 인자 B(열) 잔차 계 제곱합 2.22 3.44 0.56 6.22 자유도 제곱 평균 F비 P-값 F 기각치 3 0.74 7.928571 0.01647 4.757063 2 1.72 18.42857 0.002744 5.143253 6 0.093333 11 18 반복있는 이원배치분산분석 • 실험 설계 및 자료의 구조 요인B-1 요인B-2 ... 요인B-b 요인A-1 𝑦111 , 𝑦112 𝑦121 , 𝑦122 𝑦1𝑏1 , 𝑦1𝑏2 요인A-2 𝑦211 , 𝑦212 𝑦221 , 𝑦222 𝑦2𝑏1 , 𝑦21𝑏2 𝑦𝑎11 , 𝑦𝑎12 𝑦𝑎21 , 𝑦𝑎22 𝑦𝑎𝑏1 , 𝑦𝑎𝑏2 ... 요인A-a 19 분산분석표(반복있는 경우) 요인 제곱합 요인A 요인B 교호작용 잔차 SSA SSB SSAB SSE 전체 SST 자유도 평균제곱합 F값 (a-1) MSA=SSA/(a-1) FA=MSA/MSE (b-1) MSB=SSB/(b-1) FB=MSB/MSE (a-1)(b-1) MSAB=SSAB/(a-1)(b-1) FAB=MSAB/ ab(n-1) MSE=SSE/ab(n-1) MSE P값 𝑃𝐴 𝑃𝐵 𝑃𝐴𝐵 abn-1 주요인 효과 검정 (main effect) • H0: 요인 A 영향 없다 vs H1: 요인 A 영향있다. Reject H0 if 𝑷𝑨 < 유의수준 • H0: 요인 B 영향 없다 vs H1: 요인 B 영향있다. Reject H0 if 𝑷𝑩 < 유의수준 교호작용 검정 (interaction effect) H0: 교호작용 없다 vs H1: 교호작용 있다. Reject H0 if 𝑷𝑨𝑩 < 유의수준 20 교호작용 • 두 요인의 수준에 따른 조합에서 생기는 효과를 교호작용이라고 한다. • 예를 들어 어느 화학 실험에서 혼합물을 생성하 는데 온도와 압력은 각각 그 자체로는 영향을 미 치지 않는데 반하여, 적당한 온도와 압력일 때 혼합물의 생성량이 급격히 증가하는 등의 효과 를 교호작용이라고 한다. 21 예제11.6(반복있는 이원배치) 종합반응에서 약품의 흡수속도가 제조시간에 영향을 미치고 있음을 알 수 있 다. 큰 요인이라고 생각되는 반응온도(A)와 촉매량(B)을 취급하여 다음의 실험 조건으로 각 2회 반복하여 다음과 같은 결과를 얻었다. 110°C 120°C 130°C 0.20% 0.40% 0.60% 0.80% 11.8 13.2 13.3 14.2 12.5 12.8 13.5 13.9 12.4 12.7 13.5 14 12.2 12.5 14 13.9 13.1 13.3 14 14.5 13.9 13 13.9 14.8 분산 분석 결과는? 22 엑셀 분석 23 분석 결과 분산 분석: 반복 있는 이원 배치법 요약표 0.002 0.004 0.006 2 2 2 0.008 계 110°C 관측수 합 24.3 평균 12.15 분산 0.245 13 8 26.8 28.1 105.2 13.4 14.05 13.15 0.08요인 0.02제곱합 0.045 0.597143 변동의 자유도 인자 A(행) 120°C 관측수 26 분산 분석 2 2 2.340833 2 2 25.2 27.5 인자 B(열) 제곱 평균 F비 P-값 F 기각치 2 1.170417 14.40513 0.000646 3.885294 3 3.099306 38.1453 2.05E-06 3.490295 13.15 6 0.175972 2.165812 0.119954 2.99612 0.005 0.602857 0.975 12 0.08125 2 8 27.9 105.2 9.297917 합 24.6 평균 12.3 교호작용 12.6 13.75 1.055833 13.95 분산 0.02 잔차 0.02 0.125 130°C 관측수 2 합 27 평균 13.5 분산 0.32 계 관측수 합 평균 6 75.9 12.65 분산 0.555 계 2 26.3 2 13.66958 2 27.9 29.3 8 110.5 23 13.95 14.65 p-value=0.00046<0.05이므로 13.8125 • 13.15 요인A(온도): 통계적으 0.045 0.005 0.045 0.418393 로 유의하다. 즉 온도에 따른 차이가 있다. • 요인B(촉매량): p-value=0.000002<0.05이므로 통계적 6 6 6 으로 82.2 유의하다. 즉 촉매량에 따른 차이가 있다. 77.5 85.3 12.91667 13.7 14.21667 • 교호작용: p-value=0.119>0.05이므로 교호작용은 없 0.093667 0.092 0.133667 다. 24 예제(반복있는 이원배치) • 빵의 맛에 영향을 주는 두 요인으로 굽는 시간과 온도의 효과를 조사하고자 실험을 실시하였다. 전문가가 빵의 맛에 대한 등급을 측정했으며 굽는 시간은 ‘짧다’, ‘중간’, ‘길다’ 등으로 3개의 수준 을 가진다. 굽는 온도 역시 ‘낮다’, ‘중간’, ‘높다’ 등으로 3개의 수준을 가진다. • 3명의 전문가가 각 경우마다 빵을 0에서 6까지 등급으로 평가한 자료가 다음과 같다. 짧다 중간 길다 낮다 0 0 3 2 3 4 4 5 6 중간 0 2 4 3 6 6 1 3 5 높다 4 5 6 1 2 3 0 1 2 25 엑셀 결과 분산 분석 변동의 요인 인자 A(행) 인자 B(열) 교호작용 잔차 계 제곱합 2 2 62 38 104 자유도 제곱 평균 F비 P-값 F 기각치 2 1 0.473684 0.630249 3.554557 2 1 0.473684 0.630249 3.554557 4 15.5 7.342105 0.001087 2.927744 18 2.111111 26 26