분산분석

Download Report

Transcript 분산분석

분산분석
(ANOVA: Analysis of Variance)
선우하식
1
용어
• 반응변수(종속변수): 관측하고자 하는 물리적인 양
• 요인(factor): 반응변수에 영향을 미치는 변수
• 수준: 요인의 여러 가지 값
• 예
– 벼 종자 5종류가 있다. 종자에 따른 수확량에 차이가 있는지 알
아보고자 한다.
– 반응변수: 수확량
– 요인: 벼 종자
– 수준: 5종류의 종자
2
실험계획법
관심있는 문제 해결을 위하여
• 실험을 어떻게 행하고
• 자료를 어떻게 수집하고
• 어떤 통계기법으로 자료를 분석하는 방법
실험계획법의 목적
• 최소의 실험으로 최대의 정보 도출
3
분산분석의 종류
일원배치분산분석
• One-way ANOVA
• 요인이 하나인 분산분석
이원배치분산분석
• Two-way ANOVA
• 요인이 2개인 분산분석
4
일원배치분산분석 - 자료
하나의 요인(A)에 대하여 요인의 값을 𝐴1 , 𝐴2 , ⋯ , 𝐴𝑘 만큼 변화하면 반응변
수의 값을 각각 𝑛회씩 반복하여 측정
요인
…
𝑨𝟏
𝑨𝟐
1
2
.
.
.
n
𝑦11
𝑦12
.
.
.
𝑦1𝑛
𝑦21
𝑦22
.
.
.
𝑦2𝑛
𝑦𝑘1
𝑦𝑘2
.
.
.
𝑦𝑘𝑛
합계
𝑦1.
𝑦2.
𝑦𝑘.
평균
𝑦1.
𝑦2.
𝑦𝑘.
반복
𝑨𝒌
5
분산분석표 작성
요인
제곱합
자유도
평균제곱합
인자(집단간)
SSR
k-1
MSR=SSR/(k-1)
오차(집단내)
SSE
k(n-1)
전체
SST
nk-1
여기서
SST =
=𝑛
𝑦𝑖𝑗 − 𝑦..
𝑦𝑖. − 𝑦..
F값
MSE=SSE/k(n-1)
𝐹=
𝑀𝑆𝑅
𝑀𝑆𝐸
유의확률
P-value
2
2
+
𝑦𝑖𝑗 − 𝑦..
2
Error Sum of
Squares
= SSR
+
SSE
(집단간)
+ (집단내)
참고: F = MSR/MSE 이므로 집단간의 차이가 클수록 F 값이 커진다.
6
분산분석에서의 가설과 검정 방법
• 귀무가설(H0)
– 요인에 따른 차이가 없다.
– 각 그룹간의 평균이 모두 같다.
– 요인이 반응변수에 영향을 미치지 않는다.
• 대립가설(H1)
– 요인에 따른 평균의 차이가 있다.
– 적어도 2그룹의 평균은 차이가 있다.
– 요인이 반응변수에 영향을 미친다.
• 가설 검정 방법
– Reject H0 if p-value < 유의수준
7
일원배치분산분석 예제
• 예제11.3
• 어느 직공의 생산성이 일주일(5일) 동안 한결 같은지를 알아
보려고 다음과 같이 무작위로 생산성을 기록하였다.
월
화
수
목
금
반복 측정
143
128
110
124
130
162
136
144
158
150
160
132
180
160
138
138
168
120
122
162
110
130
135
120
130
표본크기
표본합계
표본평균
5
635
127
5
750
150
5
770
154
5
710
142
5
625
125
8
엑셀을 이용한 일원배치분산분석
열 방향
9
분산분석 결과
따라서 이 직공은 요일에 따른 생산성에 차이가
있다고 볼 수 있다.
이때 이 분산분석은 통계적으로 유의하다고 한
다.
P-value가 0.02로 유
의수준 0.05보다 작으
므로 귀무가설을 기
각한다.
10
11
반복없는 이원배치분산분석
• 실험 설계 및 자료의 구조
요인B-1
요인B-2
...
요인B-b
요인A-1
𝑦11
𝑦12
𝑦1𝑏
요인A-2
𝑦21
𝑦22
𝑦2𝑏
𝑦𝑎1
𝑦𝑎2
𝑦𝑎𝑏
...
요인A-a
12
분산분석표(반복없는 경우)
요인
제곱합
자유도
평균제곱합
F값
P값
요인A
요인B
잔차
SSA
SSB
SSE
(a-1)
(b-1)
(a-1)(b-1)
MSA=SSA/(a-1)
MSB=SSB/(b-1)
MSE=SSE/(a-1)(b-1)
FA=MSA/MSE
FB=MSB/MSE
𝑃𝐴
𝑃𝐵
전체
SST
ab-1
 요인 효과 검정
• H0: 요인 A 영향 없다 vs H1: 요인 A 영향있다.
 Reject H0 if 𝑷𝑨 < 유의수준
• H0: 요인 B 영향 없다 vs H1: 요인 B 영향있다.
 Reject H0 if 𝑷𝑩 < 유의수준
13
반복없는 이원배치분산분석-예제
• 4개 자동차 회사에서 생산되는 소형차를 6명의 운전자에게 운전하
게 하여 휘발율 1리터 당 주행거리를 측정한 결과가 다음과 같았다.
운전자1 운전자2 운전자3 운전자4 운전자5 운전자6
가
15
10
13
14
17
9
나
17
12
18
13
15
12
다
17
7
9
13
8
12
라
10
12
8
7
9
11
• 차종에 따라 리터당 주행거리가 차이가 있는가? 또 운전자에 따라
리터당 주행거리가 차이가 있는지 유의수준 5%에서 각각 검정하여
라.
14
엑셀 분석
15
분석 결과
분산 분석: 반복 없는 이원 배치법
요약표
관측수
합
평균
분산
가
6
78
13
9.2
나
6
87
14.5
6.7
다
6
66
11
14
라
6
57
9.5
3.5
운전자1
4
59
14.75 10.91667
운전자2
4
41
10.25 5.583333
운전자3
4
48
12 20.66667
운전자4
4
47
11.75
운전자5
4
49
12.25 19.58333
운전자6
4
44
• 𝑃𝐴 = 0.037 < 0.05이므
로 자동차 회사에 따른
연비의 차이는 있다고
할 수 있다.
• 𝑃𝐵 = 0.366 > 0.05이므
로 운전자에 따른 차이
는 없다고 할 수 있다.
10.25
11
2
분산 분석
변동의 요인
제곱합
자유도
제곱 평균
F비
P-값
F 기각치
인자 A(행)
87
3
29
3.625 0.037889 3.287382
인자 B(열)
47
5
9.4
1.175 0.366563 2.901295
잔차
120
15
8
계
254
23
16
예제11.5(반복없는 이원배치)
•
어느 화학공정에서 제품의 수율(yield)에 영향을 미칠 것으로 생각되는 반응온도(A)와 원료
(B)를 요인으로 택하고, 각 요인의 수준은 다음과 같이 분류하였다.
•
반응온도(A): 180도, 190도, 200도, 210도
•
원료(B):
K회사, L회사, M회사
K회사
L회사
M회사
평균
180도
190도
200도
210도
87.6
88.6
89.0
88.0
87.3
88.2
88.0
87.7
86.7
86.9
87.9
86.5
87.2
87.9
88.3
87.4
평균
88.3
87.8
87.0
87.7
17
분석 결과
분산 분석: 반복 없는 이원 배치법
요약표
180도
190도
210도
220도
관측수
3
3
3
3
합
261.6
263.7
264.9
262.2
평균
87.2
87.9
88.3
87.4
분산
0.21
0.79
0.37
0.63
K회사
L회사
4
4
353.2
351.2
88.3 0.386667
87.8 0.153333
M회사
4
348
87 0.386667
• 𝑃𝐴 = 0.016 < 0.05이므
로 온도에 따른 수율의
차이는 있다고 할 수 있
다.
• 𝑃𝐵 = 0.002 < 0.05이므
로 원료에 따른 수율의
차이는 있다고 할 수 있
다.
분산 분석
변동의 요인
인자 A(행)
인자 B(열)
잔차
계
제곱합
2.22
3.44
0.56
6.22
자유도
제곱 평균
F비
P-값
F 기각치
3
0.74 7.928571 0.01647 4.757063
2
1.72 18.42857 0.002744 5.143253
6 0.093333
11
18
반복있는 이원배치분산분석
• 실험 설계 및 자료의 구조
요인B-1
요인B-2
...
요인B-b
요인A-1
𝑦111 , 𝑦112
𝑦121 , 𝑦122
𝑦1𝑏1 , 𝑦1𝑏2
요인A-2
𝑦211 , 𝑦212
𝑦221 , 𝑦222
𝑦2𝑏1 , 𝑦21𝑏2
𝑦𝑎11 , 𝑦𝑎12
𝑦𝑎21 , 𝑦𝑎22
𝑦𝑎𝑏1 , 𝑦𝑎𝑏2
...
요인A-a
19
분산분석표(반복있는 경우)
요인
제곱합
요인A
요인B
교호작용
잔차
SSA
SSB
SSAB
SSE
전체
SST
자유도
평균제곱합
F값
(a-1)
MSA=SSA/(a-1)
FA=MSA/MSE
(b-1)
MSB=SSB/(b-1)
FB=MSB/MSE
(a-1)(b-1) MSAB=SSAB/(a-1)(b-1) FAB=MSAB/
ab(n-1)
MSE=SSE/ab(n-1)
MSE
P값
𝑃𝐴
𝑃𝐵
𝑃𝐴𝐵
abn-1
 주요인 효과 검정 (main effect)
• H0: 요인 A 영향 없다 vs H1: 요인 A 영향있다.
 Reject H0 if 𝑷𝑨 < 유의수준
• H0: 요인 B 영향 없다 vs H1: 요인 B 영향있다.
 Reject H0 if 𝑷𝑩 < 유의수준
 교호작용 검정 (interaction effect)
 H0: 교호작용 없다 vs H1: 교호작용 있다.
 Reject H0 if 𝑷𝑨𝑩 < 유의수준
20
교호작용
• 두 요인의 수준에 따른 조합에서 생기는 효과를
교호작용이라고 한다.
• 예를 들어 어느 화학 실험에서 혼합물을 생성하
는데 온도와 압력은 각각 그 자체로는 영향을 미
치지 않는데 반하여, 적당한 온도와 압력일 때
혼합물의 생성량이 급격히 증가하는 등의 효과
를 교호작용이라고 한다.
21
예제11.6(반복있는 이원배치)
종합반응에서 약품의 흡수속도가 제조시간에 영향을 미치고 있음을 알 수 있
다. 큰 요인이라고 생각되는 반응온도(A)와 촉매량(B)을 취급하여 다음의 실험
조건으로 각 2회 반복하여 다음과 같은 결과를 얻었다.
110°C
120°C
130°C
0.20%
0.40%
0.60%
0.80%
11.8
13.2
13.3
14.2
12.5
12.8
13.5
13.9
12.4
12.7
13.5
14
12.2
12.5
14
13.9
13.1
13.3
14
14.5
13.9
13
13.9
14.8
분산 분석 결과는?
22
엑셀 분석
23
분석 결과
분산 분석: 반복 있는 이원 배치법
요약표
0.002
0.004
0.006
2
2
2
0.008 계
110°C
관측수
합
24.3
평균
12.15
분산
0.245
13
8
26.8
28.1
105.2
13.4
14.05
13.15
0.08요인 0.02제곱합
0.045 0.597143
변동의
자유도
인자 A(행)
120°C
관측수
26
분산 분석
2
2
2.340833
2
2
25.2
27.5
인자 B(열)
제곱 평균
F비
P-값
F 기각치
2
1.170417
14.40513
0.000646
3.885294
3
3.099306
38.1453
2.05E-06
3.490295
13.15
6
0.175972
2.165812
0.119954
2.99612
0.005 0.602857
0.975
12
0.08125
2
8
27.9
105.2
9.297917
합
24.6
평균
12.3
교호작용
12.6
13.75 1.055833
13.95
분산
0.02
잔차 0.02
0.125
130°C
관측수
2
합
27
평균
13.5
분산
0.32
계
관측수
합
평균
6
75.9
12.65
분산
0.555
계
2
26.3
2 13.66958
2
27.9
29.3
8
110.5
23
13.95
14.65 p-value=0.00046<0.05이므로
13.8125
• 13.15
요인A(온도):
통계적으
0.045
0.005
0.045 0.418393
로 유의하다. 즉 온도에 따른 차이가 있다.
• 요인B(촉매량): p-value=0.000002<0.05이므로 통계적
6
6
6
으로 82.2
유의하다.
즉 촉매량에 따른 차이가 있다.
77.5
85.3
12.91667
13.7 14.21667
• 교호작용:
p-value=0.119>0.05이므로 교호작용은 없
0.093667
0.092 0.133667
다.
24
예제(반복있는 이원배치)
•
빵의 맛에 영향을 주는 두 요인으로 굽는 시간과 온도의 효과를 조사하고자 실험을 실시하였다.
전문가가 빵의 맛에 대한 등급을 측정했으며 굽는 시간은 ‘짧다’, ‘중간’, ‘길다’ 등으로 3개의 수준
을 가진다. 굽는 온도 역시 ‘낮다’, ‘중간’, ‘높다’ 등으로 3개의 수준을 가진다.
•
3명의 전문가가 각 경우마다 빵을 0에서 6까지 등급으로 평가한 자료가 다음과 같다.
짧다
중간
길다
낮다
0
0
3
2
3
4
4
5
6
중간
0
2
4
3
6
6
1
3
5
높다
4
5
6
1
2
3
0
1
2
25
엑셀 결과
분산 분석
변동의 요인
인자 A(행)
인자 B(열)
교호작용
잔차
계
제곱합
2
2
62
38
104
자유도 제곱 평균
F비
P-값
F 기각치
2
1 0.473684 0.630249 3.554557
2
1 0.473684 0.630249 3.554557
4
15.5 7.342105 0.001087 2.927744
18 2.111111
26
26