9월 19일 신명희 교수님(12_3두표본및ANOVA)

Transcript 9월 19일 신명희 교수님(12_3두표본및ANOVA)

9. 두 표본의 가설 검정
: Two Sample Test
- paired t-test
- t-test
- modified t-test
1
Two Sample Test
• 단일표본의 평균치 검정에서는 한 개의 모집
단의 알려지지 않은 평균치 를 알려진 모평
균 0와 비교하였다..
• 더 흔한 경우는 두 개의 서로 다른 모집단의
평균 1와 2를 비교하는 것이다.
: Two Sample Test
• 그래서 두 모평균이 같은지를 증명하고자 한
다.
• 이때 두 모평균 1와 2는 알려져 있지 않은
(unknown) 값들이다.
2
• 두 모평균들이 짝을 지은 표본으로부터 도
출된 평균들인지, 두 개의 독립적인 표본
으로부터 도출된 평균들인지에 따라 가설
검정 방법이 달라진다.
– 1 and 2 came from two dependent data
(= a paired data)
– 1 and 2 came from two independent data
3
Paired data
• 짝을 지은 두 표본을 비교하는 경우 한 집
단의 각 측정치는 다른 집단의 특정 값과
대응하게 된다. (paired or dependent
data)
4
An example of pairing 1
: 자가 짝짓기
• 자가 짝짓기(self-paring)는 한 사람에게서 두 개
의 측정이 일어났을 때 사용한다.
• 수면제의 효과를 파악하기 위하여 10명
환자에게 수면제 한 번, 위약 한 번을
투여하였다.
• 환자 별로 수면제를 준 날 밤의 수면 시간과
위약을 준 날 밤의 수면 시간을 각각 측정하였다.
• 환자당 1 쌍의 수면 시간, 즉 (수면제를 준 날 수
면 시간, 위약을 준 날의 수면 시간) 이 기록될
것이다.
5
Sleep duration
under pill A
Sleep duration
under Placebo
Participant 1
Participant 2
Participant 2
Participant 1
Participant 3
Participant 4
Participant 3
Participant 4
Participant 10
Participant 10
A sleep
duration
under A
and the
sleep
duration
under
placebo
are from
the same
participant.
𝑆𝑙𝑒𝑒𝑝 𝐷𝑢𝑟𝑎𝑡𝑖𝑜𝑛𝑖 = 𝑆𝑙𝑒𝑒𝑝 𝐷𝑢𝑟𝑎𝑡𝑖𝑜𝑛 𝑜𝑓 𝑝𝑖𝑙𝑙 𝐴𝑖 −
𝑆𝑙𝑒𝑒𝑝 𝐷𝑢𝑟𝑎𝑡𝑖𝑜𝑛 𝑜𝑓 𝑃𝑙𝑎𝑐𝑒𝑏𝑜𝑖
6
An example of pairing 2
: 두 독립표본의 matching
• 첫 집단에 속한 사람과 성, 연령 등에 있어 비슷한
성격을 가진 사람을 두 번째 집단에서 골라 짝을
지을 수 있다.
• We want to know if BP is higher in renal
syndrome patients than in healthy persons.
• Blood pressure was measured from patients with
renal syndrome and healthy controls.
• We want to compare the mean BP of patients
with renal syndrome and that of healthy controls.
• By design, we match (or pair) a patient with a
control person based on his/her sex, age and
race.
7
Patients with
renal syndrome
Male, age=29, White
Healthy control
persons
Female, age=49, Asian
Female, age=44, Asian
Male, age=25, White
Male, age=31, Black
Male, age=35, Black
Male, age=31, White
Male, age=27, White
Matching
Variable:
-Sex
-Age(5)
-Race 8
Why do we pair?
• 짝짓기를 하는 이유는 외적 변이도를
최소한으로 유지하고자 하는 목적에 있다.
• Ex1) We want to control the variations in BP
due to other factors such as age, sex, race,
obesity, genetic composition etc. By paring
BPs from the same patient, we are able to
control the variation for everything other
than the treatment A.
• Ex2) By paring BPs from a patient and a
control with the same sex, age, and race,
we are able to control the variation for sex,
age, and race other than the disease status.
9
Paring 을 무시하고 분석하면?
• Example 1에서 수면제를 준 날의 평균 수면
시간과 위약을 준 날의 평균 수면 시간을 비
교하여 수면제 효과를 평가하게 되면, 같은
사람의 측정치가 2회 들어가게 되는 특수 상
황을 무시하게 된다.
• 즉, 불필요한 외적 변이도를 계속 유지한 채
로 분석하게 되어 연구 검정력을 떨어뜨린다.
• 따라서 Treatment A 군의 특정 값은 placebo
군의 특정값 하고만 비교한다.
10
Hypothesis test for paired data
11
Hypothesis for paired data
• If =0, the pill has no effect.
H0 :  =  0 = 0
H1 :   0
• 각 약을 주었을 때의 수면시간을 두 개의
독립적인 측정으로 간주하지 않고 각 쌍의 값의
차이에 초점을 맞춘다.
• i 번째 사람의 수면 시간의 차는, di  xi1  xi 2 이
다.
12
• 각 사람들의 수면 시간의 차 d i 가 정규분포를 하
고 그 평균이 라 하자.
• 각 차들은 한 개의 관측치로 취급할 수 있으며,
알려진 모평균 0 에 대한 단일표본 t-검정을
시행할 수 있게 된다.
• The test method becomes the same as the
one-sample t-test.
13
짝지은 t 검정 Paired t-test
• Sample mean of the d i is,
 di
d 
n
n
i 1
• And the standard deviation is,
sd 
 n 2  n 2 
 d )2
   di    di  n (n  1)
n 1
 i 1 
i 1

in1 (di
where n is number of pairs.
• Test statistics is t  d  0 , d.f.=n-1
sd / n
• If t  tn 1,1 2 or t  tn 1,1 2 then we reject H0.
14
Example
• 위약과 비교하였을 때 개인별로 수면제를 주어
서 증가한 수면 시간을 10명에 대해 평균을 내면
d  1.78 이며, 그 표준편차는 sd  1.77 이다.
• 표준오차는 s / n  1.77 / 10 =0.56 시간이 된
다.
• 수면 시간의 차이가 정규 분포를 따른다면
t= ( x   ) /( s / n ) 은 자유도 9인 t 분포를 따른다.
d 0
t
s/ n
1.78

 3.18 with d.f.=9
0.56
15
T-distribution table 읽기
• 자유도 9인 t 분포의 양측 (two-sided) 5%
퍼센티지 포인트는 2.26이고, 이는 절대값
이 2.26이 넘는 t 값이 관찰될 확률은 5%
임을 의미한다. 2% 퍼센티지 포인트가
2.82, 1%의 경우 3.25이다. 따라서 관찰된
t 값인 3.18은 2.82와 3.25 사이에 있으므
로, 이 값을 관찰할 확률은 2%와 1% 사이
이다.
16
• What is the degrees
of freedom?
t-distribution table
• What is the p-value?
t-distribution with 10 d.f.
17
검정 결론
• 수면 시간의 차이는 따라서 2% 수준에서
유의하다 (significant at the 2% level)고 말할 수
있다. 왜냐하면 이 정도의 큰 차이가 우연에
의해서 나타날 확률은 2%가 안 되기 때문이다. P
값은 P<0.02 또는 0.01<P<0.02로 표시한다.
• 결론: 귀무가설을 기각한다. 수면제와 위약간에
수면 시간에 있어서 차이가 있으며 사실상 수면
시간을 늘려준다.
18
정확한 t1-α/2 혹은 p-value 구하기
• 이론적으로는 3.18이라는 t 값에 대응되는 정확한
확률을 계산할 수 있으며 일부 컴퓨터 프로그램은
그러한 기능을 가지고 있다.
• 그러나 손으로 계산으로 하기 위해서는 각
자유도에 대하여 다양한 t 값에 대한 확률표를
가지고 있어야 한다.
• 이는 매우 방대한 양이기 때문에 대부분의 경우
해당 자유도에 있어 몇 가지 퍼센티지 포인트만
제시해 준다.
• 만일 계산된 t값이 표에 존재하지 않는 값이라면
그 값에 가장 가까운 두 값을 찾아 p-값의 범위를
제시할 수 있다. 이 정도도 가설검정의 결론을 내
리는 데는 지장이 없다.
19
Estimation of true increase
• 일단 약이 실제 효과가 있다는 사실을
파악한 후에는 일반적으로 그 약에 의하여
증가하는 수면 시간이 어느 정도인지
제시할 필요가 있다.
• 이것은 (예를 들어) 95% 신뢰 구간으로 제
시된다.
20
100(1-α)% Confidence Interval in
paired data
• 짝을 지은 두 표본의 모평균들의 차이의 모평균에 대한
100%x(1-α) 신뢰구간은,
 sd 
d  t n 1,1 / 2 

 n
• 위의 예에서 투약으로 인해 증가한 수면시간의 모평균의
95% 신뢰구간은,
1.78±(2.26×0.56)
(0.51, 3.05)
• 즉, 0.51에서 3.05 시간이다.
21
신뢰구간의 가설검정적 해석
• 이 결과를 가지고 가설검정에 준하는
해석을 내려보자.
• 이 구간에는 귀무가설인 “0 시간 증가” 가
포함되지 않으므로 결론은 “투약으로 인해
수면시간이 1.78시간 증가하며 이는 5%
유의수준에서 통계학적으로 유의한
증가이다.”
22
독립된 두 표본의 t 검정
• 지금부터는 두 개의 독립된 표본들에서의 평
균치 비교를 해 보고자 한다.
• 독립된 표본들이라 함은 한 표본의 측정치는
다른 표본의 측정치와 아무 관련 없이 측정되
는 자료들이다.
• 한 표본의 모평균과 다른 표본의 모평균은 둘
다 알려지지 않은 값이다.
• 우리는 두 독립된 표본 평균치들이 같은 모평
균에서 나온 것인지 서로 다른 모평균에서 나
온 것인지를 판정하고자 한다.
23
두 독립 표본의 예
• Cystic fibrosis(낭성 섬유증) 아동과 정상
아동의 혈중 철분 수준을 비교하고자 한다.
• 정상아 중 무작위로 n1=9명을 뽑고 Cystic
fibrosis 환아 중 무작위로 n2=13명을 뽑았다.
• 두 집단의 표본 수는 달라도 된다.
• 두 집단의 혈중 철분 값은 독립적이며 정규분
포를 한다.
• 정상아군은 평균 1 분산 12 을 갖고 cystic
fibrosis 군은 평균 2 분산 22 을 갖는다.
24
Normal Control
Children
Cystic Fibrosis
Patients
Fe levels in
normal
children and
those in cystic
fibrosis
patients are
independently
measured.
1,
2,
12
22
25
Two sample t-test
• 귀무가설과 대립가설은:
H0 : 1 = 2
H1 : 1  2
• 만일 두 표본의 평균치가 너무 많이 차이 나면,
즉 | x1  x 2 | 가 0 에서 너무 많이 떨어져 있으면
H0 를 기각한다.
1 = 2 = 0?
26
Distribution of the differences of
the two means
• 우리는
x ~ ( ,
2
n
)
이면,
x1  x 2 ~ ( 1   2 ,
임을 배웠다.
1
2
n1

2
2
n2
)
Controls
Cystic fibrosis
𝑥1
𝑥2
12
22
n1
n2
27
Variance of the differences of the
two means
• 두 집단의 평균 차의 분산을 추정하는 과정에서
두 가지 상황이 벌어질 수 있다.
1) 두 집단의 분산이 같은 경우
  2  
2
1
2
2
2) 두 집단의 분산이 다른 경우
1   2
2
2
28
등분산 가정시 Equal Variances
• 두 집단의 분산이 같고 모분산을 알고 있다고 하
2
2
2





자.( 1
)
2
• 그러면 위의 식은,
1
2 1
x1  x2 ~  ( 1   2 , (  ))
n1 n2
• 따라서 검정 통계량 z 로 가설검정 한다.
z
( x1  x 2 )  ( 1   2 )
 2 [(1 / n1 )  (1 / n 2 )]
29
Z- distribution (표준정규분포)
30
Unknown but Equal Variances
• 두 집단의 분산이 같되 모분산을 모르면 표본 분산 sp2 을
사용해야 한다.
• 이 경우 t 검정통계량을 산출한다.
( x1  x 2 )  ( 1   2 )
t
with d.f.=n1+n2-2
s p [(1 / n1 )  (1 / n 2 )]
2
• 여기서 쓰인 공통표본분산 sp2 (pooled estimate of the
variance)는 다음과 같이 구한다.
sp
2
(n1  1) s  (n2  1) s2

n1  n2  2
2
1
2
(즉 s12 과 s22 의 가중평균)
Controls
Cystic fibrosis
𝑥1
𝑥2
s12
s22
n1
n2
31
t-distribution
• A collection of distribution depending on
the degrees of freedom.
32
Two sample t-test
• 귀무가설 1 - 2=0 하에서 t 검정통계량은 t
분포를 따르며, 자유도는 n1 + n2-2 이다.
• t 검정통계량을 이용하여 우리가 관찰한 | x1  x 2 | 값
혹은 이보다 더 큰 값을 관찰할 확률이 얼마인지 구
하면 그것이 p-value 이다.
• 만일 이 p-value <  면 귀무가설을 기각한다.
• 만일 이 p-value   면 귀무가설을 기각하지
못한다.
• 이러한 가설 검정 방법을 두 표본 t 검정법 (twosample t test) 이라고 한다.
33
Cystic Fibrosis Example
• Cystic fibrosis의 예로 유의수준 0.05에서 가설검
정을 시행하자.
• 9명의 정상아들에서 혈중 철분을 잰 결과
평균은 x1  18.9 mol/l, 그리고 표준편차 s1=5.9
mol/l이었다.
• 13명의 cystic fibrosis 환아들의 혈중 철분
평균값은 x2  11.9 mol/l, 그리고 표준편차
s2=6.3mol/l이었다.
• We will assume the two samples are
normally distributed and  12   22   2 .
34
• 두 군의 모집단의 공통분산 2를 모르고
있으므로 공통 표본분산을 구해야 한다.
(n1  1)s1  (n2  1)s2
sp 
n1  n2  2
2
2
2
(9  1)5.92  (13  1)6.32

9  13  2
 37.74
• 따라서 검정통계량 t 는,
t
( x1  x2 )  ( 1  2 )
2
sp [(1 / n1 )  (1 / n2 )]
(18.9  11.9)  0

(37.74)(1 / 9)  (1 / 13)
 2.63
35
• What is the degrees
of freedom?
t-distribution table
• What is the p-value?
t-distribution with 10 d.f.
36
검정 결론
• 자유도 20인 t 분포에서 2.63은 윗 꼬리 부분
확률이 0.01(t20,0.99=2.528) 과
0.005(t20,0.995=2.845) 사이인 지점에 해당한다.
• 따라서 양측 p-value는,
2(0.005) < p < 2(0.01)
또는 0.01 < p < 0.02 이다.
• p < 0.05 이므로 귀무가설을 기각한다.
• 결론: 두 집단의 평균 혈중 철분 농도에 차이가
있다. 사실상 cyctic fibrosis 환아들에서의 철분
농도가 정상아들보다 더 낮다.
37
등분산 가정하에서의 100(1-α)% CI
• t 분포 하에서의 1   2 의 100(1-)% 신
뢰구간은
x1  x2 t
s p 1 n1  1 n2 
2
d ,1 2
• If the 95% CI does not include the null
hypothesis value (=0), “The mean
difference of the two samples is
statistically significant at 5% significance
level”.
38
True difference of iron levels
• cystic fibrosis 환아와 정상아의 혈중 철분농도의
평균치 차는 x1  x2 = 7.0 이다.
• 이 값은 1   2 의 점추정치 이다.
• 자유도 20인 t분포에서 95%의 관찰치가 -2.086
과 2.086 사이에 존재한다. 즉 t20,0.975=2.086이다.
• 1   2 의 95% 신뢰구간은
(18.9  11.9)  td ,0.975 37.74(1 9  1 13)
(18.9  11.9)  2.086 37.74(1 9  1 13)
=(1.4, 12.6)
• 이 구간은 0을 포함하지 않으므로 ( )%유의 수준
에서 유의한 결과이다.
39
두 집단의 분산이 다른 경우
Unequal Variances
• 이런 경우에는 공통표본분산을 산출하는 의미가 없어진
다.(no sp).
• 따라서 약간 변형된 t 검정법을 사용하여야 한다.
(modified version of the two-sample t test)
2
2


•
x1  x 2 ~ ( 1   2 , 1  2 )
n1
n2
이므로 σ 대신 s 를 사용한다. 따라서 검정통계량은,
t
( x1  x2 )  ( 1   2 )
( s1 / n1 )  ( s2 / n2 )]
2
2
• 불행히도 이 통계량의 분포가 어떤 모양을 가지는지 정
확하게 그려내기가 힘들다.(don’t know the d.f.)
40
Satterthwaite approximation
• 그러나 귀무가설 1 - 2=0 하에서는 이 통계량이 대략
적으로 자유도 d” 하에서 t 분포를 따르게 된다.
• d’ 를 다음과 같다고 하자.
d' 
(s

2
/ n1 )  (s2 / n2 )
(s1 / n1 )2 (s2 2 / n2 )2 
 (n  1)  (n  1) 
2
 1

2
1
2
2
• d” 는 d’를 내림한 값이다. (즉 d’=12.6 면 d”=12)
• 이런 방법을 Satterthwaite approximation 이라 한다.
• 사실상 두 분산이 다를 때 두 평균치 분석에서 가장
어려운 부분은 바로 이 자유도를 계산해 내는 일이다.
• Modified two sample t-test 는 Satterthwaite
approximation으로 자유도를 구한 t-test 이다.
41
이분산에서의 100(1-α)% CI
• 두 표본의 분산이 다를 경우 신뢰구간은,
x1  x2 t d ,1
2
s12 n1  s22 n2
이다.
• 두 집단의 분산이 같은 경우와 비교해 d.f.변화로
인해 t 값이 달라짐에 유의하자.
42
Cystic Fibrosis Example
• (Homework) 앞의 Cystic Fibrosis 예에서
분산이 다르다고 가정하고 t-test를 시행하
고 95% CI를 구해보라.
43
두 분산의 동질성 검정
(test for equal variance)
• 두 분산이 같은지 다른지를 알아보기 위해 또 검
정을 시행할 수 있다.
H0: 12=22
H1: 1222
• 우리는 표본에서 얻어진 두 분산의 비 (s12/s22)
를 계산하여 이 값이 너무 작거나 너무 크면 (즉
1에서 멀어질수록) 두 분산의 크기가 다르다고
판단한다.
• 이를 위해 s12/s22 의 분포가 어떤 모양을
가지는지 알 필요가 있다.
44
F ratio for equal variances
• 귀무가설 하에서 s12/s22 는 F 분포를
따른다.
F
s1
2
s2 2
with d.f. of n1-1 and n2-1 (Fn 1, n 1)
1
2
• 양측검정을 시행한다.
45
F distribution
• t 분포와 마찬가지로 자유도에 의해
모양이 결정되는 일련의 분포들의
집합체이다.
• F 분포는 분자의 자유도와 분모의
자유도를 따로 갖는다.
• F 분포는 positively skewed 되어있으며 양
의 값만 갖는다.
46
F-distribution
47
• F 분포는 upper percentile points 만 제시한다. F
분포의 대칭성을 이용하여 lower percentile
points를 유추한다.
• F 분포에서 분자와 분모의 d.f.가 n1-1, n2-1인
lower pth percentile 값은 분자와 분모의 d.f.가
n2-1, n1-1인 upper pth percentile 값의 역수와
같다.
Fn1 1, n2 1, p  1 Fn2 1, n1 1,1 p
48
The table for F distribution presents upper
percentage points only.
49
F-distribution Table
50
F distributions
with 4 and 12
df and with
10 and 100 df
51
F-test for equal variance
• F 값이 임계값 Fn 1, n 1,1 2 보다 크거나 Fn 1, n 1, 2
보다 작으면 두 분산간에 유의한 차이가 있는
것이다. (양측검정 시행)
1
2
1
2
• 만일 F > 1이면, p  value  2  ( Fn11,n2 1  F ) 이다.
• 만일 F < 1이면, p  value  2  ( Fn11,n2 1  F ) 이다.
• 더 큰 분산 쪽을 분자로 놓는 것이 검정하기
편하다. (즉 F>1 되게)
52
Conventional vs. Modified t-test
• 두 분산의 동질성 검정은 검정력이 떨어지는
것으로 증명된 바 있어(= big -error), 실제
modified two sample t test 를 사용해야 할
곳에 일반적인 two-sample t test 를
사용해버리는 경우가 있다.
• 두 집단의 분산이 같은지 다른지 모르는
경우에는 modified two sample t test가 더
큰 검정력을 가진 것으로 알려져 있다.
• 두 집단의 분산이 같다고 확신이 드는
경우에는 이 정보를 이용하여 일반적인 ttest를 시행할 수 있다(계산이 더 간단).
53
Cystic Fibrosis Example
• (Homework) 앞의 Cystic Fibrosis 예에서
두 비교집단의 분산이 같은지 F-검정을
시행해보라.
54
짝표본에 의한 모평균 차의 검정
• AIDS 환자에 대해 A의사와 B의사가 각각 측정한
림프절의 수에 차이가 있는지 알아보자.
Patient
Doctor_A
Doctor_B
1
4
1
2
17
9
3
3
2
4
11
13
5
12
9
6
5
2
7
5
6
8
6
3
9
3
0
10
5
0
︙
︙
︙
PROC TTEST DATA=ohk.nodes;
PAIRED doctor_A*doctor_B;
RUN;
55
짝표본에 의한 모평균 차의 검정
pair의 수
⇒ p-value가 0.0001보다 작기 때문에 귀무가
설을 기각한다. 따라서 A의사와 B의사가 각각
측정한 림프절수가 유의하게 다르다는 것을 알
56
수 있다.
두 독립표본에 의한 모평균 차의 검정
• 남성과 여성의 FEV에 차이가 있는지 알아보자.
그룹을 나타내는 변수
Id
Sex
FEV
301
451
501
642
901
1701
1752
1753
1901
1951
1952
2001
2101
2401
︙
0
0
0
1
1
0
0
0
0
0
0
1
0
1
︙
1.708
1.724
1.72
1.558
1.895
2.336
1.919
1.415
1.987
1.942
1.602
1.735
2.193
2.118
︙
PROC TTEST DATA=ohk.FEV_t;
Class sex;
VAR fev;
RUN;
57
두 독립표본에 의한 모평균 차의 검정
⇒ 두 집단의 FEV 차
의 95%CI. 차이는
5% 유의수준에서 유
의하게 >0 이다.
분산이 동일한지 검정
귀무가설 : σ21=σ22
대립가설 : σ21≠σ22
⇒ p-value가 0.0001
보다 작기 때문에 귀
무가설을 기각한다.
FEV는 남성과 여성
에서 유의한 차이를
보였으며 사실상 여
성에서 FEV가 더 높
음을 알 수 있다.
58
10. 세 개 이상의 평균치 분석
Analysis of Variance
(ANOVA)
59
일원성 분산 분석
• 비교 하고 싶은 집단이 3개 혹은 그 이상인 경우
에는 어떻게 할 것인가?
• Two-sample t test 를 연장하면 3개 이상의 평균
치 비교도 가능해 진다. 이를 일원성 분산분석
(one-way analysis of variance) 라고 부른다.
60
Example
• 과체중인 성인 남자를 세 집단으로 나누어 추적
관찰을 시작하였다. 첫 번째 집단은 식이조절은
하되 운동은 하지 않았고, 두 번째 집단은 정기
적으로 운동은 하되 식이조절은 하지 않았고, 세
번째 집단은 식이조절도 운동도 하지 않았다.
• 1년 후 각 대상자들의 체중 변화를 측정하였다.
식이조절
운동
대조군
1,
12
2,
22
3,
32
61
세 집단의 평균비교
• i 번째 집단 (i =1, 2, 3) 의 표본 수를 ni 라
하고, 평균을 xi , 그리고 표준 편차를 si라
하자.
• 세 집단간에 체중변화량의 평균에 차이가
있겠는가? 세 평균을 어떻게 비교하면 좋
겠는가?
62
• 세 집단이 대표하는 기저 모집단에서의 체
중 변화량의 평균을 각각 1, 2, 3 라 하
자.
• 증명하고자 하는 귀무가설은 세 모평균이
서로 같다는 것,
H0 : 1 = 2 = 3
• 대립가설은 세 모평균 중 적어도 한 개는
다르다는 것,
H1 : i  j
63
왜 t-test를 쓰면 안되는가?
• 세 평균들을 한 쌍씩 two-sample t test로 계
속 비교하면 되지 않을까?
• 이 경우 세 평균을 비교하게 되면
 3
 3
 2
번의 검정을 시행해야 한다. 비교 군이 3개
보다 많으면 훨씬 더 많은 검정을 시행해야
한다.
• 뿐만 아니라 검정을 많이 시행하게 되면 잘못
된 결론을 도출할 가능성도 높아진다.
64
• 만일 1 = 2 = 3 이 사실이고, 세 번의 검정은
독립적이고, 각 검정이 유의 수준 0.05 에서 시행
된다면,
P(3 번 모두 H0 를 기각하지 않음)
= (1-0.05)3
= 0.857
따라서 P(적어도 1번 H0 를 기각)
= 1-0.857 = 0.143
= P(type I error)
65
• 세 번의 검정을 통틀어  오류를 범할 확
률이 0.05 보다 높아진 것을 확인할 수 있
다.
• 우리는 세 번 검정을 통틀어  오류를 범
할 확률을 어떤 고정된 값 (예를 들어 0.05)
에 놓이길 원한다.
66
분산분석의 가설
• 일반적으로 k 개의 독립적이고 정규 분포를 하는
표본의 평균을 비교할 때 다음과 같은 귀무가설
을 세운다.
H0 : 1 = 2 = …. =k
• 여기서 k 집단의 모분산도 모두 동일하다고 가정
할 수 있어야 한다. (1=2=3=……=)
• 일원성 분산분석은 그 이름이 의미하듯이 평균
대신 분산 추정치들의 값을 비교하여 각 군의 평
균에 차이가 있는지 검정한다.
67
2가지 분산
• 여러 개의 집단을 비교할 때는 2가지 종류
의 분산을 생각해 볼 수 있다.
• 각 집단의 평균 주위로 분포하는 개별 측
정치들의 분산 (1), 과 모든 집단을 통합했
을 때의 전체 평균 주위로 분포하는 표본
평균들의 분산 (2) 의 2가지 이다.
• 만일 각 집단 내 분산 (1) 이 평균들의 분
산 (2) 에 비해 작으면, 이는 각 집단의 평
균들이 다르다는 것을 의미한다.
68
100
91
82
73
64
55
46
37
28
19
10
100
0
91
0
82
0.1
73
0.1
64
0.2
55
0.2
46
0.3
37
0.3
28
0.4
19
0.4
10
0.5
1
0.5
1
• 따라서 우리는 다음 질문에 대한 답을 구한다.
: 자료의 변이도는 집단 내 분산 (within group
variance) 에서 주로 오는가 아니면 집단 간 분산
(between group variance) 에서 주로 오는가?
69
기호 정의
• i 번째 집단에서 ni 개의 표본을 뽑는다고
하자.
• i 번째 집단의 j 번째 관측치를 xij 라 하자.
i
xij
1 x11 , x12 , x13 , x14 ,….., x1n1
2 x21 , x22 , x23 , x24 ,….., x2n2
3 x31 , x32 , x33 , x34 ,….., x3n3
70
• i 번째 집단의 표본평균은
ni
xi 
 xij
j 1
가 된다.
ni
• x 는 표본들 전체의 평균 (overall mean)이
다.
n1x1  n2 x2  n3 x3
x
n1  n2  n3
• 이를 대평균 (grand mean) 이라 부르기도
한다.
71
• 전체 자료의 변이도는 각 측정치가 대평균에서부
터 떨어진 정도를 측정하여 알아볼 수 있다.
xij  x  ( xij  xi )  ( xi  x )
• 여기서 ( xij  xi ) 는 i 번째 군에서 각 측정치들이 i
군 평균으로부터 떨어진 정도이며 이를 집단 내 변
이도 (within group variation) 이라 한다.
• ( xi  x ) 는 i 군 평균이 대평균으로부터 떨어진 정
도를 나타내며 이를 집단간 변이도 (between
group variation) 라 한다.
72
• 위 식의 양쪽 항을 제곱하고, 각 측정치에
대해 모두 합산하면,
3 ni
3 ni
3 ni
2
  ( xij  x )    ( xij  xi )    ( xi  x )
i 1 j 1
Total Sum of
Squares
(SST)
2
i 1 j 1
Within group
Sum of
Squares
(SSW)
2
i 1 j 1
Between
group Sum
of Squares
(SSB)
• 즉, SST = SSW + SSB
73
• 다시
집단
• 우선
합인
원래의 질문으로 돌아가, 집단간 변이도가
내 변이도보다 큰지 작은지를 판단해 보자.
집단 내 변이도를
측정한다. 집단 내 제곱
3 ni
SSW 는 SSW    ( xij  xi ) 2
i 1 j 1
3
  (ni  1) si
2
i 1
 (n1  1) s1  (n2  1) s2  (n3  1) s3
2
2
2
• 전체 표본 수 n=n1 + n2 + n3 라고 하면, 집단
내 평균 변이도는 (n  1) s 2  (n  1) s 2  (n  1) s 2
MSW 
1
1
2
2
3
3
n1  n2  n3  3
SSW

n3
• 이 수치를 집단 내 평균 제곱 (within groups
mean square) 이라고 한다.
74
Within groups mean square
• MSW 가 two-sample t test 에서 구했던 두 군의
공통분산 (pooled estimate of the common
variance) 구하는 방법과 비슷하게 구해진 것에 주
시하기 바란다. 즉 MSW는 일원성 분산분석에서의
공통분산 pooled estimate of the variance for
one-way ANOVA 이다.
• 만일 세 군의 기저 모집단의 분산이 동일하지 않다
면 ANOVA 를 사용해서는 안된다.
• 다행히 ANOVA 검정은 동일 분산의 가정이 약간
씩 위배되어도 그렇게 민감하지는 않다. 그러나 집
단 내 분산이 2 배 이상 차이가 난다든지 하는 경
우에는 ANOVA 를 사용하면 안될 것이다.
75
• 이제 집단간 변이도를 구해보자.
• 우선 집단간 3제곱의
합인 SSB 는,
n
i
SS B    ( xi  x ) 2
i 1 j 1
3
  ni ( xi  x ) 2
i 1
 n1 ( x1  x ) 2  n2 ( x2  x ) 2  n3 ( x3  x ) 2
• 따라서 집단간 평균 변이도는
n1 ( x1  x ) 2  n2 ( x2  x ) 2  n3 ( x3  x ) 2
MSB 
3 1
SS B

3 1
• 이 수치를 집단간 평균 제곱 (between groups mean
square) 라고 부른다.
76
F-test in ANOVA
• 귀무가설은 세 집단의 모집단의 평균이 모두
같다는 것이었다. 이를 검정하기 위해 F 검정
통계량을 사용한다.
F
distribution
k-1,n-k
MS B
F
MSW
SS B /(k  1)

SSW /(n  k )
p-value
F
• k 는 비교하는 집단의 수이다.
77
• H0 하에서 F 검정통계량은 자유도 k-1 및 n-k
를 갖는 F 분포를 한다.
• F 검정통계량이 1 이면 모든 집단의 평균이
같다는 뜻이다.
• F 검정통계량이 크면 H0 를 기각한다. 구체적
으로 유의수준  일때 F > Fk-1, n-k, 1- 면 귀무
가설을 기각한다.
• ANOVA 에서는 단측, 양측 구별하지 않고 무
조건  전체를 생각한다.
• P 값은 F 검정통계량 보다 큰 값에 해당하는
Fk-1, n-k 곡선 아래에 있는 면적이다.
78
xi
• 과체중에 관한 임상시험으로 돌아가 보자.
집단 1 : 식이조절
집단 2 : 규칙적인 운동
집단 3 : 아무 것도 안함
• 1년이 지난 후 체중 변화량을 측정한 결과 다음과 같은
표를 얻었다.
ni
si
xi
집단
1
2
3
42
47
42
-7.2
-4.0
0.6
3.7
3.9
3.7
• 따라서 k=3, n=42+47+42=131 이다.
79
• 대평균은, x  n1 x1  n2 x2  n3 x3
n1  n2  n3
42(7.2)  47(4.0)  42(0.6)

131
 3.55
• 집단 내 변이도는 MSW  SSW
nk
(41)(3.7) 2  (46)(3.9) 2  (41)(3.7) 2

131  3
1822.2

128
 14.24
80
• 집단간 변이도는,
SS B
k 1
(42)(7.2  (3.55)) 2  (47)(0.45) 2  (42)(4.15) 2

3 1
1292.4

2
 646.2
MS B 
• 귀무가설 H0: 1 = 2 = 3 을 유의수준
0.05 로 검정하려면 검정통계량 F 가 필요
하다.
81
MS B
F
MSW
646.2

14.24
 45.4
• 자유도 3-1=2, 131-3=128 을 갖는 F 분포에서
45.4 보다 오른쪽 영역은 0.001 보다 작다. 표 9
를 이용하면 자유도 2, 120인 경우 F1-0.001 =
F0.999 = 7.32 이다. 45.4는 7.32 보다 크므로
p<0.001 이다. SAS 를 이용하여 F 분포상에서의
정확한 p 값을 계산하면 p=1.22x10-15 이다.
• 따라서 p <  이므로 귀무가설을 기각한다.
• 결론은 세 군간에 적어도 한 쌍은 체중변화의 모
평균에 있어서 차이가 난다는 것이다.
82
83
ANOVA Table
• 일원성 분산분석의 결과는 흔히 ANOVA table
로 나타낸다.
Sources of
Variation
Between
Within
Total
SS
df
MS
F
p
1292.4
1822.2
3114.6
2
128
646.2
14.24
45.5
<0.001
• 일반적인 ANOVA 표는 다음과 같다.
Sources of
Variation
Between
Within
Total
SS
df
MS
F
SSB
SSW
SST
k-1
n-k
MSB
MSW
MSB / MSW
p
84
다중비교 (multiple comparison)
• 귀무가설 H0를 기각하는 경우에는 어떻게
결론을 내리는가?
• 결론은 “각 집단의 모 평균간에 차이가 있
다”이다. 이 이상은 구체적으로 말하기 어
렵다.
• 따라서 추가적인 검정을 시행하여 어떤 집
단끼리 차이가 나는지 구체적으로 알고자
한다.
85
• 다중비교를 위한 다양한 방법들이 개발되
어 있다.
• ANOVA로 전체 군간에 차이가 존재함을
밝힌 후, 두 군씩 비교를 반복하여 어느 군
간에 차이가 있는지 밝힌다. 두 군의 비교
는 평균치 비교로 비교한다.
• LSD (least significant difference) 방법은
각 쌍의 비교를 two-sample t test (등분산
가정하에서) 로 한다.
86
LSD 다중비교
• 각 쌍의 비교에서 귀무가설은
•
H0 : i = j
• 검정통계량 t 는
( xi  x j )  0
tij 
MSW (1 / ni )  (1 / n j )
• 여기서 MSW 가 공통분산 공식이 k 개의 표본
으로 연장된 형태에 의해 구해졌던 점을 기억
하자.
• H0 하에서는 tij 가 자유도 n-k 의 t 분포를 따
른다.
87
• 과체중 예로 돌아가 귀무가설 1= 2 ,
1 = 3 , 그리고 2 = 3 을 각각 검정해보
자. 세 개의 검정통계량을 구해보면,
t1, 2 
(7.2  (4.0))  0
(14.24)(1 / 42)  (1 / 47)
 3.99
(7.2  0.6)  0
t1,3 
(14.24)(1 / 42)  (1 / 42)
 9.47
(4.0  6.0)  0
t2,3 
(14.24)(1 / 47)  (1 / 42)
 5.74
88
• 위의 3 가지 t 검정통계량들은 자유도
131-3=128 의 t 분포를 따른다.
• 각 t 검정통계량에 대한 양측검정 p 값은
모두 <0.001 이다. (구체적으로는 1.10x104, 1.89x10-16, 6.51x10-8)
• 따라서 유의수준 0.05 보다 작다.
• 따라서 귀무가설을 기각한다.
• 결론은 세 치료군 각각이 유의하게 체중감
소량이 차이났고, 식이조절군, 운동군, 아
무 치료를 안한 군의 순으로 체중감소가
컸다.
89
본페로니 보정
• 다중비교 시에 비교의 횟수가 너무 많아지
면 전체적으로  오류 크기가 커진다.
• 즉 우연에 의해서도 유의한 차이를 갖는
쌍을 발견할 확률이 커지는 것이다.
• 따라서 전체 비교의 유의수준을 에 고정
시키는 방법이 필요한데, 가장 대표적인
방법이 본페로니 보정 Bonferroni
correction 방법이다.
90
• 전체 비교에서의 유의수준이 를 넘지 않
게 고정하면서 k 개의 평균을 비교하고자
할 때, 각 쌍의 비교에 적용하는 유의수준
* 를 다음과 같이 잡는다.
* 

k 
 
 2
• 즉,  를 비교의 횟수 만큼으로 나누어 주
는 것이다.
91
• 상기 체중감소의 예로 돌아가서 본페로니 보정
을 시도하면,
• 3개의 비교를 시행해야 하므로 각 비교에는
*
= 0.05 / 3
= 0.0167
의 유의수준을 적용해야 한다.
• LSD 법으로 치료군 1과 2, 2와 3, 3과 1간의 평균
차를 각각 검정하였다. 각 t 검정통계량에 대한
양측검정 p 값은 모두 <0.001 이었다.
• 이는 보정된 유의수준 0.0167 보다 작다.
• 따라서 귀무가설을 기각한다.
92
• 결론은 식이조절 군에서 평균 체중감량이
가장 컸고, 운동 군이 두 번째로 감량이 컸
다. 아무것도 하지 않은 군에서 체중감량
이 가장 작았다 (혹은 이 군에서는 실제로
체중이 늘어났을 수도 있다.)
• 양측검정을 한 경우에도 결론은 연구자가
주관적으로 갖고 있는 방향으로 내려도 무
방하다. (양측검정은 검정을 좀 더 보수적
으로 해 보자는 의의가 중요한 것이다.)
93
본페로니 보정의 문제점
• 본페로니 보정의 문제점은 과도하게 엄격한
유의수준을 제시하는 경향이 있다는 것이다.
비교군의 수 k가 커지면 LSD 방법에서의 임
계치인 t1-/2는 크게 변하지 않는 반면
Bonferroni 다중비교법의 임계치인 t1-*/2 는
급격히 커진다. 따라서 실제 차이가 있음에도
불구하고 귀무가설을 기각하지 못하는 상황
이 벌어질 수 있다.
• 비교 군의 수가 많지 않고, 어떤 군끼리 비교
할지 미리 가설이 서 있는 경우면 LSD로만 분
석해도 무방하다.
94
Linear Contrasts
• 또 다른 다중 비교 방법으로 Linear
Contrasts 방법이 있다.
• LSD 보다 더 일반적인 방법으로, 특정 군
끼리의 비교 뿐 아니라 일련의 군들(l1)과
다른 군들(l2)간의 다중비교가 가능하다.
• Linear Contrast (L)은 개별 군 평균들의 선
형 조합으로 계수들의 합은 0 가 된다. 각
군의 평균을 여기서는 y i 로 표현하자.
95
ci yi , where  ci  0
• L
i 1
i 1
• 체중변화 연구에서 집단 1(식이조절), 2(운동조절)
과 3(조절없음)의 평균 비교를 Linear Contrast로
표현해 보자.
L  y1  y2  2 y3 (즉 c1  1, c2  1 , c3  2)
• 이제 L의 모평균이 0과 같은지를 검정한다.
• H0: L= 0
• H1: L 0
Where L  c1 y1  c2 y2  c3 y3 ...  ck yk ,
k
k
U L  c11  c2 2  c3 3 ...  ck k
96
2
• Var( y i )= s ni 이므로 Var(L)은
k
k
2
2
2
Var ( L)   (ci  s ni )  s  ci2 ni 이다.
i 1
i 1
이때 s 는 MSW 와 같은 값이다.
• t 통계량은 다음과 같다.
t
L
2
c
s2  i
i 1 n
i , d.f.=n-k
k
• If |t|>tn-k,1-α/2, then reject H0.
• P-value=2*Pr(tn-k< t) if t<0
• P-value=2*Pr(tn-k> t) if t>0
If p-value < α
then reject H0.
97
• 체중조절 자료에서
• L= (-7.2)+(-4.0)-2(0.6)
• = 12.4
 12 12 (2) 2 
Var ( L)  s  c ni  (14.24)  
  1.998
i 1
42 
 42 47
12.4
따라서 t 
=8.77 ~ t128 under H0
1.998
2
•
k
2
i
• P<0.001
• 결론: 식이조절이나 운동을 한 사람은 아무
조절을 안 한 사람보다 유의한 체중감소가 있
다.
98
• Linear Contrast 방법을 쓸 때 미리 계획을 세워
놓지 않았던 다중비교를 할 경우가 있다. 이때도
다중비교 전체의 유의수준을 α로 고정하는 방법
이 있는데 이를 Scheffe’s multiple-comparison
이라고 한다.
• L 에대한 t 통계량을 구한 후, 기각역을 아래와
같이 보정한다.
t  a2  (k  1) Fk 1,nk ,1 또는 t  a1   (k  1) Fk 1,nk ,1
99
• 체중변화의 예에서
• a2  (k  1) Fk 1,nk ,1  (3  1)(3.07)  2.48
a1  2.48
• t  2.48 이므로 귀무가설을 기각한다.
• 결론: 식이조절이나 운동을 한 사람은 아무 조절
을 안한 사람간보다 유의한 체중감소가 있다.
100
Multiple Test의 위험성
• ANOVA 가 아닌 상황에서도 다중비교에 따른 1종
오류 확률 상승이 문제시 될 수 있다. (예를 들어
다중회귀분석에서 많은 변수들에 대해 반복해서
test 할 때)
• 한가지 방법은 미리 한가지 주 가설을 설정해 놓고,
부수적으로 몇 가지 다른 가설들을 설정하는 것이
다.
• 주 가설 없이 투망식으로 관련인자를 “낚시” 할 때
는 유의하게 나온 인자에 대해 매우 조심스러운 접
근을 해야 한다.
• 유의한 p 값은 “관련성이 있을” 가능성을 열어놓
는 것에 불과하며, 앞으로 이를 주 가설로 한 연구
가 필요하다는 점을 제시하는 선에서 그쳐야 한다.
101
ANOVA 분석시의 가정
• 일원성 ANOVA 분석을 할 때에는 아래와 같은
가정이 필요하다는 점을 명심하자.
• 1) k 개의 표본은 서로 “독립적” 으로 추출된 것
이어야 한다.
• 2) 각 표본의 모분산들은 모두 같다.
(homogeneity of variance)
• 3) 기저 모집단은 대략적으로 정규분포를 따른다.
(그렇지 않을 경우에는 자료를 변환 (transform)
하여 분석을 시행하는 것이 바람직 하다.):
Sampling distributions of sample means must
be normally distributed.
102
• 이러한 가정에 맞지 않는 경우에는
ANOVA 가 아닌 다른 분석 방법을 고려해
야 한다. 즉, 좀 덜 엄격한 가정을 해도 되
는 방법들을 찾는다. (비모수적인 방법들)
• 그러나 ANOVA 방법은 robust하여 어느
정도는 가정위배시에도 별 영향을 받지 않
고 좋은 결과를 준다. : “robust”assumptions can be violated somewhat,
but the technique can still be used.
103
일원분산분석(One-way ANOVA)
• FEV1/FVC ratio 에 따라 세 그룹으로 나누어 SO2
에 대한 기관지 반응에 차이가 있는지 알아보고
Group A
Group B
Group C
자 한다.
FEV /FVC, ≤74%
FEV /FVC, 75-84%
FEV /FVC, ≥85%
1
1
1
20.8
7.5
9.2
4.1
7.5
2.0
30.0
11.9
2.5
24.7
4.5
6.1
13.8
3.1
7.5
8.0
4.7
28.1
10.3
10.0
5.1
2.2
104
자료입력방법
① 엑셀을 이용하여 입력
Group
So2
② SAS에 직접 입력
DATA FEV;
2
INPUT group so2; 2
CARDS;
2
1
20.8
2
1
4.1
3
1
30
3
1
24.7
3
1
13.8
3
2
7.5
3
2
7.5
;
2
11.9
RUN;
2
4.5
2
3.1
2
8
2
4.7
2
28.1
10.3
10
5.1
2.2
9.2
2
2.5
6.1
7.5
105
일원분산분석(One-way ANOVA)
PROC ANOVA DATA=FEV;
CLASS group;
MODEL so2= group;
MEANS group / LSD;
RUN;
106
일원분산분석(One-way ANOVA)
ANOVA table
107
일원분산분석(One-way ANOVA)
*
다중비교 옵션
LSD:
모든 가능한
pairwise
comparison 시
행
1
2
3
*
108
일원분산분석(One-way ANOVA)
• Linear contrast
– Group A와 group B&C를 비교해보자.
PROC GLM DATA=FEV;
CLASS group;
MODEL so2= group;
MEANS group / LSD;
CONTRAST ‘LOW & HIGH’ group 2 -1 -1;
RUN;
대조하고자 하는 군 끼리 서로 더하여
‘0’이 되도록 수를 지정해준다.
예: A (2), B (-1), C (-1)
109
일원분산분석(One-way ANOVA)
Group A와 group B&C
110

9월 19일 신명희 교수님(12_3두표본및ANOVA)

Transcript 9월 19일 신명희 교수님(12_3두표본및ANOVA)

Directory