Transcript 제14장
제 14 장
적합도 검정과 비모수적 방법
제14장 적합도 검정과 비모수적
방법
<적합도 검정>
모집단에 대한 정보가 부족해서 분포함수의 모형을 확실히 가정할 수
없는 경우에는 자료가 어떤 모집단으로부터 얻어졌는지에 관심
예: 자료가 정규분포에서 나온 것?
적합도 검정 : 주어진 자료가 특정분포에서 나왔다고 할 수 있는지
검정하는 방법
§14.1 적합도 검정
§14.2 분할표 검정
-1-
제14장 적합도 검정과 비모수적
방법
§14.1 범주형 자료의 적합도 검정
질적변수
변수
연속변수 : 정량자료(quantitative data)
(§1.2)
양적변수
이산변수 : 정성자료(qualitative data)
정량자료라도 어떤 속성이나 구간에 따라 분류하여 도수로 나타냄으로서
정성자료화 할 수 있다.
∙ §11.3 도수분포표와 히스토그램
범주형 자료(categorical 또는 enumerative 또는 count data) :
관측결과를 어떤 속성에 따라 분류하여 도수로 주어지는 자료
예: 설문조사 문항에 따른 응답 분류
소득 수준에 따른 가계 분류
공산품/농산품 품질등급에 따른 분류
소비자 반응 조사
-2-
제14장 적합도 검정과 비모수적
방법
사회∙경제 현상에 대한 조사
인문∙사회과학 등에서의 실험
에서 나타나는 관측값들은 조사(실험)
에서 나올 수 있는 결과를 몇 개의 범주(category)로 분류하고
전체 관측값 중 각 범주에 속하는 수를 세어 얻어지는 자료(count data)인
경우가 많다.
다항 실험의 특성에 가깝다
<다항실험>
1. 실험은 n개의 동일한 시행(identical trials)들로 이루어진다.
2. 각 시행의 결과는 k개의 범주 중 하나에 속한다.
3. 하나의 시행결과가 범주 i에 속할 확률은 pi로서 시행에 따라 변하지
않고 일정하다
여기서
-3-
p1 p2
pk 1
제14장 적합도 검정과 비모수적
방법
4. 시행들은 서로 독립이다.
5. n번 반복 시행결과 범주 i에 속하는 시행수(관측도수)를 Xi라 하자
여기서
X1 X 2
X1 , X 2 ,
, X k 의 분포에 관심
p x1 ,
X1,
, xk
, Xk
n!
Xk n
범주#
1
2
k 합계
p1x1
pkxk
확률
p1
p2
pk
1
MN k n; p1 ,
, pk
시행수
x1
x2
xk
n
x1 !
xk !
k 2인 경우 (binomial experiment)
n! x
y
p 1 p ,
x! y !
p x, y
-4-
X
y nx
n!
n x
p x 1 p
x ! n x !
b n, p
제14장 적합도 검정과 비모수적
방법
p1 ,
, pk 에 대한 가설검정에서 기각역의 결정에는 주어진 유의수준 에
따른 H 0하에서의 다항분포의 확률계산이 필요한데 이것이 매우 번거롭다
범주형 자료의 분석에는 관측도수 Xi와 기대도수 E(Xi)=npi의 차의
제곱
X i npi
2
을 기대도수의 역수로 가중평균한 통계량의
근사분포를 쓴다.
<정리 14.1>
X1 ,
, X k ~ MN k n ; p1 ,
k
X i npi
i 1
npi
Q
, pk
2
2
는 점근적으로 분포 k 1 을 따른다.
-5-
제14장 적합도 검정과 비모수적
방법
k 2인 경우: X1 X 2 n,
X 1 np1
Q
2
X 1 np1
2
np1
np1
X 2 np2
2
np2
X 1 np1
n 1 p1
X np
1
1
np1 1 p1
CLT에 의해
p1 p2 1
X 1 np1
2
np1
2
n X 1 n 1 p1
n 1 p1
2
X 1 np1
np1 1 p1
2
2
X 1 np1
np1 1 p1
의 극한분포는 N 0,1
Q의 극한분포는 2 1
-6-
제14장 적합도 검정과 비모수적
방법
주어진 자료가 각 범주에 속할 확률 p1 ,
H 0 : p1 p10 ,
, pk 에 관한 가설
, pk pk 0 대 H1 : H 0가 아니다
를 검정하는 문제:
H 0가 참이면 E X i npi 0
실제 관측도수와 기대도수의 차이 X i npi 0 들이 크면 H 0가
참이 아니라는 뜻
k
Q
i 1
X i npi 0
npi 0
2
2 k 1
이고 Q 의 값 q 2 k 1이면 H 0을 기각
H 0에 대한 우도비 검정통계량 - 2ln 의 값은 n이 클 때
근사적으로 Q 의 값과 같아진다.
-7-
(보충문제 #9.25*)
제14장 적합도 검정과 비모수적
방법
우도비 검정에서 의 값을 구하는 것이 번거로우므로
기각역 - 2ln 2 k 1을 쓰는 대신
기각역
q 2 k 1을 쓴다
<예제 14.1> 야구선수의 안타 60개를 타구 방향에 따라 좌∙중 ∙우로 분류
안타가 전 방향에 고르게 나타나는가?
H 0 : p1 p2 p3
1
3
좌
관측수 12
기대도수 20
1
E X i npi 60 20,
3
3
xi npi 0
i 1
npi 0
q
2
12 20
20
2
26 20
20
2
22 20
중
26
20
우
22
20
2
20
2
5.20 4.605 0.10
2
유의수준 10%로 H0를 기각
-8-
제14장 적합도 검정과 비모수적
방법
<적합도 검정 (goodness-of-fit test)>
주어진 자료가 특정분포로부터 나온 것인지를 판단하는 검정
좀더 엄밀히는,
특정분포모형이 모집단의 분포로서 적절하지 않다고 배제할 수
있을 지를 표본자료와 이 분포모형에 의한 이론(기대) 수치와
비교하여 판단하는 검정
a) 주어진 자료가 특정분포 F 로부터 얻어진 것이라는 가설
H0 : X ~ F
의 검정
자료가 정량적 자료이면 이를 범주형 자료로 변환한다.
-9-
제14장 적합도 검정과 비모수적
방법
실수구간 R을
A1 , a1
A2 a1 , a2
Ak ak 1 ,
…
로 분할
A2
A1
Ak 1
a1 a 2
a k 2
Ak
a k 1
pi P X Ai F ai F ai 1
여기서 p1 0,
, pk 0 가 되도록 A1 ,
분포 F로부터 확률표본
X1,
, Ak를 정한다
, X n 을 뽑아
Yi X i들 중 관측결과가 구간 Ai에 속한 것들의 수
- 10 -
Y1 ,
, Yk
MN k n; p1 ,
, pk
제14장 적합도 검정과 비모수적
방법
<정리 14.1>에 의해
k
Yi npi
i 1
npi
Q
2
2 k 1
Q 의 값 q 2 k 1이면 H 0을 기각
b) 분포함수가 미지의 모수 r개 1 ,
H0 : X
Fθ , θ 1 ,
실수구간 R을 R
, r θ 를 갖는 Fθ 인 경우:
, r
k
Ai 로 분할
i 1
pi P X Ai Fθ ai Fθ ai 1
Fθ로부터 확률표본 X 1 ,
MLEs 1 ,
- 11 -
, X n 을 뽑는다
, r를 구한다. θ 1 ,
, r
제14장 적합도 검정과 비모수적
방법
pi Fθ ai Fθ ai 1
Yi X i들 중 관측결과가 구간 Ai에 속한 것들의 수
n 이 크면
k
Q
i 1
Y n p
i
i
n pi
2
2 k 1 r
Q 의 값 q 2 k 1 r 이면 가설 H 0을 기각
적합도 검정에서 유의할 것
i) (근사화) Q의 분모에 들어가는 npi 또는 n pi 이 너무 작으면 Q의
값이 불안정해 2 근사화가 좋지 않게 된다.
npi 5 또는 n pi 5 가 되지 않는 구간은 인접구간과 합친다.
pi =P X Ai 1 가 되도록 A1 ,
k
- 12 -
, Ak를 정하면 근사화가 좋아진다.
제14장 적합도 검정과 비모수적
방법
ii) (단측검정) 일반적으로 범주 i의 관측도수 oi, 기대도수의 추정값을
eˆi 라 하면 Q의 값
k
oi eˆi
i 1
eˆi
q
2
2 k 1 r
일 때 가설 H 0를 기각 단측검정이다.
iii) (자유도) H 0하에서 Q 2 df
여기서 자유도 df 는 문제의 성격에 따라 다르게 정해진다.
§ 14.1
각각 다른 유형의 문제
§ 14.2
일반적으로는
① df 범주의 수 관측도수에 부과되는 선형제약식의 수
- 13 -
제14장 적합도 검정과 비모수적
방법
예: 다항분포의 경우
범주의 수 k
df k 1
xi n 이라는 선형제약식 1개
k
② Q
i 1
Oi ei
2
ei
에서 ei가 미지의 모수를 포함할 경우 모수를
추정값으로 대체 ei eˆi 한다. 이때
∙ 추정값은 MLE
∙ 모수 하나 추정할 때마다 df 가 하나씩 줄어든다.
<예제 14.2> 어느 지역에서 하루에 발생하는 화재 건수 X를 60일간
관측한 결과
범주#
1
화재건수 0
관측도수 27
- 14 -
2
1
18
3
2
12
4
3
3
5
4이상
0
제14장 적합도 검정과 비모수적
방법
가설 H 0 : X
Poi 를 유의수준 5%로 검정
모수 의 MLE
ˆ x 0 27 1 18 2 12 3 3 60 0.85
P X 3 0.85 0.055 기대도수 60 0.055 3.3
각 구간의 기대도수가 5 이상이 되도록 다시 정리
범주#
1
화재건수 0
관측도수 27
H0 : X
- 15 -
2
1
18
3
2 이상
15
Poi 일 때 각 구간에 속할 확률 추정
p1 P X 0 e
p1 e 0.85 0.427
p2 P X 1 e
p2 0.85e 0.85 0.363
p3 P X 2 1 p1 p2
p3 1 0.427 0.363 0.210
제14장 적합도 검정과 비모수적
방법
∙ 기대도수의 추정
e1 n p1 25.62, e2 n p2 21.78, e3 n p3 12.60
∙ 검정통계량 Q의 값
oi eˆi
27 25.62 18 21.78 15 12.60
q
eˆi
25.62
21.78
12.60
i 1
k
2
2
2
2
2
1.188 3.841 0.05
1
여기서 df k 1 r 3 1 1 1
하루에 발생하는 화재건수가 포아송분포를 따른다는 가설을
배제할 충분한 증거가 없다.
- 16 -
제14장 적합도 검정과 비모수적
방법
<예제 14.3> 정규분포를 따르는 난수(random number)를 생성시키는
전산프로그램을 작성하고, 이 프로그램을 실행하여 난수 40개 생성.
이 전산 프로그램은 올바르게 만들진 것인가? 즉 자료가 정규분포로부터
얻어진 것이라 할 수 있는가?
검정하고자 하는 가설 H 0 : X
N , 2
MLEs x
2
1
2
n 1 2
x
x
s s2
i
n
n
주어진 자료로부터 n 40, x 15.96, s 2.144
표 11.2를 참고하여 범주를 5개로 정하고 각 범주에 속할 확률을
pi 1 0.2로 하면
5
pi P ai 1 X ai 0.2, i 0,1,
,5, a0 , a5
가 되도록 a1 , a2 , a3 , a4를 정한다.
- 17 -
제14장 적합도 검정과 비모수적
방법
a
P X ai P Z i
0.2i
ai
z10.2i
ai z10.2i
여기서 15.96, s 2.144 를 쓰면
ai 15.96 2.144 z10.2i
표준정규분포표로부터 보간법을 쓰면
z0.2 0.8418 z0.8 ,
z0.4 0.2533 z0.6
a1 15.96 2.144 0.8418 14.155
a2 15.96 2.144 0.2533 15.417
a3 15.96 2.144 0.2533 16.503
a4 15.96 2.144 0.8418 17.765
- 18 -
제14장 적합도 검정과 비모수적
방법
도수분포표
관측도수 oi
구간
기대도수 eˆi
pi
-∞ ~ 14.115
12
0.2
8
14.115 ~ 15.417
4
0.2
8
15.417 ~ 16.503
7
0.2
8
16.503 ~ 17.965
6
0.2
8
17.965 ~ ∞
11
0.2
8
40
1.0
40
합계
Q ~ 2 2
df k 1 r 5 1 2 2
k
oi eˆi
i 1
eˆi
q
12 8
8
2
2
4 8
8
2
7 8
8
2
6 8
8
2
11 8
2
8
2
5.750 5.911 0.05
2
- 19 -
제14장 적합도 검정과 비모수적
방법
유의수준 5%로 가설 H0을 기각할 수 없다.
난수들이 정규분포에서 나온 것이 아니라고 단정할 수 없다.
- 20 -
제14장 적합도 검정과 비모수적
방법
§14.2 분할표
관측된 범주형 자료를 두가지 다른 방법(기준)으로 분류할 때, 이 두가지
방법이 서로 독립적인지를 검증할 필요가 생길 수 있다.
<예>
주제(issue)에 대한 의견 유형
1. 여론조사에서 응답자들을
으로
성별(또는 지역, 생활정도, 교육정도 등)
각각 분류해서, 이 주제에 대한 의견이 성별(또는 지역, 생활정도,
교육정도 등)과 무관한지 알아본다.
구입한 특정 가전제품의 종류
으로
2. 마케팅조사에서 소비자를
수입 수준
분류해서 구매행태가 수입수준과 관계가 있는지를 알아본다.
- 21 -
제14장 적합도 검정과 비모수적
방법
종류별
3. 생산현장에서 불량품을
로 각각 분류해서,
작업교대조별
불량품 발생이 작업교대조와 관련이 있는지를 알아본다.
대학 1학년 성적별
4. 무시험으로 입학한 대학 2년생들을
로
고등학교 내신등급별
각각 분류해서 대학성적이 고등학교 내신성적과 관계가 있는지를
알아본다.
한 모집단의 개체들을 특성(분류기준) A와 특성(분류기준) B에 따라
각각 몇 개씩의 범주로 나누어, 두 특성간에 관련성(dependency 또는
contingency)이 있는지를 검증하는 독립성 검정
분할표(contingency table) 검정: 하나의 모집단에서 두 특성 간의 독립성검정
동일성 검정(test of homogeneity): 여러개의 (다항) 모집단이 동일한지의 검정
- 22 -
제14장 적합도 검정과 비모수적
방법
(1) 분할표 검정
하나의 모집단에서 두 특성간의 독립성을 검정하는 것
실험(또는 조사의) 결과를
특성 A에 따라 r개의 범주 A1, ∙∙∙, Ar 로 분류
특성 B에 따라 c개의 범주 B1, ∙∙∙, Bc 로 분류
pij 실험결과가 범주 Ai와 범주 B j에 동시에 속할 확률
r
c
p
i 1 j 1
ij
1
X ij n개의 실험결과 중 범주 Ai와 범주 B j에 동시에 속하는 것들의 수
X 11 ,
, X 1c ,
, X r1 ,
, X rc ~ MN rc n; p11 ,
, p1c ,
, pr 1 ,
, prc
E X ij n pij
- 23 -
제14장 적합도 검정과 비모수적
방법
<정리 14.1>에 의해 n이 크면
r
c
Q
i 1 j 1
여기서
X
ij
npij
npij
2
2 rc 1
A B 범주의 수 rc
df rc 1
제약식 X ij n 하나
c
pi pij
j 1
: 실험의 결과가 범주 Ai에 속할 확률
r
p j pij
i 1
: 실험의 결과가 범주 B j에 속할 확률
분류기준 A와 B가 서로 독립이라는 가설 H 0와 독립이 아니라는
가설 H1을 다시 쓰면
- 24 -
H 0 : pij pi p j
모든 i, j
H1 : pij pi p j
인 i, j 가 있다.
제14장 적합도 검정과 비모수적
방법
pij를 알면 검정통계량 Q의 값
r
c
q
x
i 1 j 1
ij
npi p j
2
npi p j
가 q 2 rc 1 이면 가설 H 0를 기각
pij는 모르는 것이 보통
최우추정값들
pi
p j
p j
r
여기서 pi 1,
i 1
- 25 -
xi
pi
x j
n
c
p
j 1
i 1,
,
n
j
,
,r
j 1,
,c
(연습문제 #9)
c
r
j 1
i 1
1, xi xij , x j xij
제14장 적합도 검정과 비모수적
방법
H 0가 참일때 기대도수 eij E X ij npi p j의 최우추정값
xi x j
eij n pi p j n
n n
(13.10)
xi x j
n
검정통계량 Q의 값
r
c
q
i 1 j 1
x
ij
eij
eij
2
,
eij
xi x j
n
여기서 df rc 1 추정된 모수의 수
rc 1 r 1 c 1 r 1 c 1
q 2 r 1 c 1 이면 가설 H 0을 기각
독립성 검정을 하기 위해 범주형 자료를 표의 형태로 정리한 것
분할표(contingency table)
- 26 -
제14장 적합도 검정과 비모수적
방법
<표 14.1> r c 분할표
B
합계
B1
A1
A2
x11
x21
A
B2
e11
e21
x12
x22
e12
e22
…
Bc
…
x1c
…
x2c
e1c
x1
e2c
x2
erc
xr
…
Ar
합계
xr1
x1
er1
xr 2
er 2
x2
…
…
xrc
xc
x n
관측도수 xij
기대도수 eij
- 27 -
xi x j
n
제14장 적합도 검정과 비모수적
방법
<예제 14.4> 부부 264 쌍을 대상으로 남편과 아내가 지지하는 정당 조사
정당: A, B, C
남편
합계
아내
합계
A
B
C
A
48(38.18)
29(37.45)
19(20.36)
96
B
35(44.94)
59(44.09)
19(23.97)
113
C
22(21.88)
15(21.46)
18(11.67)
55
105
103
56
264
남편과 아내가 지지하는 정당이 서로 독립인가?
- 28 -
제14장 적합도 검정과 비모수적
방법
x1 x1
e11 n p1 p1
e33 n p3 p3
3
2
q
x3 x3
x
ij
i 1 j 1
n
eij
55 56
264
264
38.18
11.67
2
eij
48 38.18
38.18
n
96 105
2
29 37.45
37.45
2
18 11.67
2
11.67
2
18.173 13.227 0.01
4 H 0를 기각
여기서 df r 1 c 1 3 1 3 1 4
남편과 아내가 지지하는 정당이 서로 연관이 있다.
- 29 -
제14장 적합도 검정과 비모수적
방법
(2) 동일성 검정
여러 개의 다항 모집단이 동일한 지를 검정
<예> 어떤 주제에 대한 여론 조사
A: 남,녀별
연령층별(예:10대, 20대, 30~40대, 50대 이상)
범주 A1 ,
지역별
학력 또는 소득수준별
B: 매우 타당, 타당, 부당, 매우 부당, 모르겠음 범주 B1 ,
인구 또는 집단의 구성비율에 따라 미리 정한 크기 n1 , n2 ,
, Ar
, Bc
, nr 의
표본을 뽑아 c개의 범주 B1, ∙∙∙,Bc 에 속하는 수를 센다.
- 30 -
제14장 적합도 검정과 비모수적
방법
X ij 집단 Ai 에 속하는 실험 대상 ni 중 범주 B j 에 속하는 수
X ij의 관측값 xij들
<표 14.3>
B
합계
B1
B2
…
Bc
A1
x11
x12
…
x1c
n1
A2
x21
x22
…
x2c
n2
A
…
Ar
합계
X i1 ,
- 31 -
xr1
xr 2
…
xrc
nr
x1
x2
…
xc
n
, X ic ~ MN c ni ; pi1 ,
, pic E X ij ni pij
제14장 적합도 검정과 비모수적
방법
<정리 14.1>에 의해 ni 가 크면
c
X
ni pij
ij
2
ni pij
j 1
n1 ,
r
2 c 1 ,
i 1,
,r
, nr이 크면
c
i 1 j 1
X
ij
ni pij
ni pij
2
2 r c 1
다항모집단 r 개
모집단 r 개가 모두 같으면
- 32 -
B1
B2
Bc
A1
p11
p12
p1c
n1
A2
p21
p22
p2 c
n2
Ar
pr 1
pr 2
prc
nr
p1
p2
pc
n
제14장 적합도 검정과 비모수적
방법
이들 다항 모집단 r 개가 모두 같은지를 검정하기 위한 가설
H 0 : p1 j p2 j prj p j ,
j 1, 2, , c
H1 : H 0 가 아니다.
H 0가 참일때 p j 들의 최우추정값
pj
c
p
j 1
j
pj
x j
n
,
j 1,
1 추정해야 할 모수의 수 c 1
eij E X ij ni p j
(14.13)
r
,c
c
q
i 1 j 1
x
ij
eij
eij
ni x j
n
2
2 r 1 c 1 이면 가설 H 0 기각
여기서 df r c 1 추정된 모수의 수
r c 1 c 1 r 1 c 1
- 33 -
제14장 적합도 검정과 비모수적
방법
분할표 검정과 동일성 검정
∙ 표 14.1: x1 ,
표 14.3: n1 ,
, xr 관측되는 값
의 차이만 있을 뿐
, nr 주어지는 값
xi x j
n
같은 것
ni x j
식 14.13 : eij E X ij ni p j
n
∙ 식 14.10 : eij E X ij ni pi p j
∙ 두 경우 모두
Q 2 r 1 c 1
분포의 동일성 검정: 분할표 검정과 동일한 절차를 따른다.
- 34 -
제14장 적합도 검정과 비모수적
방법
<예제 14.5> 남녀 각 50명을 대상으로 세 회사의 스포츠음료 중 가장
좋아하는 것을 고르게 하는 실험
회사
표본크기
1
2
3
남성
32 (24)
7 (9.5)
11 (16.5)
50
여성
16 (24)
12 (9.5)
22 (16.5)
50
합계
48
19
33
100
남∙녀간에 좋아하는 제품에 차이가 있는가?
p1 j 남자 중 j회사 제품을 좋아하는 비율,
p2 j 여자 중 j회사 제품을 좋아하는 비율,
- 35 -
j 1,2,3
제14장 적합도 검정과 비모수적
방법
H 0 : p1 j p2 j p j ,
j 1, 2,3
H1 : H 0 가 아니다.
H 0가 참일때
p1 48
100
,
p2 19
100
p3 33
,
e11 E X 11 n1 p1 50
48
24.0
100
e23 E X 23 n2 p3 50
2
3
q
i 1 j 1
x
ij
eij
eij
2
100
33
16.5
100
32 24
24
2
16 24
2
24
22 16.5
2
16.5
2
10.316 5.991 0.05
2
남∙녀에 따라 좋아하는 제품에 차이가 있다.
- 36 -
제14장 적합도 검정과 비모수적
방법
<비모수적 방법>
모수적(parametric) 방법 : 모집단의 분포(함수)의 함수형태는 알고 있으나
이 분포에 포함된 모수(들)을 모른다고 가정
∙ 추론은 주로 미지의 모수에 관한 것
예: 정규분포 N , 2 을 가정하고, 와 2에 대한 추론
∙ 분포함수에 대한 가정이 실제와 다르면 추론 결과에 상당한 오류
비모수적(nonparametric) 방법 : 모집단의 분포(함수)의 형태조차 모르거나,
함수형태를 안다고 할 수 있을 정도로 충분한 자료가 없을 경우
∙ 추론은 주로 미지의 분포함수에 관한 것
∙ 관측값 자체보다는 순서나 부호 사용
∙ 절차가 비교적 간단
∙ 분포함수에 대한 가정이 만족될 때, 모수적 방법보다 성능이
떨어지나 그 정도가 크지 않다.
- 37 -
제14장 적합도 검정과 비모수적
방법
비모수적 방법은 실제로 언제 쓰이는가?
① 실험(조사)에 따라서는 반응변수의 값을
∙ 수치로 측정하기 어렵거나
∙ 수치는 큰 의미가 없고 그 상대적 크기가 의미가 있을 때
특히 사회과학에서의 연구나 / 소비자 행태분석 연구에 그러한
예가 많다.
<예> 기업의 기술력 / 소비자의 기호 / 맛 등의 비교
측정값들 간의 상대적 크기(rank) 자료
② 모수적 방법에서의 가정에 강한 의문이 생길 때
두 모집단의 분포가 같은 지를 검정하는 방법
- 38 -
모집단 #1: X
F
모집단 # 2 : Y
G
제14장 적합도 검정과 비모수적
방법
가설 H 0 : F G
지정 : 모수적 방법
여기서 F와 G의 함수형태
미지정: 비모수적 방법
∙ 대립가설 H1으로서 가장 간단한 것: F와 G는 모양은 같고 위치만
다르다는 것
i) 모수적 위치 검정 모형
<예> X
N 1 , 2
Y
N 2 , 2
가설 H 0 : 1 2 대 H1 : 1 2
H0 참 두 분포는 같다
H0 거짓 두 분포의 함수 모양은 같고 위치만 다르다 즉 1 2
Y 의 분포는 X 의 분포의 왼쪽에
- 39 -
제14장 적합도 검정과 비모수적
방법
1
2
1 2
두 표본 t 검정
t
xy
t n1 n2 2 이면 H 0기각
1 1
sp
n1 n2
ii) 비모수적 위치검정모형
X F
Y
G
가설 H 0 : F G 대 H1 : F G
- 40 -
제14장 적합도 검정과 비모수적
방법
∙ H1은 지나치게 포괄적인 것이어서 좀더 범위를 좁힌 것
H1 : “Y의 분포는 X의 분포와 모양은 같으나 위치만 만큼
왼쪽으로 옮겨있는 것”
을 고려할 수 있다.
G y P Y y P X y P X y F y
fX
fY
0
fY
fX
0
- 41 -
제14장 적합도 검정과 비모수적
방법
이때 가설은
H0 : F G H0 : 0
이 가설에 대한 검정은 어떻게 하는가?
<예> n1 n2
x 들과 y 들을 섞어 놓고 x 의 순서(rank)들을 본다
§ 14.3 부호검정/ 분호순위검정
§ 14.4 순위합 검정
비모수적 위치모형
§ 14.5 Kruskal-Wallis 검정
§ 14.6 run 검정
§ 14.7 순위상관계수
- 42 -
제14장 적합도 검정과 비모수적
방법
§14.3 부호검정과 부호순위검정
§14.3.1 부호검정
부호(sign): 관측값이 특정값 보다 크다(+) 또는 작다(-)를 나타낸 것
순위(rank): 관측값을 작은 것부터 크기 순으로 나타냈을 때 나타나는
상대적 위치
부호나 순위는 분포의 형태나 이상점(outlier)의 영향을 덜 받는다
분포에 무관하게 이용가능
부호검정
i) 하나의 모집단의 중심위치에 대한 검정
ii) 분포의 모양은 같으나 중심위치가 다를 수 있는 두 모집단의
대응비교 (비모수적 위치검정모형)
- 43 -
제14장 적합도 검정과 비모수적
방법
i) 하나의 모집단의 중심위치에 대한 검정
∙ 중심위치척도 : 중앙값 m x0.5
가설
또는 m m0 또는 m m0
H 0 : m m0 대 H1 : m m0
p P X m0 라 하면 H 0가 참일때 p 1
가설
H0 : p 1
확률표본
X1 ,
대 H1 : p 1
2
2
2
또는 p 1 2
또는 p 1
2
, X n 을 얻어 Di X i m0 라 하고
Di 0 인 것에는
부호 부여
Di 0 인 것에는
n n 개중 부호의 수
- 44 -
H 0가 참이면 n ~ b n, 1
2
제14장 적합도 검정과 비모수적
방법
H 0가 참이면 n n
2
H 0가 거짓이면 n n 또는 0
모비율에 대한 가설검정 <예제 9.11>
<정리 10.19>
소표본
대표본
에서 p0 1 인 경우와 같다.
2
<예제 14.6> 가설
H 0 : m 10 대 H1 : m 10 을 유의수준 5%로 검정
자료: 10.18 10.12 9.84 9.25 8.98 10.43 10.05 10.56
Di X i 10의 값을 구하면
0.18 0.12 0.16 0.75 1.02 0.43 0.05 0.56
n 5
- 45 -
제14장 적합도 검정과 비모수적
방법
1
H 0가 참이면 n ~ b 8, 이므로
2
p 값 P n 5 1 P n 4 1 0.637 0.363
H 0를 기각할 수 없다.
ii) 중심위치만 다를 수 있는 두 모집단의 비교
∙ X 의 분포 :중앙값 m1
Y 의 분포 :중앙값 m2
가설: H 0 : m1 m2 대 H1 : m1 m2
대응표본 X 1 , Y1 ,
, X n , Yn
Di X i Yi , i 1,
- 46 -
또는 m1 m2 또는 m1 m2
,n
제14장 적합도 검정과 비모수적
방법
X 와 Y 의 분포가 같으면 P Di 0 P Di 0
1
2
p P Di 0 이라 하면 가설은
1
H0 : p
대
2
1
H1 : p
2
1
1
또는 p 또는 p
2
2
i)의 경우와 같이 Di 0 인 것에는 부호
Di 0 인 것에는 부호
검정절차
1
H 0가 참이면 n ~ b n,
2
실제로 n개 중 c개가 라면
- 47 -
제14장 적합도 검정과 비모수적
방법
대립가설
n
1
n
p 값 P n c
x 2
x 0
n
n
1
1
H1 : p
p 값 P n c n 이면 H 0를 기각
x 2
2
x c
1
H1 : p
P n c 또는 P n c
2
2
2
* Di 0 가 되는 자료는 분석에서제외
1
H1 : p
2
c
<예제 14.7> 제품 10개의 무게를 계측기 A와 B로 측정한 것
제품번호
A
B
부호
- 48 -
1
2 3 4 5 6
71 108 72 140 61 94
77 105 71 152 88 117
- +
+ - - -
7 8
9 10
90 127 101 114
93 130 112 105
- - +
제14장 적합도 검정과 비모수적
방법
계측기간에 차이가 있는가?
가설 H 0 : p
1
대
2
H1 : p
1
2
Di Ai Bi
n Di 0 인 것의 수 H 0가 참일 때 n
1
b 10,
2
n 3
P n 3 0.172 0.025
2
두 계측기간에 차이가 없다고 판단
- 49 -
제14장 적합도 검정과 비모수적
방법
대표본 검정
1
H 0가 참일 때 n ~ b n,
2
E n n , Var n n
2
4
Z
n n
2 N 0,1
n 2
Z 검정 적용
- 50 -
제14장 적합도 검정과 비모수적
방법
§14.3.2 부호순위검정
윌콕슨(Wilcoxon)의 부호순위검정(signed rank test)
X ~ F, Y ~ G
H0 : F G
H1 :"Y 의 분포는 X 의 분포와 모양은 같으나 중심위치가 만큼
왼쪽에 있다." 즉 G y F y
G y P Y y P X y P X y F y
H 0 : 0 대 H1 : 0
대응표본 X 1 , Y1 ,
, X n , Yn
가정: Di X i Yi 는
Di i
를 따른다. 여기서 i ~ iid 이고 원점에서 좌우대칭인 pdf를 갖는다.
- 51 -
제14장 적합도 검정과 비모수적
방법
만일 X i와 Yi가 중심위치만 만큼 다른 모집단에서 얻어진 것이면
i Di 는 대칭성 가정을 만족한다.
Di의 부호뿐만 아니라 Di 의 크기도 의미를 갖는다.
Di 에 크기순으로 순위부여하되
tie가 있으면 해당순위들의 평균을 부여
부호순위통계량
T Di의 기호가 인 Di 들의 순위합
T Di의 기호가
인 Di 들의 순위합
여기서 전체순위합 T T
n n 1
2
T min T , T
- 52 -
제14장 적합도 검정과 비모수적
방법
H 0 : 0 두 분포가 같다가 참이면
E T E T T T
① T의 값이 아주 작으면 두 분포의 위치가 다르다
H1 : 0 일 때
T 의 값이 P T t0 를 만족하는 임계값 t0 이하이면
2
H 0을 기각
*임계값 t0 : 부록의 표 B.7
② T+의 값이 아주 작으면 X가 Y의 보다 확률적으로 작다
(X의 분포가 Y의 분포의 왼쪽에)
H1 : 0 일 때
T 의 값이 P T t0 를 만족하는 임계값 t0 이하이면
H 0을 기각
- 53 -
제14장 적합도 검정과 비모수적
방법
fY
fX
0
③ T-의 값이 아주 작으면 X가 Y의 보다 확률적으로 크다
(X의 분포가 Y의 분포의 오른쪽에)
H1 : 0 일 때
T 의 값이 P T t0 를 만족하는 임계값 t0 이하이면
H 0을 기각
fX
fY
0
- 54 -
제14장 적합도 검정과 비모수적
방법
<예제 14.8> <예제 14.7>의 두 계측기 자료
D의
값
i
Di 의 순위
-6
3
1
-12
-27
-23
-3
-3
-11
9
5
3
1
8
10
9
3
3
7
6
Di 의 값이 같은 세개 3, 3, 3 에는 평균순위 3부여
T 의 값 t 3 1 6 10
T 의 값 t 5 8 10 9 3 3 7 45
T 의 값 t min 10, 45 10
부록의 표 B.7에서 n 10, 0.05 일때 t0 8
t 10 8 t0
두 계측기간에 차이가 없다고 판단
- 55 -
제14장 적합도 검정과 비모수적
방법
대표본 검정
부록의 표 B.7은 n 40까지만
H 0가 참일 때 E T E T
n n 1
Var T Var T
(보충문제 #27*)
4
n n 1 2n 1
24
n 이 클때
T E T
Z
n n 1
4
n n 1 2n 1
Var T
T
N 0,1
24
대표본 Z 검정 적용
- 56 -
제14장 적합도 검정과 비모수적
방법
§14.4 순위합 검정
두 모집단 A와 B의 분포가 같은지 또는 분포의 모양은 같으나
중심위치만 다른지를 검정
A ~ F, B ~ G
H0 : F G
H1 : A의 분포는 B의 분포와 모양은 같으나 중심위치가 만큼
오른쪽에 있다.
G y P Y y P X y
Y
X
fB
fA
P X y F y
H0 : 0
H1 : 0
- 57 -
또는 0
또는 0
0
제14장 적합도 검정과 비모수적
방법
부호검정/부호순위검정 : 대응표본
순위합 검정
: 독립적인 두 표본
윌콕슨(Wilcoxon)의 순위합검정(rank sum test)
두 모집단 A와 B에서 크기가 n1과 n2인 표본을 각각 독립적으로 뽑아
얻은 관측값들을 혼합하여 크기 순으로 1에서 n1+n2=n 까지 순위를
매기고,
rA A 에 속한 것들의 순위의 합
rB B 에 속한 것들의 순위의 합
을 구한다.
∙ 두 모집단의 분포가 같으면 관측값들이 고르게 섞일 것
rA와 rB는 대체로 n1과 n2에 비례
특히 n1 n2면 rA rB
- 58 -
제14장 적합도 검정과 비모수적
방법
두 모집단의 분포의 중심위치가 다르면
관측값들이 각기 다른 방향으로 모일 것
rA
rB 또는 rB
rA 이면 두 분포가 같다는 귀무가설을 기각
<예> 같은 반 남학생 10명, 여학생 10명을 키 순서대로 한줄로 세우면
여학생은 주로 앞쪽에 / 남학생은 주로 뒤쪽에
여학생들의 순위합 남학생들의 순위합
기각역은 어떻게 정하는가?
<예제 14.9> 식이요법 A와 B의 체중감소효과를 비교하기 위해 비만증 환자
9명을 대상으로 임상실험
4명에는 식이요법 A, 5명에는 식이요법 B를 실시한 결과의
체중감소량 (괄호 안의 수치는 순위)
- 59 -
제14장 적합도 검정과 비모수적
방법
식이요법 A
식이요법 B
5 (6)
2 (2.5)
0 (1)
4 (5)
6 (7)
7 (8)
2 (2.5)
9 (9)
3 (4)
순위합 rB 30.5
순위합 rA 14.5
표본 A의 순위합 RA를 검정통계량으로 하면
RA의 최소값 10 1 2 3 4 , 최대값 30 6 7 8 9
10 RA 30
RA의 분포
두 표본이 같은 분포에서 나왔다면 9개의 관측값의 순위로 이루어진
순열의 수는 9!
각 경우의 확률
- 60 -
1
9!
제14장 적합도 검정과 비모수적
방법
i) 기각역 R 10,30을 고려
1
RA 10인 경우 표본 A의 순위:1, 2,3, 4 경우의 수 4! 5!
P RA 10 4! 5! 1
9! 126
비슷하게 P RA 30 1
126
유의수준 P RA R 2
1
126
0.0159
ii) 기각역 R 10,11, 29,30을 고려
2
RA 11인 경우 표본 A의 순위:1, 2,3,5 경우의 수 4! 5!
P RA 11 P RA 29 1
126
P RA R
- 61 -
2
4126 0.0317
제14장 적합도 검정과 비모수적
방법
iii) 기각역 R 10,11,12, 28, 29,30을 고려
3
RA 12인 경우 표본 A의 순위:1, 2,3,6 또는 1, 2, 4,5
P RA 12 2 4! 5! 2
9! 126
P RA 28 2
P RA R
3
126
8126 0.0635
적절한 유의수준으로 0.0635 를 선택하면 기각역은 R
RA의 값 rA 14.5 R
3
3
두 표본이 같은 모집단에서 나왔다고 판단
∙ 이 순위합검정은 1945 Wilcoxon이 처음 제안 (n1=n2인 경우)
Mann과 Whitney가 1947 n1≠n2인 경우로 확장 맨-휘트니 검정
- 62 -
제14장 적합도 검정과 비모수적
방법
윌콕슨의 순위합 검정
맨-휘트니 검정
본질적으로 같은 것이나
∙ 검정통계량 / 적용절차가 다르다
∙ 맨-휘트니 검정통계량의 분포 / 임계값이 표로 나와있어
보다 널리 쓰인다.
맨-휘트니 검정
검정통계량 U:
1. 표본 A와 B의 관측값 n1 n2개를 크기순으로 배열
2. 표본 B의 개개의 관측값보다 작은 표본 A의 관측값의 개수를 구해
모두 더한다.
- 63 -
제14장 적합도 검정과 비모수적
방법
∙ <예제 14.9>의 표 14.6의 자료
0
2
3 4 5 6 7 9
A A,B B A A B B B
표본 B의 관측값을 기준으로 한 통계량 U A의 값
표본 B의 가장 작은 관측값 2보다 작은 표본 A의 관측값의 수 u1 1.5
같은 방법으로 u2 2, u3 4, u4 4, u5 4
u A u1 u2 u3 u4 u5 1.5 2 4 4 4 15.5
표본 A의 관측값을 기준으로 한 통계량 U B의 값
uB 0 0.5 2 2 4.5
맨-휘트니 검정통계량의 값은 윌콕슨 순위합 통계량의 값으로 표현 가능
n1 n1 1
n2 n2 1
u A n1 n2
rA , u B n1 n2
rB
2
2
(연습문제 #9*)
- 64 -
제14장 적합도 검정과 비모수적
방법
여기서
u A uB n1 n2
rA 표본 A의 순위합
rB 표본 B의 순위합
모집단 A의 분포가 모집단 B의 분포의 오른쪽에 위치
RA가 커지고 U A는 작아진다.
RB가 작아지고
U B는 커진다.
모집단 A의 분포가 모집단 B의 분포의 왼쪽에 위치
RB가 커지고 U B는 작아진다.
RA가 작아지고
U A는 커진다.
U A나 U B의 값이 매우 크거나 매우 작으면 두 표본은 위치가 서로
다른 분포에서 나왔다는 증거
- 65 -
제14장 적합도 검정과 비모수적
방법
귀무가설 H 0 : 두 모집단의분포는 같다.
i) 대립가설이
H1 : 두 모집단의분포의위치가 다르다.
인 양측검정인 경우:
u min u A , uB 가 P U u0 를 만족하는 임계값 u0
2
이하이면 H 0를 기각
ii) 대립가설이
H1 : A의분포가 B의분포의오른쪽에 있다.
인 단측검정인 경우:
U A의 값 u A가 P U A u0 를 u0 이하이면 H 0를 기각
- 66 -
제14장 적합도 검정과 비모수적
방법
ii) 대립가설이
H1 : A의분포가 B의분포의왼쪽에 있다.
인 단측검정인 경우:
U B의 값 uB가 P U B u0 를 u0 이하이면 H 0를 기각
부록의 표 B.8a : n1 8, n2 8 인 경우 검정통계량 U 의 분포
부록의 표 B.8b : 9 n2 20, n1 n2 인 경우 검정통계량 U 의
기각역의 임계값 u0
n1 n2 이므로 크기가 작은 표본을 "표본 1"로
임계값 u0를 양측검정에 쓸때는 유의수준 2
- 67 -
제14장 적합도 검정과 비모수적
방법
<예제 14.10> <예제 14.9>의 자료
n1 4, n2 5, rA 14.5, rB 30.5
u A n1 n2
uB n1 n2
n1 n1 1
2
rA 4 5
n2 n2 1
2
45
14.5 15.5
2
rB 4 5
5 6
30.5 4.5
2
u min u A , uB 4.5
부록의 표 B.8a : n1 4, n2 5 일 때 P U 2 0.032
기각역 u 2를 쓰면 유의수준 2 0.032 0.064
<예제 14.9>에서의 유의수준과 같다.
계산된 U 의 값 u 4.5 u 2
H 0를 기각할 수 없다.
윌콕슨의 순위합 검정과 같은 결론
- 68 -
제14장 적합도 검정과 비모수적
방법
대표본 검정
H 0하에서 U 의 평균과 분산
E U A E U B
n1 n2
Var U A Var U B
(보충문제 #28*)
2
n1n2 n1 n2 1
12
n1 과 n2가 20보다 커서 부록의 표 B.8b를 쓰지 못하는 경우
Z
U i E U i
Var U i
Ui
n1n2
N 0,1 ,
2
n1n2 n1 n2 1
i A, B
12
대표본 Z 검정 적용
- 69 -
제14장 적합도 검정과 비모수적
방법
맨-휘트니 검정
윌콕슨의 순위합 검정
*
과 두 표본 t 검정
∙ 세 검정모두 서로 독립인 두 표본으로
∙ 맨-휘트니 검정 / 윌콕슨의 순위합 검정은 표본에 있는 정보를
모두 쓰는 것이 아니라 순위들만 쓴다
두 표본 t 검정보다 효율이 떨어진다.
∙ 실제로는 효율이 크게 떨어지는 것은 아니다.
<예> 모집단이 정규분포를 따를 때
맨-휘트니 검정의 α, β 과오 확률과 똑같은 과오확률을 가지기
위해 필요한 t 검정의 표본수는 맨-휘트니 검정의 표본수의 90%
정도
- 70 -
제14장 적합도 검정과 비모수적
방법
§14.5 크러스칼-월리스 검정
윌콕슨의 순위합 검정을 k (k≥2)개의 모집단을 비교하는 검정으로
일반화 한 것으로,
§13.2 일원배치법의 분산분석에 대응되는 비모수적 방법
크러스칼-월리스 검정
k개의 모집단에서 각각 크기 n1 ,
, nk인 표본을 독립적으로 뽑는다
모형
yij i ij ,
i 1,
, k,
j 1,
, ni
여기서 전체평균
i 모집단(처리) i 의 효과,
오차 i
k
i 1
i
0
iid 이고 연속형 분포함수를 갖는다
2
* §13.2 일원배치모형 : ij ~ iid N 0, 라 가정
- 71 -
제14장 적합도 검정과 비모수적
방법
가설
H 0 : 1
n n1
k 0
H 0 : 1
k
nk 개의 관측값 yij들을 혼합하여 크기순으로 배열해
순위를 매긴다.
: 표본 i 에 해당하는 순위들의 합
Ri
Ri
R
Ri
ni
: 표본 i 의 평균 순위
: 전체 평균 순위
R
- 72 -
1 2
n
n
n 1
2
제14장 적합도 검정과 비모수적
방법
일원배치의 분산분석에서
k
SS A ni yi y
2
(식(13.4), 연습문제 #13.2.7)
i 1
SS A에 해당하는 것
k
V ni Ri R
i 1
2
n 1
ni Ri
2
i 1
k
2
모집단이 모두 같으면 모든 Ri들의 값이 R의 값과 비슷할 것
V 의 값이 작아질 것
모집단이 서로 다르면 Ri들의 값이 R의 값과 많이 다를 것
V 의 값이 커질 것
검정통계량 V 의값이크면 H 0을 기각
- 73 -
제14장 적합도 검정과 비모수적
방법
Kruskal 과 Wallis가 제안한 검정통계량
H
12V
n n 1
k
Ri2
12
3 n 1
n n 1 i 1 ni
(연습문제 #11*)
* H의 분포표가 k와 ni들이 작은 값에 대해 나와는 있으나 널리 알려져
있지는 않다.
* min n1 ,
n1 ,
, nk 에 따라 H 의 분포는 2 k 1로 접근
, nk가 크면 대체로 n 5
H 의 분포 2 k 1
따라서 H 의 값 h가 h 2 k 1 일 때 H 0를 기각
- 74 -
제14장 적합도 검정과 비모수적
방법
<예제 14.11> 통계수업이 3개 반으로 나뉘어 진행
각 반에서 10명 씩 뽑아 시험을 치른 점수
분반 1
분반 2
분반 3
점수
순위
점수
순위
점수
순위
83
19
73
13.5
88
24
97
30
66
8
55
1
68
9.5
85
21
73
13.5
95
29
64
7
79
16
86
22
73
13.5
62
6
70
11
80
17
82
18
87
23
60
4
59
3
94
28
61
5
73
13.5
84
20
93
27
89
25
90
26
58
2
68
9.5
r1 217.5
r2 118
r3 129.5
각 반에 속한 학생들의 학업성취도가 같은가?
n1 n2 n3 10, n 30
- 75 -
제14장 적합도 검정과 비모수적
방법
12 r12 r22 r32
H의 값: h
3 n 1
n n 1 n1 n2 n3
12 217.5 118 129.5
30 31 10
10
10
2
2
모든 ni 5 이므로 2분포를 이용하면
2
h 7.65 5.991 0.05
2
3 31 7.65
H 0를 기각
세반의 학업성취도가 같지 않다고 판단.
k=2 인 경우 크러스칼-월리스 검정은 윌콕슨 순위합검정의 양측검정과
동일하게 된다.
k=2 일 때,
12 R12 R22
H
3 n 1
n n 1 n1 n2
R1 R2
- 76 -
n n 1
n n 1
R2
R1
2
2
제14장 적합도 검정과 비모수적
방법
2
2
12 R1
1 n n 1
R1 3 n 1
H
n n 1 n1 n2 2
3 n 1 n1
12
12
R12 R1
n2
n2
n 1 n1n2
aR12 bR1 c,
a0
따라서 H c R1 c1 또는 R1 c2
즉 k 2 일 때 크러스칼-월리스 검정 윌콕슨의 순위합검정 (양측검정)
맨-휘트니 검정 (양측검정)
- 77 -
제14장 적합도 검정과 비모수적
방법
§14.6 런 검정
<예> 흰 구슬 5개와 검은 구슬 5개가 들어있는 주머니에서 하나씩
비복원으로 뽑는 실험의 결과
① ● ●●●●○ ○○○○
② ●●●○○○○○●●
③ ●○●○●○●○●○
두 종류의 구슬이 무작위하게 뽑혔는가?
한줄로 나열했을 때 주기성이 없이 얼마나 고르게 섞여있는가?
①, ② 흰 구슬과 검은 구슬들이 몰려있다.
③
- 78 -
흰 구슬과 검은 구슬이 주기적으로 반복해서 나타난다.
제14장 적합도 검정과 비모수적
방법
주기성이 없이 고르게 섞여있다고 할 수 없다.
실험이 무작위하게 수행되었다고 보기 어렵다.
두 종류의 사건이 일어나는 순서에 대한 무작위성(randomness)은
한 사건이 얼마나 연속해서 일어나는가로 평가
런(run) : 동일한 종류에 속하는 사건의 연속
런 2개
② 길이 3인 런, 길이 5인 런, 길이 2인 런
런 3개
③ 길이 1인 런, 길이 1인 런, …
런 10개
예: ① 길이 5인 런, 길이 5인 런
런검정(run test) : 런을 이용하여 일련의 사건의 발생에 대한 무작위성을
검정하는 것
∙ 런의 수
∙ 런의 길이
여기서는 런의 수를 쓰는 검정만 다룬다.
- 79 -
제14장 적합도 검정과 비모수적
방법
가설은
H0 : 두사건(흰 구슬과 검은 구슬)이 무작위한 순서로 일어난다.
H1 : H0가 아니다.
검정통계량이 런의 수 R일 경우, 기각역을 구하려면, H0가 참일 때
R의 분포를 구해야
흰 구슬 n1개와 검은 구슬 n2 개가 들어있는 주머니에서 하나씩
비복원으로 뽑아 한줄로 나열하는 실험에서
X1 : 흰 구슬의 런의 수
X2 : 검은 구슬의 런의 수
런의총수 R X1 X 2
R의 최소값 2
n1 n2
2n1 ,
R의 최대값
2n1 1, n1 n2
- 80 -
제14장 적합도 검정과 비모수적
방법
a) 구슬 n1 n2개를 배열하는 모든 가능한 경우의 수 n1 n2
n1
H 0가 참이면 모든 가능한 배열이 같은 확률을 가짐
n n
각 배열이 나타날 확률 1 1 2
n1
b)
흰구슬 n1개로부터 런 x1개를 얻은 경우의 수
상자 x1개에 흰구슬 n1개를 빈상자가 생기지 않게 나누어 담는
경우의 수
한줄로 놓은 구슬 n1개 사이에 막대기 x1 1개를 놓는 것
○|○○○|○○|○∙∙∙|○|○○○|○
- 81 -
제14장 적합도 검정과 비모수적
방법
구슬 틈 n1 1개 중에서 막대기를 놓을 자리 x1 1개를 선택하는
n 1
경우의 수 1
x1 1
n 1
검은 구슬 n2개로부터 런 x2개를 얻는 경우의 수 2
x2 1
흰구슬의 런 x1개와 검은 구슬의 런 x2개를 가지는 경우의 수
n1 1 n2 1
x 1 x 1
1 2
c) x1과 x2 사이에는 x2 x1 1, x2 x1 , x2 x1 1 중 하나의 관계
2, x2 x1
h x1 , x2 1, x2 x1 1
0, 0
라 하면
- 82 -
제14장 적합도 검정과 비모수적
방법
n 1 n2 1
n n
p x1 , x2 P X 1 x1 , X 2 x2 1
h x1 , x2 1 2
x1 1 x2 1
n1
d) R=r인 경우를 보면
x2 x1 일 때 r x1 x2는 짝수
x1 x2 r
2
r 1 r 1
x2 x1 1 일 때 r x1 x2는 홀수 x1 , x2
,
2
2
r 1 r 1
또는
,
2
2
n1 1 n2 1
2 r
r
n1 n2 ,
1 n1
2 1
2
PR r
n1 1 n2 1 n1 1 n2 1
r 1 r 3 r 3 r 1
2
2 2 2
- 83 -
r 짝수
r 홀수
n1 n2 ,
n
1
(연습문제 #9)
제14장 적합도 검정과 비모수적
방법
부록의 표 B.9a : n1 n2 10 인 경우에 R의 분포함수 P R r0 의 값
부록의 표 B.9b : n1 20, n2 20, 0.05 인 경우에
P R rL , P R rU 가 되는 R에 대한 기각역의
2
2
임계값 rL과 rU
<예제 14.12> 운전면허시험 20 문항의 정답여부가
OXOOXOXOXXOOXOXOXXXO
으로 나타나도록 문제를 배열
O와 X가 무작위로 배열되었다고 할 수 있는가?
P R rL P R rU 를 만족하는 rL과 rU 를 구하여
rL R rU 로 나타나면 위의 배열이 무작위 하다고 판단.
O : n1 10개
X : n2 10개
- 84 -
제14장 적합도 검정과 비모수적
방법
R의 범위는 2 R 20 이고 R 15가 관측되었다.
부록의 표 B.9b에서 n1 n2 10 rL 6, rU 16
rL 6 R 15 16 rU
배열이 무작위 하다고 판단
부록의 표 B.9a에서 n1 n2 10 P R 6 0.019
P R 16 0.019
P R 6 P R 16 0.038 0.05
* 런 검정은 시간에 따른 일련의 측정값 즉 시계열이 무작위한지를
검정하는 데도 쓰인다.
- 85 -
제14장 적합도 검정과 비모수적
방법
<시계열의 예>
화학제품의 품질특성
특정제품에 대한 수요
물가지수
등
시간에 따라 어떤 경향을 갖거나
주기성을 띈다.
시계열에 대한 무작위성 검정
① 어떤 기준점으로부터 벗어난 방향 조사
<예> 목표값보다 크거나 작은 측정값의 런의 개수로 수준의
변화여부를 판단
② 측정값의 연속적인 증가 또는 감소 조사
<예> 연속적으로 증가하는 상승런과 연속으로 감소하는 하강런의
개수로 시계열에 주기성이 있는지를 판단.
- 86 -
제14장 적합도 검정과 비모수적
방법
<예제 14.13> 화학제품의 순도(단위%)를 매시간 측정하여 타점한 것
13
12
11
10
9
8
7
0
2
4
6
8
10
12
14
16
이 자료들이 무작위 한가?
∙ 측정값들을 평균을 기준으로 평균보다 크다(U), 또는 작다(D)로 표시
D D D D U U D U U D U D D D D
n1 5, n2 10, R 7
- 87 -
제14장 적합도 검정과 비모수적
방법
부록의 표 B.9a에서 p 값 P R 7 0.455
p 값이 크다
부록의 표 B.9b에서 rL 3, rU 는 존재하지 않는다.
rL 3 R 7 rU
측정값들이 무작위하다고 판단.
* 런 검정은 맨-휘트니 검정처럼 두 모집단 A와 B를 비교하는 데도
쓸 수 있다.
∙ 두 표본의 측정값들을 혼합하여 크기순으로 나열
∙ 해당 모집단에 따라 A와 B로 표시
∙ A
AB
B
BA
B
인 경우 런의 수 r 2
A
∙ r 이 작으면 두 모집단에 차이가 있다는 증거
기각역 r r0
- 88 -
제14장 적합도 검정과 비모수적
방법
대표본 검정
H 0가 참일 때
E R
2n1n2
1
n
Var R
2n1n2 2n1n2 n
n n 1
2
(보충문제 #29*)
1
여기서 n n1 n2
n1과 n2가 20보다 커서 부록의 표B.9b를 쓰지 못하는 경우
Z
R E R
Var R
N 0,1
대표본 Z 검정 적용
- 89 -
제14장 적합도 검정과 비모수적
방법
§14.7 순위상관계수
X ,Y
2변량 정규분포일 때
H 0 : X 와 Y 는 서로 독립
H0 : 0
, X n , Yn 을 뽑아 표본상관계수
확률표본 X 1 , Y1 ,
R
X X Y Y
X X Y Y
i
i
2
i
2
식(12.42)
i
을 얻으면
T
R n2
1 R
2
t n 2
식(12.45)
정리 12.14 의 t검정
- 90 -
제14장 적합도 검정과 비모수적
방법
X , Y 의 분포를
모르거나
알려져있더라도 X 와 Y 의 관측값을 얻기 어려워 그 상대적 순위만을
관측 할 수 있을 때
X i와 Yi의 상대적 순위 자료를 이용해 X 와 Y 의 상관관계에 관한 가설을
검정할 수 있다.
스피어맨(Spearman)의 순위상관계수(rank correlation coefficient)
X , Y 에 대한 크기 n인 확률표본의 관측값
x1 , y1 ,
, xn , yn
중 i 번째 관측값 xi , yi 에서
- 91 -
x1 ,
, xn 중 xi의 순위 ri
y1 ,
, yn 중 yi의 순위 si
제14장 적합도 검정과 비모수적
방법
순위쌍
r1 , s1 ,
, rn , sn
스피어맨의 순위상관계수 R*의 값 r *
n
r
r r s s
i 1
*
(14.31)
n
i
i
ri r si s
i 1
여기서
n
2
n
n
i 1
i 1
i 1
ri si 1 2
r s n 1
n
n
n n 1
2
2
n
2
2
2
r
s
1
2
i i
2
i 1
2
n2
n n 1 2n 1
i 1
6
di ri si 라 하면
n
n
i 1
i 1
2
r
s
n
n
1
2
n
1
6
d
ii
i 2
- 92 -
제14장 적합도 검정과 비모수적
방법
r 1
*
6
n n 2 1
n
2
d
i
보충문제 #30*(a)
i 1
<예제14.14> 입사시험에서 서류심사에 통과한 10명의 면접시험과
필기시험 결과
면접시험: 점수화가 힘들어 상대적 순위만
- 93 -
응시자
면접순위
필기시험성적
di
1
6
67 (8.5)
-2.5
2
9
61 (10)
-1
3
3
83 (4)
-1
4
10
67 (8.5)
1.5
5
1
94 (2)
-1
6
7
81 (5)
2
7
5
70 (7)
-2
8
2
86 (3)
-1
9
8
74 (6)
2
10
4
96 (1)
3
제14장 적합도 검정과 비모수적
방법
n 10,
10
d
i 1
r* 1
2
i
33.5
6
33.5 0.797
10 99
1 r* 1
보충문제 #30*(b)
xi와 yi의 순위가 완벽하게 일치하면
ri si
식(14.31)에서 r * 1
xi와 yi의 순위가 완벽하게 정반대이면
si n ri
식(14.31)에서 r * 1
r * 1 또는 r * 1 이면 X 와 Y 의 순위간에 상관관계가
있다는 증거
- 94 -
제14장 적합도 검정과 비모수적
방법
X 와 Y 의 순위간의 상관계수를 * 라 하면
r * 1 또는 r * 1 일 때 가설 H 0 : * 0 을 기각한다.
부록의 표 B.10 : 주어진 n 과 에 따른 P R* r0* = 를 만족하는
임계값 r0*
예: n 12, 0.01일 때 대립가설이
H1 : * 0 일 경우
r * 0.703 이면 H 0를 기각
H1 : * 0 일 경우
r * 0.703 이면 H 0를 기각
H1 : * 0 일 경우
0.005 r * 0.780
2
- 95 -
r * 0.780 이면 H 0를 기각
제14장 적합도 검정과 비모수적
방법
<예제 14.15> <예제 14.14>에서
H0 : * 0
대 H0 : * 0
를 0.01 로 검점
부록의 표 B.10에서 n 10, 0.01일 때 r0* 0.745
r * 0.797 0.745 r0*
H 0를 기각
면접시험과 필기시험은 서로 연관성이 있다고 판단
- 96 -
제14장 적합도 검정과 비모수적
방법