제14장

Transcript 제14장

제 14 장
적합도 검정과 비모수적 방법
제14장 적합도 검정과 비모수적
방법
<적합도 검정>
모집단에 대한 정보가 부족해서 분포함수의 모형을 확실히 가정할 수
없는 경우에는 자료가 어떤 모집단으로부터 얻어졌는지에 관심
예: 자료가 정규분포에서 나온 것?
 적합도 검정 : 주어진 자료가 특정분포에서 나왔다고 할 수 있는지
검정하는 방법
§14.1 적합도 검정
§14.2 분할표 검정
-1-
제14장 적합도 검정과 비모수적
방법
§14.1 범주형 자료의 적합도 검정
질적변수
 변수
연속변수 : 정량자료(quantitative data)
(§1.2)
양적변수
이산변수 : 정성자료(qualitative data)
 정량자료라도 어떤 속성이나 구간에 따라 분류하여 도수로 나타냄으로서
정성자료화 할 수 있다.
∙ §11.3 도수분포표와 히스토그램
 범주형 자료(categorical 또는 enumerative 또는 count data) :
관측결과를 어떤 속성에 따라 분류하여 도수로 주어지는 자료
예: 설문조사 문항에 따른 응답 분류
소득 수준에 따른 가계 분류
공산품/농산품 품질등급에 따른 분류
소비자 반응 조사
-2-
제14장 적합도 검정과 비모수적
방법
 사회∙경제 현상에 대한 조사
인문∙사회과학 등에서의 실험
에서 나타나는 관측값들은 조사(실험)
에서 나올 수 있는 결과를 몇 개의 범주(category)로 분류하고
전체 관측값 중 각 범주에 속하는 수를 세어 얻어지는 자료(count data)인
경우가 많다.
 다항 실험의 특성에 가깝다
<다항실험>
1. 실험은 n개의 동일한 시행(identical trials)들로 이루어진다.
2. 각 시행의 결과는 k개의 범주 중 하나에 속한다.
3. 하나의 시행결과가 범주 i에 속할 확률은 pi로서 시행에 따라 변하지
않고 일정하다
여기서
-3-
p1  p2 
 pk  1
제14장 적합도 검정과 비모수적
방법
4. 시행들은 서로 독립이다.
5. n번 반복 시행결과 범주 i에 속하는 시행수(관측도수)를 Xi라 하자

여기서
X1  X 2 
 X1 , X 2 ,
, X k  의 분포에 관심
p  x1 ,

 X1,
, xk  
, Xk 
n!
 Xk  n
범주#
1
2
k 합계
p1x1
pkxk
확률
p1
p2
pk
1
MN k  n; p1 ,
, pk 
시행수
x1
x2
xk
n
x1 !
xk !
k  2인 경우 (binomial experiment)
n! x
y
p 1  p  ,
x! y !
p  x, y  


-4-
X
y nx
n!
n x
p x 1  p 
x ! n  x !
b  n, p 
제14장 적합도 검정과 비모수적
방법

 p1 ,
, pk 에 대한 가설검정에서 기각역의 결정에는 주어진 유의수준 에
따른 H 0하에서의 다항분포의 확률계산이 필요한데 이것이 매우 번거롭다
 범주형 자료의 분석에는 관측도수 Xi와 기대도수 E(Xi)=npi의 차의
제곱
 X i  npi 
2
을 기대도수의 역수로 가중평균한 통계량의
근사분포를 쓴다.
<정리 14.1>
 X1 ,
, X k  ~ MN k  n ; p1 ,
k
 X i  npi 
i 1
npi
Q
, pk 
2
2
는 점근적으로 분포   k  1 을 따른다.
-5-
제14장 적합도 검정과 비모수적
방법
k  2인 경우: X1  X 2  n,
X 1  np1 

Q
2
 X 1  np1 
2
np1

np1
X 2  np2 


2
np2

 X 1  np1 
n 1  p1 
 X  np 
1
1


 np1 1  p1  
CLT에 의해
p1  p2  1
X 1  np1 


2
np1
2
 n  X 1  n 1  p1  

n 1  p1 
2
 X 1  np1 
np1 1  p1 
2

2
X 1  np1
np1 1  p1 
의 극한분포는 N  0,1
 Q의 극한분포는  2 1
-6-
제14장 적합도 검정과 비모수적
방법
주어진 자료가 각 범주에 속할 확률  p1 ,
H 0 : p1  p10 ,
, pk 에 관한 가설
, pk  pk 0 대 H1 : H 0가 아니다
를 검정하는 문제:
 H 0가 참이면 E  X i   npi 0
 실제 관측도수와 기대도수의 차이 X i  npi 0 들이 크면 H 0가
참이 아니라는 뜻
k
 Q
i 1
 X i  npi 0 
npi 0
2
  2  k  1
이고 Q 의 값 q  2  k  1이면 H 0을 기각
 H 0에 대한 우도비 검정통계량 - 2ln  의 값은 n이 클 때
근사적으로 Q 의 값과 같아진다.
-7-
(보충문제 #9.25*)
제14장 적합도 검정과 비모수적
방법
 우도비 검정에서 의 값을 구하는 것이 번거로우므로
기각역 - 2ln   2  k  1을 쓰는 대신
기각역
q  2  k  1을 쓴다
<예제 14.1> 야구선수의 안타 60개를 타구 방향에 따라 좌∙중 ∙우로 분류
안타가 전 방향에 고르게 나타나는가?
H 0 : p1  p2  p3 
1
3
좌
관측수 12
기대도수 20
1
E  X i   npi  60   20,
3
3
 xi  npi 0 
i 1
npi 0
 q
2
12  20 

20
2
 26  20 

20
2
 22  20 

중
26
20
우
22
20
2
20
2
 5.20  4.605   0.10
 2
 유의수준 10%로 H0를 기각
-8-
제14장 적합도 검정과 비모수적
방법
<적합도 검정 (goodness-of-fit test)>
 주어진 자료가 특정분포로부터 나온 것인지를 판단하는 검정
 좀더 엄밀히는,
특정분포모형이 모집단의 분포로서 적절하지 않다고 배제할 수
있을 지를 표본자료와 이 분포모형에 의한 이론(기대) 수치와
비교하여 판단하는 검정
a) 주어진 자료가 특정분포 F 로부터 얻어진 것이라는 가설
H0 : X ~ F
의 검정
 자료가 정량적 자료이면 이를 범주형 자료로 변환한다.
-9-
제14장 적합도 검정과 비모수적
방법
 실수구간 R을
A1   , a1 
A2   a1 , a2 
Ak   ak 1 ,  
…
로 분할

A2
A1
Ak 1
a1 a 2
a k 2
Ak
a k 1
pi  P  X  Ai   F  ai   F  ai 1 
여기서 p1  0,
, pk  0 가 되도록 A1 ,
 분포 F로부터 확률표본
 X1,
, Ak를 정한다
, X n 을 뽑아
 Yi  X i들 중 관측결과가 구간 Ai에 속한 것들의 수

- 10 -
Y1 ,
, Yk 
MN k  n; p1 ,
, pk 
제14장 적합도 검정과 비모수적
방법
<정리 14.1>에 의해
k
Yi  npi 
i 1
npi
Q

2
  2  k  1
Q 의 값 q  2  k  1이면 H 0을 기각
b) 분포함수가 미지의 모수 r개 1 ,
 H0 : X
Fθ , θ  1 ,
 실수구간 R을 R 
, r   θ 를 갖는 Fθ 인 경우:
, r 
k
Ai 로 분할
i 1

pi  P  X  Ai   Fθ  ai   Fθ  ai 1 
 Fθ로부터 확률표본  X 1 ,
 MLEs 1 ,
- 11 -
, X n 을 뽑는다

, r를 구한다. θ  1 ,
, r

제14장 적합도 검정과 비모수적
방법

pi  Fθ  ai   Fθ  ai 1 
 Yi  X i들 중 관측결과가 구간 Ai에 속한 것들의 수
 n 이 크면
k
Q
i 1

Y  n p 
i
i
n pi
2
  2 k 1 r 
Q 의 값 q  2  k  1  r 이면 가설 H 0을 기각
 적합도 검정에서 유의할 것
i)  (근사화) Q의 분모에 들어가는 npi 또는 n pi 이 너무 작으면 Q의
값이 불안정해  2 근사화가 좋지 않게 된다.


 npi  5 또는 n pi  5 가 되지 않는 구간은 인접구간과 합친다.
 pi =P  X  Ai   1 가 되도록 A1 ,
k
- 12 -
, Ak를 정하면 근사화가 좋아진다.
제14장 적합도 검정과 비모수적
방법
ii) (단측검정) 일반적으로 범주 i의 관측도수 oi, 기대도수의 추정값을
eî 라 하면 Q의 값
k
 oi  eî 
i 1
eî
q
2
 2  k  1  r 
일 때 가설 H 0를 기각  단측검정이다.
iii) (자유도) H 0하에서 Q   2  df 
여기서 자유도 df 는 문제의 성격에 따라 다르게 정해진다.
§ 14.1 
각각 다른 유형의 문제
§ 14.2 
일반적으로는
① df  범주의 수  관측도수에 부과되는 선형제약식의 수
- 13 -
제14장 적합도 검정과 비모수적
방법
예: 다항분포의 경우
범주의 수  k

  df  k  1
 xi  n 이라는 선형제약식 1개
k
② Q
i 1
 Oi  ei 
2
ei
에서 ei가 미지의 모수를 포함할 경우 모수를
추정값으로 대체 ei  eî 한다. 이때
∙ 추정값은 MLE
∙ 모수 하나 추정할 때마다 df 가 하나씩 줄어든다.
<예제 14.2> 어느 지역에서 하루에 발생하는 화재 건수 X를 60일간
관측한 결과
범주#
1
화재건수 0
관측도수 27
- 14 -
2
1
18
3
2
12
4
3
3
5
4이상
0
제14장 적합도 검정과 비모수적
방법
가설 H 0 : X
Poi    를 유의수준 5%로 검정
 모수 의 MLE
ˆ  x   0  27  1 18  2  12  3  3 60  0.85
 P  X  3   0.85   0.055  기대도수  60  0.055  3.3
 각 구간의 기대도수가 5 이상이 되도록 다시 정리
범주#
1
화재건수 0
관측도수 27
 H0 : X
- 15 -
2
1
18
3
2 이상
15
Poi    일 때 각 구간에 속할 확률 추정
p1  P  X  0   e  

p1  e 0.85  0.427
p2  P  X  1   e  

p2  0.85e 0.85  0.363
p3  P  X  2   1  p1  p2

p3  1  0.427  0.363  0.210
제14장 적합도 검정과 비모수적
방법
∙ 기대도수의 추정
e1  n p1  25.62, e2  n p2  21.78, e3  n p3  12.60
∙ 검정통계량 Q의 값
oi  eî 
27  25.62  18  21.78  15  12.60 


q



eî
25.62
21.78
12.60
i 1
k
2
2
2
2
2
 1.188  3.841   0.05
1
여기서 df  k  1  r  3  1  1  1
 하루에 발생하는 화재건수가 포아송분포를 따른다는 가설을
배제할 충분한 증거가 없다.
- 16 -
제14장 적합도 검정과 비모수적
방법
<예제 14.3> 정규분포를 따르는 난수(random number)를 생성시키는
전산프로그램을 작성하고, 이 프로그램을 실행하여 난수 40개 생성.
이 전산 프로그램은 올바르게 만들진 것인가? 즉 자료가 정규분포로부터
얻어진 것이라 할 수 있는가?
 검정하고자 하는 가설 H 0 : X
N   , 2 
 MLEs   x
2 
1
2
n 1 2
x

x

s  s2



i
n
n
주어진 자료로부터 n  40, x  15.96, s  2.144
 표 11.2를 참고하여 범주를 5개로 정하고 각 범주에 속할 확률을
pi  1  0.2로 하면
5
pi  P  ai 1  X  ai   0.2, i  0,1,
,5, a0  , a5  
가 되도록 a1 , a2 , a3 , a4를 정한다.
- 17 -
제14장 적합도 검정과 비모수적
방법
a  

 P  X  ai   P  Z  i
  0.2i
 


ai  

 z10.2i
 ai     z10.2i
여기서   15.96,   s  2.144 를 쓰면
ai  15.96  2.144 z10.2i
표준정규분포표로부터 보간법을 쓰면
z0.2  0.8418   z0.8 ,
z0.4  0.2533   z0.6
 a1  15.96  2.144   0.8418   14.155
a2  15.96  2.144   0.2533  15.417
a3  15.96  2.144   0.2533  16.503
a4  15.96  2.144   0.8418   17.765
- 18 -
제14장 적합도 검정과 비모수적
방법
도수분포표
관측도수  oi 
구간
기대도수  eî 
pi
-∞ ~ 14.115
12
0.2
8
14.115 ~ 15.417
4
0.2
8
15.417 ~ 16.503
7
0.2
8
16.503 ~ 17.965
6
0.2
8
17.965 ~ ∞
11
0.2
8
40
1.0
40
합계
Q ~  2  2
df  k  1  r  5  1  2  2
k
 oi  eî 
i 1
eî
q
12  8 


8
2
2
4  8


8
2
7  8


8
2
6  8


8
2
11  8 


2
8
2
 5.750  5.911   0.05
 2
- 19 -
제14장 적합도 검정과 비모수적
방법
 유의수준 5%로 가설 H0을 기각할 수 없다.
 난수들이 정규분포에서 나온 것이 아니라고 단정할 수 없다.
- 20 -
제14장 적합도 검정과 비모수적
방법
§14.2 분할표
 관측된 범주형 자료를 두가지 다른 방법(기준)으로 분류할 때, 이 두가지
방법이 서로 독립적인지를 검증할 필요가 생길 수 있다.
<예>
주제(issue)에 대한 의견 유형

1. 여론조사에서 응답자들을 
으로
성별(또는 지역, 생활정도, 교육정도 등) 
각각 분류해서, 이 주제에 대한 의견이 성별(또는 지역, 생활정도,
교육정도 등)과 무관한지 알아본다.
구입한 특정 가전제품의 종류
으로
2. 마케팅조사에서 소비자를 
수입 수준

분류해서 구매행태가 수입수준과 관계가 있는지를 알아본다.
- 21 -
제14장 적합도 검정과 비모수적
방법
종류별

3. 생산현장에서 불량품을 
로 각각 분류해서,
작업교대조별
불량품 발생이 작업교대조와 관련이 있는지를 알아본다.
대학 1학년 성적별 
4. 무시험으로 입학한 대학 2년생들을 
로
고등학교 내신등급별
각각 분류해서 대학성적이 고등학교 내신성적과 관계가 있는지를
알아본다.
 한 모집단의 개체들을 특성(분류기준) A와 특성(분류기준) B에 따라
각각 몇 개씩의 범주로 나누어, 두 특성간에 관련성(dependency 또는
contingency)이 있는지를 검증하는 독립성 검정
 분할표(contingency table) 검정: 하나의 모집단에서 두 특성 간의 독립성검정
동일성 검정(test of homogeneity): 여러개의 (다항) 모집단이 동일한지의 검정
- 22 -
제14장 적합도 검정과 비모수적
방법
(1) 분할표 검정
하나의 모집단에서 두 특성간의 독립성을 검정하는 것
 실험(또는 조사의) 결과를
특성 A에 따라 r개의 범주 A1, ∙∙∙, Ar 로 분류
특성 B에 따라 c개의 범주 B1, ∙∙∙, Bc 로 분류
pij  실험결과가 범주 Ai와 범주 B j에 동시에 속할 확률

r
c
 p
i 1 j 1
ij
1
X ij  n개의 실험결과 중 범주 Ai와 범주 B j에 동시에 속하는 것들의 수

 X 11 ,
, X 1c ,
, X r1 ,
, X rc  ~ MN rc  n; p11 ,
, p1c ,
, pr 1 ,
, prc 
E  X ij   n  pij
- 23 -
제14장 적합도 검정과 비모수적
방법
 <정리 14.1>에 의해 n이 크면
r
c
Q  
i 1 j 1
여기서
X
ij
 npij 
npij
2
  2  rc  1
A  B 범주의 수 rc

  df  rc  1
제약식  X ij  n 하나
c
pi   pij
j 1
: 실험의 결과가 범주 Ai에 속할 확률
r
p j   pij
i 1
: 실험의 결과가 범주 B j에 속할 확률
 분류기준 A와 B가 서로 독립이라는 가설 H 0와 독립이 아니라는
가설 H1을 다시 쓰면
- 24 -
H 0 : pij  pi  p j
모든  i, j 
H1 : pij  pi  p j
인  i, j 가 있다.
제14장 적합도 검정과 비모수적
방법
pij를 알면 검정통계량 Q의 값
r
c
q  
x
i 1 j 1
ij
 npi p j 
2
npi p j
가 q  2  rc  1 이면 가설 H 0를 기각
pij는 모르는 것이 보통
최우추정값들

pi 
p j

p j 
r
여기서  pi  1,
i 1
- 25 -
xi
pi
x j
n
c
p
j 1
i  1,
,
n
j
,
,r
j  1,
,c
(연습문제 #9)
c
r
j 1
i 1
 1, xi   xij , x j   xij
제14장 적합도 검정과 비모수적
방법
H 0가 참일때 기대도수 eij  E  X ij   npi  p j의 최우추정값
 xi   x j
eij  n pi  p j  n   
 n  n
(13.10)
 xi  x j

n

 검정통계량 Q의 값
r
c
q  
i 1 j 1
x
ij
 eij
eij

2
,
eij 
xi  x j
n
여기서 df  rc  1  추정된 모수의 수
 rc  1   r  1   c  1   r  1 c  1

q  2   r  1 c  1 이면 가설 H 0을 기각
 독립성 검정을 하기 위해 범주형 자료를 표의 형태로 정리한 것
 분할표(contingency table)
- 26 -
제14장 적합도 검정과 비모수적
방법
<표 14.1> r  c 분할표
B
합계
B1
A1
A2
x11
x21
A
B2
e11
e21
x12
x22
e12
e22
…
Bc
…
x1c
…
x2c
e1c
x1
e2c
x2
erc
xr
…
Ar
합계
xr1
x1
er1
xr 2
er 2
x2
…
…
xrc
xc
x n
관측도수 xij
기대도수 eij 
- 27 -
xi  x j
n
제14장 적합도 검정과 비모수적
방법
<예제 14.4> 부부 264 쌍을 대상으로 남편과 아내가 지지하는 정당 조사
정당: A, B, C
남편
합계
아내
합계
A
B
C
A
48(38.18)
29(37.45)
19(20.36)
96
B
35(44.94)
59(44.09)
19(23.97)
113
C
22(21.88)
15(21.46)
18(11.67)
55
105
103
56
264
남편과 아내가 지지하는 정당이 서로 독립인가?
- 28 -
제14장 적합도 검정과 비모수적
방법
x1  x1
e11  n p1  p1 
e33  n p3  p3 
3

2
q  
x3  x3
x
ij
i 1 j 1

n
 eij
 55  56
264
264
 38.18
 11.67
2
eij
 48  38.18
38.18

n
 96  105
2

 29  37.45
37.45
2


18  11.67 
2
11.67
2
 18.173  13.227   0.01
 4   H 0를 기각
여기서 df   r  1 c  1   3  1 3  1  4
 남편과 아내가 지지하는 정당이 서로 연관이 있다.
- 29 -
제14장 적합도 검정과 비모수적
방법
(2) 동일성 검정
여러 개의 다항 모집단이 동일한 지를 검정
<예> 어떤 주제에 대한 여론 조사
A:  남,녀별


 연령층별(예:10대, 20대, 30~40대, 50대 이상) 
 범주 A1 ,
 지역별


 학력 또는 소득수준별

B: 매우 타당, 타당, 부당, 매우 부당, 모르겠음 범주 B1 ,
 인구 또는 집단의 구성비율에 따라 미리 정한 크기 n1 , n2 ,
, Ar
, Bc
, nr 의
표본을 뽑아 c개의 범주 B1, ∙∙∙,Bc 에 속하는 수를 센다.
- 30 -
제14장 적합도 검정과 비모수적
방법
X ij  집단 Ai 에 속하는 실험 대상 ni 중 범주 B j 에 속하는 수

X ij의 관측값 xij들
<표 14.3>
B
합계
B1
B2
…
Bc
A1
x11
x12
…
x1c
n1
A2
x21
x22
…
x2c
n2
A
…
Ar
합계
 X i1 ,
- 31 -
xr1
xr 2
…
xrc
nr
x1
x2
…
xc
n
, X ic  ~ MN c  ni ; pi1 ,
, pic   E  X ij   ni  pij
제14장 적합도 검정과 비모수적
방법
<정리 14.1>에 의해 ni 가 크면
c

X
 ni  pij 
ij
2
ni  pij
j 1
 n1 ,
r
  2  c  1 ,
i  1,
,r
, nr이 크면
c

i 1 j 1
X
ij
 ni  pij 
ni  pij
2
  2  r  c  1 
 다항모집단 r 개
모집단 r 개가 모두 같으면
- 32 -
B1
B2
Bc
A1
p11
p12
p1c
n1
A2
p21
p22
p2 c
n2
Ar
pr 1
pr 2
prc
nr
p1
p2
pc
n
제14장 적합도 검정과 비모수적
방법
이들 다항 모집단 r 개가 모두 같은지를 검정하기 위한 가설
H 0 : p1 j  p2 j   prj  p j ,
j  1, 2, , c
H1 : H 0 가 아니다.
H 0가 참일때 p j 들의 최우추정값

pj
c
p
j 1
j
pj 
x j
n
,
j  1,
 1  추정해야 할 모수의 수 c  1
eij  E  X ij   ni  p j 
(14.13)
r
,c
c
 q  
i 1 j 1
x
ij
 eij
eij

ni  x j
n
2
 2   r  1 c  1  이면 가설 H 0 기각
여기서 df  r  c  1  추정된 모수의 수
 r  c  1   c  1   r  1 c  1
- 33 -
제14장 적합도 검정과 비모수적
방법
 분할표 검정과 동일성 검정
∙ 표 14.1: x1 ,
표 14.3: n1 ,
, xr 관측되는 값
의 차이만 있을 뿐
, nr 주어지는 값 
xi  x j

n 
같은 것
ni  x j

식 14.13 : eij  E  X ij   ni  p j 
n

∙ 식 14.10  : eij  E  X ij   ni pi  p j 
∙ 두 경우 모두
Q   2   r  1 c  1 
 분포의 동일성 검정: 분할표 검정과 동일한 절차를 따른다.
- 34 -
제14장 적합도 검정과 비모수적
방법
<예제 14.5> 남녀 각 50명을 대상으로 세 회사의 스포츠음료 중 가장
좋아하는 것을 고르게 하는 실험
회사
표본크기
1
2
3
남성
32 (24)
7 (9.5)
11 (16.5)
50
여성
16 (24)
12 (9.5)
22 (16.5)
50
합계
48
19
33
100
남∙녀간에 좋아하는 제품에 차이가 있는가?
p1 j  남자 중 j회사 제품을 좋아하는 비율,
p2 j  여자 중 j회사 제품을 좋아하는 비율,
- 35 -
j  1,2,3
제14장 적합도 검정과 비모수적
방법
 H 0 : p1 j  p2 j  p j ,
j  1, 2,3
H1 : H 0 가 아니다.
H 0가 참일때
p1  48

100
,
p2  19
100
p3  33
,
e11  E  X 11   n1  p1  50 
48
 24.0
100
e23  E  X 23   n2  p3  50 
2
3
 q  
i 1 j 1
x
ij
 eij
eij

2
100
33
 16.5
100
 32  24 

24
2
16  24 

2
24

 22  16.5

2
16.5
2
 10.316  5.991   0.05
 2
 남∙녀에 따라 좋아하는 제품에 차이가 있다.
- 36 -
제14장 적합도 검정과 비모수적
방법
<비모수적 방법>
 모수적(parametric) 방법 : 모집단의 분포(함수)의 함수형태는 알고 있으나
이 분포에 포함된 모수(들)을 모른다고 가정
∙ 추론은 주로 미지의 모수에 관한 것
예: 정규분포 N   , 2 을 가정하고, 와  2에 대한 추론
∙ 분포함수에 대한 가정이 실제와 다르면 추론 결과에 상당한 오류
 비모수적(nonparametric) 방법 : 모집단의 분포(함수)의 형태조차 모르거나,
함수형태를 안다고 할 수 있을 정도로 충분한 자료가 없을 경우
∙ 추론은 주로 미지의 분포함수에 관한 것
∙ 관측값 자체보다는 순서나 부호 사용
∙ 절차가 비교적 간단
∙ 분포함수에 대한 가정이 만족될 때, 모수적 방법보다 성능이
떨어지나 그 정도가 크지 않다.
- 37 -
제14장 적합도 검정과 비모수적
방법
 비모수적 방법은 실제로 언제 쓰이는가?
① 실험(조사)에 따라서는 반응변수의 값을
∙ 수치로 측정하기 어렵거나
∙ 수치는 큰 의미가 없고 그 상대적 크기가 의미가 있을 때
특히 사회과학에서의 연구나 / 소비자 행태분석 연구에 그러한
예가 많다.
<예> 기업의 기술력 / 소비자의 기호 / 맛 등의 비교
 측정값들 간의 상대적 크기(rank) 자료
② 모수적 방법에서의 가정에 강한 의문이 생길 때
 두 모집단의 분포가 같은 지를 검정하는 방법
- 38 -
모집단 #1: X
F
모집단 # 2 : Y
G
제14장 적합도 검정과 비모수적
방법
 가설 H 0 : F  G
지정 : 모수적 방법
여기서 F와 G의 함수형태
미지정: 비모수적 방법
∙ 대립가설 H1으로서 가장 간단한 것: F와 G는 모양은 같고 위치만
다르다는 것
i) 모수적 위치 검정 모형
<예> X
N  1 , 2 
Y
N  2 , 2 
가설 H 0 : 1  2 대 H1 : 1  2
H0 참  두 분포는 같다
H0 거짓  두 분포의 함수 모양은 같고 위치만 다르다 즉 1  2
 Y 의 분포는 X 의 분포의 왼쪽에
- 39 -
제14장 적합도 검정과 비모수적
방법
1
2
1  2
 두 표본 t 검정
t
xy
 t  n1  n2  2  이면 H 0기각
1 1
sp

n1 n2
ii) 비모수적 위치검정모형
X F
Y
G
가설 H 0 : F  G 대 H1 : F  G
- 40 -
제14장 적합도 검정과 비모수적
방법
∙ H1은 지나치게 포괄적인 것이어서 좀더 범위를 좁힌 것
H1 : “Y의 분포는 X의 분포와 모양은 같으나 위치만  만큼
왼쪽으로 옮겨있는 것”
을 고려할 수 있다.
 G  y   P Y  y   P  X    y   P  X  y     F  y   
fX
fY
 0
fY
fX
 0
- 41 -
제14장 적합도 검정과 비모수적
방법
이때 가설은
H0 : F  G  H0 :   0
이 가설에 대한 검정은 어떻게 하는가?
<예> n1  n2
x 들과 y 들을 섞어 놓고 x 의 순서(rank)들을 본다

§ 14.3 부호검정/ 분호순위검정
§ 14.4 순위합 검정
비모수적 위치모형
§ 14.5 Kruskal-Wallis 검정
§ 14.6 run 검정
§ 14.7 순위상관계수
- 42 -
제14장 적합도 검정과 비모수적
방법
§14.3 부호검정과 부호순위검정
§14.3.1 부호검정
 부호(sign): 관측값이 특정값 보다 크다(+) 또는 작다(-)를 나타낸 것
순위(rank): 관측값을 작은 것부터 크기 순으로 나타냈을 때 나타나는
상대적 위치
 부호나 순위는 분포의 형태나 이상점(outlier)의 영향을 덜 받는다
 분포에 무관하게 이용가능
 부호검정
 i) 하나의 모집단의 중심위치에 대한 검정
ii) 분포의 모양은 같으나 중심위치가 다를 수 있는 두 모집단의
대응비교 (비모수적 위치검정모형)
- 43 -
제14장 적합도 검정과 비모수적
방법
i) 하나의 모집단의 중심위치에 대한 검정
∙ 중심위치척도 : 중앙값 m  x0.5
가설
또는 m  m0 또는 m  m0 
H 0 : m  m0 대 H1 : m  m0
p  P  X  m0 라 하면 H 0가 참일때 p  1
 가설
H0 : p  1
확률표본
 X1 ,
대 H1 : p  1
2
2
2
또는 p  1 2
또는 p  1
2

, X n 을 얻어 Di  X i  m0 라 하고
Di  0 인 것에는  
부호 부여

Di  0 인 것에는

n  n 개중  부호의 수

- 44 -

H 0가 참이면 n  ~ b n, 1
2

제14장 적합도 검정과 비모수적
방법
 H 0가 참이면 n   n
2
H 0가 거짓이면 n   n 또는 0
 모비율에 대한 가설검정 <예제 9.11>
<정리 10.19>
소표본
대표본
에서 p0  1 인 경우와 같다.
2
<예제 14.6> 가설
H 0 : m  10 대 H1 : m  10 을 유의수준 5%로 검정
자료: 10.18 10.12 9.84 9.25 8.98 10.43 10.05 10.56
 Di  X i  10의 값을 구하면
0.18 0.12  0.16  0.75  1.02 0.43 0.05 0.56
 n  5
- 45 -
제14장 적합도 검정과 비모수적
방법
 1
H 0가 참이면 n  ~ b  8, 이므로
 2
p  값  P  n   5   1  P  n   4   1  0.637  0.363
 H 0를 기각할 수 없다.
ii) 중심위치만 다를 수 있는 두 모집단의 비교
∙ X 의 분포 :중앙값 m1
Y 의 분포 :중앙값 m2
 가설: H 0 : m1  m2 대 H1 : m1  m2
 대응표본  X 1 , Y1  ,
,  X n , Yn 
Di  X i  Yi , i  1,
- 46 -
또는 m1  m2 또는 m1  m2 
,n
제14장 적합도 검정과 비모수적
방법
X 와 Y 의 분포가 같으면 P  Di  0   P  Di  0  
1
2
p  P  Di  0 이라 하면 가설은
1
H0 : p 
대
2
1
H1 : p 
2
1
1

 또는 p  또는 p  
2
2

 i)의 경우와 같이  Di  0 인 것에는  부호

 Di  0 인 것에는  부호
 검정절차
 1
 H 0가 참이면 n  ~ b  n, 
 2
 실제로 n개 중 c개가  라면
- 47 -
제14장 적합도 검정과 비모수적
방법
대립가설


n

1
 
n

p 값  P n  c       
x 2
x 0


n
n
1
1

 
H1 : p 
p  값  P  n   c    n      이면 H 0를 기각
x 2
2
x c

1

 



H1 : p 
P  n  c   또는 P  n  c  
2
2
2 

* Di  0 가 되는 자료는 분석에서제외
1
H1 : p 
2
c
<예제 14.7> 제품 10개의 무게를 계측기 A와 B로 측정한 것
제품번호
A
B
부호
- 48 -
1
2 3 4 5 6
71 108 72 140 61 94
77 105 71 152 88 117
- +
+ - - -
7 8
9 10
90 127 101 114
93 130 112 105
- - +
제14장 적합도 검정과 비모수적
방법
계측기간에 차이가 있는가?
 가설 H 0 : p 
1
대
2
H1 : p 
1
2
Di  Ai  Bi

n  Di  0 인 것의 수  H 0가 참일 때 n

 1
b 10, 
 2
 n  3
P  n   3  0.172  0.025  
2
 두 계측기간에 차이가 없다고 판단
- 49 -
제14장 적합도 검정과 비모수적
방법
 대표본 검정
 1
H 0가 참일 때 n  ~ b  n, 
 2
 E  n    n , Var  n    n
2
4
 Z
n  n
2  N  0,1
n 2
 Z 검정 적용
- 50 -
제14장 적합도 검정과 비모수적
방법
§14.3.2 부호순위검정
윌콕슨(Wilcoxon)의 부호순위검정(signed rank test)
 X ~ F, Y ~ G
H0 : F  G
H1 :"Y 의 분포는 X 의 분포와 모양은 같으나 중심위치가  만큼
왼쪽에 있다." 즉 G  y   F  y   
G  y   P Y  y   P  X    y   P  X  y     F  y   
 H 0 :   0 대 H1 :   0
대응표본  X 1 , Y1  ,
,  X n , Yn 
가정: Di  X i  Yi 는
Di     i
를 따른다. 여기서  i ~ iid 이고 원점에서 좌우대칭인 pdf를 갖는다.
- 51 -
제14장 적합도 검정과 비모수적
방법
만일 X i와 Yi가 중심위치만  만큼 다른 모집단에서 얻어진 것이면
 i  Di   는 대칭성 가정을 만족한다.
 Di의 부호뿐만 아니라 Di 의 크기도 의미를 갖는다.
Di 에 크기순으로 순위부여하되
tie가 있으면 해당순위들의 평균을 부여
 부호순위통계량
T   Di의 기호가  인 Di 들의 순위합
T   Di의 기호가

인 Di 들의 순위합
여기서 전체순위합  T   T  
n  n  1
2
T  min T  , T  
- 52 -
제14장 적합도 검정과 비모수적
방법
 H 0 :   0 두 분포가 같다가 참이면
E T    E T    T   T 
① T의 값이 아주 작으면  두 분포의 위치가 다르다
 H1 :   0 일 때
T 의 값이 P T  t0    를 만족하는 임계값 t0 이하이면
2
H 0을 기각
*임계값 t0 : 부록의 표 B.7
② T+의 값이 아주 작으면  X가 Y의 보다 확률적으로 작다
(X의 분포가 Y의 분포의 왼쪽에)
 H1 :   0 일 때
T 의 값이 P T   t0    를 만족하는 임계값 t0 이하이면
H 0을 기각
- 53 -
제14장 적합도 검정과 비모수적
방법
fY
fX
 0
③ T-의 값이 아주 작으면  X가 Y의 보다 확률적으로 크다
(X의 분포가 Y의 분포의 오른쪽에)
 H1 :   0 일 때
T 의 값이 P T   t0    를 만족하는 임계값 t0 이하이면
H 0을 기각
fX
fY
 0
- 54 -
제14장 적합도 검정과 비모수적
방법
<예제 14.8> <예제 14.7>의 두 계측기 자료
D의
값
i
Di 의 순위
-6
3
1
-12
-27
-23
-3
-3
-11
9
5
3
1
8
10
9
3
3
7
6
Di 의 값이 같은 세개 3, 3, 3 에는 평균순위 3부여
T 의 값 t   3  1  6  10
T 의 값 t   5  8  10  9  3  3  7  45
 T 의 값 t  min 10, 45   10
부록의 표 B.7에서 n  10,   0.05 일때 t0  8
 t  10  8  t0
 두 계측기간에 차이가 없다고 판단
- 55 -
제14장 적합도 검정과 비모수적
방법
 대표본 검정
 부록의 표 B.7은 n  40까지만
 H 0가 참일 때 E T    E T   
n  n  1
Var T    Var T   
(보충문제 #27*)
4
n  n  1 2n  1
24
 n 이 클때
T  E T
Z
n  n  1

4
n  n  1 2n  1
Var T 


T 
 N  0,1

24
 대표본 Z 검정 적용
- 56 -
제14장 적합도 검정과 비모수적
방법
§14.4 순위합 검정
 두 모집단 A와 B의 분포가 같은지 또는 분포의 모양은 같으나
중심위치만 다른지를 검정
A ~ F, B ~ G
H0 : F  G
H1 : A의 분포는 B의 분포와 모양은 같으나 중심위치가  만큼
오른쪽에 있다.
G  y   P Y  y   P  X    y 
Y
X
fB
fA
 P X  y    F  y  
 H0 :  0
H1 :   0
- 57 -
또는   0
또는   0 
 0
제14장 적합도 검정과 비모수적
방법
부호검정/부호순위검정 : 대응표본
순위합 검정
: 독립적인 두 표본
 윌콕슨(Wilcoxon)의 순위합검정(rank sum test)
두 모집단 A와 B에서 크기가 n1과 n2인 표본을 각각 독립적으로 뽑아
얻은 관측값들을 혼합하여 크기 순으로 1에서 n1+n2=n 까지 순위를
매기고,
rA  A 에 속한 것들의 순위의 합
rB  B 에 속한 것들의 순위의 합
을 구한다.
∙ 두 모집단의 분포가 같으면  관측값들이 고르게 섞일 것
 rA와 rB는 대체로 n1과 n2에 비례
특히 n1  n2면 rA  rB
- 58 -
제14장 적합도 검정과 비모수적
방법
 두 모집단의 분포의 중심위치가 다르면
 관측값들이 각기 다른 방향으로 모일 것
 rA
rB 또는 rB
rA 이면 두 분포가 같다는 귀무가설을 기각
<예> 같은 반 남학생 10명, 여학생 10명을 키 순서대로 한줄로 세우면
여학생은 주로 앞쪽에 / 남학생은 주로 뒤쪽에

여학생들의 순위합 남학생들의 순위합
 기각역은 어떻게 정하는가?
<예제 14.9> 식이요법 A와 B의 체중감소효과를 비교하기 위해 비만증 환자
9명을 대상으로 임상실험
4명에는 식이요법 A, 5명에는 식이요법 B를 실시한 결과의
체중감소량 (괄호 안의 수치는 순위)
- 59 -
제14장 적합도 검정과 비모수적
방법
식이요법 A
식이요법 B
5 (6)
2 (2.5)
0 (1)
4 (5)
6 (7)
7 (8)
2 (2.5)
9 (9)
3 (4)
순위합 rB  30.5
순위합 rA  14.5
표본 A의 순위합 RA를 검정통계량으로 하면
RA의 최소값 10   1  2  3  4  , 최대값 30   6  7  8  9 
 10  RA  30
 RA의 분포
두 표본이 같은 분포에서 나왔다면 9개의 관측값의 순위로 이루어진
순열의 수는 9!
각 경우의 확률
- 60 -
1
9!
제14장 적합도 검정과 비모수적
방법
i) 기각역 R    10,30을 고려
1
RA  10인 경우 표본 A의 순위:1, 2,3, 4  경우의 수 4! 5!
 P  RA  10   4! 5!  1
9! 126
비슷하게 P  RA  30   1
126


 유의수준   P RA  R    2
1
126
 0.0159
ii) 기각역 R    10,11, 29,30을 고려
2
RA  11인 경우 표본 A의 순위:1, 2,3,5  경우의 수 4! 5!
 P  RA  11  P  RA  29   1
126

   P RA  R 
- 61 -
2
  4126  0.0317
제14장 적합도 검정과 비모수적
방법
iii) 기각역 R    10,11,12, 28, 29,30을 고려
3
RA  12인 경우 표본 A의 순위:1, 2,3,6 또는 1, 2, 4,5
 P  RA  12   2  4! 5!  2
9! 126
P  RA  28   2

   P RA  R 
3
126
  8126  0.0635
 적절한 유의수준으로   0.0635 를 선택하면 기각역은 R 
RA의 값 rA  14.5  R 
3
3
 두 표본이 같은 모집단에서 나왔다고 판단
∙ 이 순위합검정은 1945 Wilcoxon이 처음 제안 (n1=n2인 경우)
Mann과 Whitney가 1947 n1≠n2인 경우로 확장  맨-휘트니 검정
- 62 -
제14장 적합도 검정과 비모수적
방법
윌콕슨의 순위합 검정
맨-휘트니 검정
본질적으로 같은 것이나
∙ 검정통계량 / 적용절차가 다르다
∙ 맨-휘트니 검정통계량의 분포 / 임계값이 표로 나와있어
보다 널리 쓰인다.
맨-휘트니 검정
검정통계량 U:
1. 표본 A와 B의 관측값 n1  n2개를 크기순으로 배열
2. 표본 B의 개개의 관측값보다 작은 표본 A의 관측값의 개수를 구해
모두 더한다.
- 63 -
제14장 적합도 검정과 비모수적
방법
∙ <예제 14.9>의 표 14.6의 자료
0
2
3 4 5 6 7 9
A A,B B A A B B B
표본 B의 관측값을 기준으로 한 통계량 U A의 값
 표본 B의 가장 작은 관측값 2보다 작은 표본 A의 관측값의 수 u1  1.5
 같은 방법으로 u2  2, u3  4, u4  4, u5  4
 u A  u1  u2  u3  u4  u5  1.5  2  4  4  4  15.5
표본 A의 관측값을 기준으로 한 통계량 U B의 값
uB  0  0.5  2  2  4.5
 맨-휘트니 검정통계량의 값은 윌콕슨 순위합 통계량의 값으로 표현 가능
n1  n1  1
n2  n2  1
u A  n1  n2 
 rA , u B  n1  n2 
 rB
2
2
(연습문제 #9*)
- 64 -
제14장 적합도 검정과 비모수적
방법
여기서
u A  uB  n1  n2
rA  표본 A의 순위합
rB  표본 B의 순위합
 모집단 A의 분포가 모집단 B의 분포의 오른쪽에 위치
RA가 커지고 U A는 작아진다.
 RB가 작아지고
U B는 커진다.
 모집단 A의 분포가 모집단 B의 분포의 왼쪽에 위치
RB가 커지고 U B는 작아진다.
 RA가 작아지고
U A는 커진다.
 U A나 U B의 값이 매우 크거나 매우 작으면 두 표본은 위치가 서로
다른 분포에서 나왔다는 증거
- 65 -
제14장 적합도 검정과 비모수적
방법
귀무가설 H 0 : 두 모집단의분포는 같다.
i) 대립가설이
H1 : 두 모집단의분포의위치가 다르다.
인 양측검정인 경우:
u  min  u A , uB 가 P U  u0    를 만족하는 임계값 u0
2
이하이면 H 0를 기각
ii) 대립가설이
H1 : A의분포가 B의분포의오른쪽에 있다.
인 단측검정인 경우:
U A의 값 u A가 P U A  u0   를 u0 이하이면 H 0를 기각
- 66 -
제14장 적합도 검정과 비모수적
방법
ii) 대립가설이
H1 : A의분포가 B의분포의왼쪽에 있다.
인 단측검정인 경우:
U B의 값 uB가 P U B  u0   를 u0 이하이면 H 0를 기각
 부록의 표 B.8a : n1  8, n2  8 인 경우 검정통계량 U 의 분포
부록의 표 B.8b : 9  n2  20, n1  n2 인 경우 검정통계량 U 의
기각역의 임계값 u0

n1  n2 이므로 크기가 작은 표본을 "표본 1"로
 임계값 u0를 양측검정에 쓸때는 유의수준 2
- 67 -
제14장 적합도 검정과 비모수적
방법
<예제 14.10> <예제 14.9>의 자료
n1  4, n2  5, rA  14.5, rB  30.5
 u A  n1  n2 
uB  n1  n2 
n1  n1  1
2
 rA  4  5 
n2  n2  1
2
45
 14.5  15.5
2
 rB  4  5 
5 6
 30.5  4.5
2
 u  min  u A , uB   4.5
부록의 표 B.8a : n1  4, n2  5 일 때 P U  2   0.032
 기각역 u  2를 쓰면 유의수준   2  0.032  0.064
 <예제 14.9>에서의 유의수준과 같다.
계산된 U 의 값 u  4.5  u  2
 H 0를 기각할 수 없다.
 윌콕슨의 순위합 검정과 같은 결론
- 68 -
제14장 적합도 검정과 비모수적
방법
 대표본 검정
H 0하에서 U 의 평균과 분산
E U A   E U B  
n1  n2
Var U A   Var U B  
(보충문제 #28*)
2
n1n2  n1  n2  1
12
 n1 과 n2가 20보다 커서 부록의 표 B.8b를 쓰지 못하는 경우
Z
U i  E U i 
Var U i 

Ui 
n1n2
 N  0,1 ,
2
n1n2  n1  n2  1
i  A, B
12
 대표본 Z 검정 적용
- 69 -
제14장 적합도 검정과 비모수적
방법
맨-휘트니 검정
윌콕슨의 순위합 검정
*
과 두 표본 t 검정
∙ 세 검정모두 서로 독립인 두 표본으로
∙ 맨-휘트니 검정 / 윌콕슨의 순위합 검정은 표본에 있는 정보를
모두 쓰는 것이 아니라 순위들만 쓴다
 두 표본 t 검정보다 효율이 떨어진다.
∙ 실제로는 효율이 크게 떨어지는 것은 아니다.
<예> 모집단이 정규분포를 따를 때
맨-휘트니 검정의 α, β 과오 확률과 똑같은 과오확률을 가지기
위해 필요한 t 검정의 표본수는 맨-휘트니 검정의 표본수의 90%
정도
- 70 -
제14장 적합도 검정과 비모수적
방법
§14.5 크러스칼-월리스 검정
 윌콕슨의 순위합 검정을 k (k≥2)개의 모집단을 비교하는 검정으로
일반화 한 것으로,
§13.2 일원배치법의 분산분석에 대응되는 비모수적 방법
 크러스칼-월리스 검정
 k개의 모집단에서 각각 크기 n1 ,
, nk인 표본을 독립적으로 뽑는다
 모형
yij     i   ij ,
i  1,
, k,
j  1,
, ni
여기서   전체평균
 i  모집단(처리) i 의 효과,
오차  i
k

i 1
i
0
iid 이고 연속형 분포함수를 갖는다
2
* §13.2 일원배치모형 :  ij ~ iid N  0, 라 가정
- 71 -
제14장 적합도 검정과 비모수적
방법
 가설
H 0 : 1 
 n  n1 
 k  0 
H 0 : 1 
 k
 nk 개의 관측값 yij들을 혼합하여 크기순으로 배열해
순위를 매긴다.
: 표본 i 에 해당하는 순위들의 합
Ri
Ri 
R
Ri
ni
: 표본 i 의 평균 순위
: 전체 평균 순위
R
- 72 -
1  2 
 n
n

n 1
2
제14장 적합도 검정과 비모수적
방법
 일원배치의 분산분석에서
k
SS A   ni  yi  y 
2
(식(13.4), 연습문제 #13.2.7)
i 1
 SS A에 해당하는 것
k

V   ni Ri  R
i 1

2
n 1

  ni  Ri 

2 

i 1
k
2
모집단이 모두 같으면 모든 Ri들의 값이 R의 값과 비슷할 것
 V 의 값이 작아질 것
모집단이 서로 다르면 Ri들의 값이 R의 값과 많이 다를 것
 V 의 값이 커질 것
 검정통계량 V 의값이크면 H 0을 기각
- 73 -
제14장 적합도 검정과 비모수적
방법
 Kruskal 과 Wallis가 제안한 검정통계량
H
12V
n  n  1
k
Ri2
12

  3  n  1
n  n  1 i 1 ni
(연습문제 #11*)
* H의 분포표가 k와 ni들이 작은 값에 대해 나와는 있으나 널리 알려져
있지는 않다.
* min  n1 ,
 n1 ,
, nk    에 따라 H 의 분포는  2  k  1로 접근
, nk가 크면 대체로 n  5 
H 의 분포   2  k  1
따라서 H 의 값 h가 h   2  k  1 일 때 H 0를 기각
- 74 -
제14장 적합도 검정과 비모수적
방법
<예제 14.11> 통계수업이 3개 반으로 나뉘어 진행
각 반에서 10명 씩 뽑아 시험을 치른 점수
분반 1
분반 2
분반 3
점수
순위
점수
순위
점수
순위
83
19
73
13.5
88
24
97
30
66
8
55
1
68
9.5
85
21
73
13.5
95
29
64
7
79
16
86
22
73
13.5
62
6
70
11
80
17
82
18
87
23
60
4
59
3
94
28
61
5
73
13.5
84
20
93
27
89
25
90
26
58
2
68
9.5
r1  217.5
r2  118
r3  129.5
각 반에 속한 학생들의 학업성취도가 같은가?
 n1  n2  n3  10, n  30
- 75 -
제14장 적합도 검정과 비모수적
방법
12  r12 r22 r32 
H의 값: h 
     3  n  1
n  n  1  n1 n2 n3 
12   217.5  118  129.5 




30  31  10
10
10
2
2
모든 ni  5 이므로  2분포를 이용하면
2
h  7.65  5.991   0.05
2

  3  31  7.65

 H 0를 기각
 세반의 학업성취도가 같지 않다고 판단.
 k=2 인 경우 크러스칼-월리스 검정은 윌콕슨 순위합검정의 양측검정과
동일하게 된다.
k=2 일 때,
12  R12 R22 
H


  3  n  1
n  n  1  n1 n2 
R1  R2 
- 76 -
n  n  1
n  n  1
 R2 
 R1
2
2
제14장 적합도 검정과 비모수적
방법
2
2

 
12  R1
1  n  n  1
 R1    3  n  1
 H
  
n  n  1  n1 n2  2
 


3  n  1 n1
12
12
R12  R1 
n2
n2
 n  1 n1n2
 aR12  bR1  c,
a0
따라서 H  c  R1  c1 또는 R1  c2
즉 k  2 일 때 크러스칼-월리스 검정  윌콕슨의 순위합검정 (양측검정)
 맨-휘트니 검정 (양측검정)
- 77 -
제14장 적합도 검정과 비모수적
방법
§14.6 런 검정
<예> 흰 구슬 5개와 검은 구슬 5개가 들어있는 주머니에서 하나씩
비복원으로 뽑는 실험의 결과
① ● ●●●●○ ○○○○
② ●●●○○○○○●●
③ ●○●○●○●○●○
 두 종류의 구슬이 무작위하게 뽑혔는가?
 한줄로 나열했을 때 주기성이 없이 얼마나 고르게 섞여있는가?
①, ② 흰 구슬과 검은 구슬들이 몰려있다.
③
- 78 -
흰 구슬과 검은 구슬이 주기적으로 반복해서 나타난다.
제14장 적합도 검정과 비모수적
방법
 주기성이 없이 고르게 섞여있다고 할 수 없다.
 실험이 무작위하게 수행되었다고 보기 어렵다.
 두 종류의 사건이 일어나는 순서에 대한 무작위성(randomness)은
한 사건이 얼마나 연속해서 일어나는가로 평가
런(run) : 동일한 종류에 속하는 사건의 연속

런 2개
② 길이 3인 런, 길이 5인 런, 길이 2인 런

런 3개
③ 길이 1인 런, 길이 1인 런, …

런 10개
예: ① 길이 5인 런, 길이 5인 런
런검정(run test) : 런을 이용하여 일련의 사건의 발생에 대한 무작위성을
검정하는 것
∙ 런의 수
∙ 런의 길이
 여기서는 런의 수를 쓰는 검정만 다룬다.
- 79 -
제14장 적합도 검정과 비모수적
방법
 가설은
H0 : 두사건(흰 구슬과 검은 구슬)이 무작위한 순서로 일어난다.
H1 : H0가 아니다.
검정통계량이 런의 수 R일 경우, 기각역을 구하려면, H0가 참일 때
R의 분포를 구해야
 흰 구슬 n1개와 검은 구슬 n2 개가 들어있는 주머니에서 하나씩
비복원으로 뽑아 한줄로 나열하는 실험에서
X1 : 흰 구슬의 런의 수
X2 : 검은 구슬의 런의 수
 런의총수 R  X1  X 2
 R의 최소값  2
n1  n2
2n1 ,
 R의 최대값  
2n1  1, n1  n2
- 80 -
제14장 적합도 검정과 비모수적
방법
a) 구슬 n1  n2개를 배열하는 모든 가능한 경우의 수   n1  n2 
 n1 
 H 0가 참이면 모든 가능한 배열이 같은 확률을 가짐
n n
 각 배열이 나타날 확률  1  1 2 
 n1 
b)
 흰구슬 n1개로부터 런 x1개를 얻은 경우의 수
 상자 x1개에 흰구슬 n1개를 빈상자가 생기지 않게 나누어 담는
경우의 수
 한줄로 놓은 구슬 n1개 사이에 막대기 x1  1개를 놓는 것
○|○○○|○○|○∙∙∙|○|○○○|○
- 81 -
제14장 적합도 검정과 비모수적
방법
 구슬 틈 n1  1개 중에서 막대기를 놓을 자리 x1  1개를 선택하는
n 1
경우의 수   1 
 x1  1
n 1
 검은 구슬 n2개로부터 런 x2개를 얻는 경우의 수   2 
 x2  1
 흰구슬의 런 x1개와 검은 구슬의 런 x2개를 가지는 경우의 수
 n1  1   n2  1
 x  1  x  1
 1   2 
c) x1과 x2 사이에는 x2  x1  1, x2  x1 , x2  x1  1 중 하나의 관계
2, x2  x1

 h  x1 , x2   1, x2  x1  1

0, 0
라 하면
- 82 -
제14장 적합도 검정과 비모수적
방법
n  1 n2  1
n n
p  x1 , x2   P  X 1  x1 , X 2  x2    1 
h  x1 , x2   1 2 


 x1  1 x2  1
 n1 
d) R=r인 경우를 보면
 x2  x1 일 때 r  x1  x2는 짝수 
x1  x2  r
2
 r 1 r 1 
 x2  x1  1 일 때 r  x1  x2는 홀수   x1 , x2   
,

2
2 

 r 1 r 1 
또는 
,

2 
 2
  n1  1 n2  1
2  r
 r
  n1  n2  ,
 1   n1 
  2  1 
 2 

 PR  r  
  n1  1 n2  1  n1  1 n2  1 
  r  1  r  3    r  3  r  1  
 


  2 
 2   2  2  
- 83 -
r 짝수
r 홀수
 n1  n2  ,
 n 
 1 
(연습문제 #9)
제14장 적합도 검정과 비모수적
방법
 부록의 표 B.9a : n1  n2  10 인 경우에 R의 분포함수 P  R  r0 의 값
부록의 표 B.9b : n1  20, n2  20,   0.05 인 경우에
P  R  rL    , P  R  rU    가 되는 R에 대한 기각역의
2
2
임계값 rL과 rU
<예제 14.12> 운전면허시험 20 문항의 정답여부가
OXOOXOXOXXOOXOXOXXXO
으로 나타나도록 문제를 배열
O와 X가 무작위로 배열되었다고 할 수 있는가?
 P  R  rL   P  R  rU    를 만족하는 rL과 rU 를 구하여
rL  R  rU 로 나타나면 위의 배열이 무작위 하다고 판단.
 O : n1  10개
X : n2  10개
- 84 -
제14장 적합도 검정과 비모수적
방법
R의 범위는 2  R  20 이고 R  15가 관측되었다.
 부록의 표 B.9b에서 n1  n2  10  rL  6, rU  16
 rL  6  R  15  16  rU
 배열이 무작위 하다고 판단
 부록의 표 B.9a에서 n1  n2  10  P  R  6   0.019
P  R  16   0.019
 P  R  6   P  R  16   0.038  0.05
* 런 검정은 시간에 따른 일련의 측정값 즉 시계열이 무작위한지를
검정하는 데도 쓰인다.
- 85 -
제14장 적합도 검정과 비모수적
방법
<시계열의 예>
화학제품의 품질특성
특정제품에 대한 수요
물가지수
등
 시간에 따라 어떤 경향을 갖거나
주기성을 띈다.
 시계열에 대한 무작위성 검정
① 어떤 기준점으로부터 벗어난 방향 조사
<예> 목표값보다 크거나 작은 측정값의 런의 개수로 수준의
변화여부를 판단
② 측정값의 연속적인 증가 또는 감소 조사
<예> 연속적으로 증가하는 상승런과 연속으로 감소하는 하강런의
개수로 시계열에 주기성이 있는지를 판단.
- 86 -
제14장 적합도 검정과 비모수적
방법
<예제 14.13> 화학제품의 순도(단위%)를 매시간 측정하여 타점한 것
13
12
11
10
9
8
7
0
2
4
6
8
10
12
14
16
이 자료들이 무작위 한가?
∙ 측정값들을 평균을 기준으로 평균보다 크다(U), 또는 작다(D)로 표시
 D D D D U U D U U D U D D D D
n1  5, n2  10, R  7
- 87 -
제14장 적합도 검정과 비모수적
방법
 부록의 표 B.9a에서 p  값  P  R  7   0.455 
p  값이 크다
 부록의 표 B.9b에서 rL  3, rU 는 존재하지 않는다.
 rL  3  R  7  rU
 측정값들이 무작위하다고 판단.
* 런 검정은 맨-휘트니 검정처럼 두 모집단 A와 B를 비교하는 데도
쓸 수 있다.
∙ 두 표본의 측정값들을 혼합하여 크기순으로 나열
∙ 해당 모집단에 따라 A와 B로 표시
∙ A
AB
B
BA
B 
인 경우 런의 수 r  2
A
∙ r 이 작으면 두 모집단에 차이가 있다는 증거
 기각역 r  r0
- 88 -
제14장 적합도 검정과 비모수적
방법
 대표본 검정
 H 0가 참일 때
E  R 
2n1n2
1
n
Var  R  
2n1n2  2n1n2  n 
n  n  1
2
(보충문제 #29*)
1
여기서 n  n1  n2
 n1과 n2가 20보다 커서 부록의 표B.9b를 쓰지 못하는 경우
Z
R  E  R
Var  R 
 N  0,1
 대표본 Z 검정 적용
- 89 -
제14장 적합도 검정과 비모수적
방법
§14.7 순위상관계수
 X ,Y 
2변량 정규분포일 때
H 0 : X 와 Y 는 서로 독립
H0 :   0
,  X n , Yn 을 뽑아 표본상관계수
확률표본  X 1 , Y1  ,
R

  X  X Y  Y 
  X  X   Y  Y 
i
i
2
i
2
식(12.42)
i
을 얻으면
T
R n2
1 R
2
t  n  2
식(12.45)
  정리 12.14  의 t검정
- 90 -
제14장 적합도 검정과 비모수적
방법
 X , Y  의 분포를
 모르거나
 알려져있더라도 X 와 Y 의 관측값을 얻기 어려워 그 상대적 순위만을
관측 할 수 있을 때

X i와 Yi의 상대적 순위 자료를 이용해 X 와 Y 의 상관관계에 관한 가설을
검정할 수 있다.
 스피어맨(Spearman)의 순위상관계수(rank correlation coefficient)
 X , Y 에 대한 크기 n인 확률표본의 관측값
 x1 , y1  ,
,  xn , yn 
중 i 번째 관측값  xi , yi 에서
- 91 -
x1 ,
, xn 중 xi의 순위  ri
y1 ,
, yn 중 yi의 순위  si
제14장 적합도 검정과 비모수적
방법
 순위쌍
 r1 , s1  ,
,  rn , sn 
스피어맨의 순위상관계수 R*의 값 r *
n
r 
  r  r  s  s 
i 1
*
(14.31)
n
i
i
  ri  r     si  s 
i 1
여기서
n
2

n
n
i 1
i 1

i 1
 ri   si  1  2 
 r  s  n 1
n
n
n  n  1
2
2
n
2
2
2
r

s

1

2

i i
2
i 1
2
 n2 
n  n  1 2n  1
i 1
6
 di  ri  si 라 하면
n
n
i 1
i 1
2
r
s

n
n

1
2
n

1
6

d



ii
 i 2
- 92 -
제14장 적합도 검정과 비모수적
방법
 r  1
*
6
n  n 2  1
n
2
d
 i
보충문제 #30*(a)
i 1
<예제14.14> 입사시험에서 서류심사에 통과한 10명의 면접시험과
필기시험 결과
면접시험: 점수화가 힘들어 상대적 순위만
- 93 -
응시자
면접순위
필기시험성적
di
1
6
67 (8.5)
-2.5
2
9
61 (10)
-1
3
3
83 (4)
-1
4
10
67 (8.5)
1.5
5
1
94 (2)
-1
6
7
81 (5)
2
7
5
70 (7)
-2
8
2
86 (3)
-1
9
8
74 (6)
2
10
4
96 (1)
3
제14장 적합도 검정과 비모수적
방법
n  10,
10
d
i 1
 r*  1 
2
i
 33.5
6
 33.5  0.797
10  99
1  r*  1
보충문제 #30*(b)
xi와 yi의 순위가 완벽하게 일치하면
 ri  si
 식(14.31)에서 r *  1
xi와 yi의 순위가 완벽하게 정반대이면
 si  n  ri
 식(14.31)에서 r *  1
 r *  1 또는 r *  1 이면 X 와 Y 의 순위간에 상관관계가
있다는 증거
- 94 -
제14장 적합도 검정과 비모수적
방법
X 와 Y 의 순위간의 상관계수를  * 라 하면
r *  1 또는 r *  1 일 때 가설 H 0 :  *  0 을 기각한다.
부록의 표 B.10 : 주어진 n 과  에 따른 P  R*  r0*  = 를 만족하는
임계값 r0*
예: n  12,   0.01일 때 대립가설이
H1 :  *  0 일 경우
r *  0.703 이면 H 0를 기각
H1 :  *  0 일 경우
r *  0.703 이면 H 0를 기각
H1 :  *  0 일 경우
  0.005  r *  0.780
2

- 95 -
r *  0.780 이면 H 0를 기각
제14장 적합도 검정과 비모수적
방법
<예제 14.15> <예제 14.14>에서
H0 : *  0
대 H0 : *  0
를   0.01 로 검점
부록의 표 B.10에서 n  10,   0.01일 때 r0*  0.745
r *  0.797  0.745  r0*
 H 0를 기각
 면접시험과 필기시험은 서로 연관성이 있다고 판단
- 96 -
제14장 적합도 검정과 비모수적
방법

제14장

Transcript 제14장

Directory