Transcript 제14장
제 14 장 적합도 검정과 비모수적 방법 제14장 적합도 검정과 비모수적 방법 <적합도 검정> 모집단에 대한 정보가 부족해서 분포함수의 모형을 확실히 가정할 수 없는 경우에는 자료가 어떤 모집단으로부터 얻어졌는지에 관심 예: 자료가 정규분포에서 나온 것? 적합도 검정 : 주어진 자료가 특정분포에서 나왔다고 할 수 있는지 검정하는 방법 §14.1 적합도 검정 §14.2 분할표 검정 -1- 제14장 적합도 검정과 비모수적 방법 §14.1 범주형 자료의 적합도 검정 질적변수 변수 연속변수 : 정량자료(quantitative data) (§1.2) 양적변수 이산변수 : 정성자료(qualitative data) 정량자료라도 어떤 속성이나 구간에 따라 분류하여 도수로 나타냄으로서 정성자료화 할 수 있다. ∙ §11.3 도수분포표와 히스토그램 범주형 자료(categorical 또는 enumerative 또는 count data) : 관측결과를 어떤 속성에 따라 분류하여 도수로 주어지는 자료 예: 설문조사 문항에 따른 응답 분류 소득 수준에 따른 가계 분류 공산품/농산품 품질등급에 따른 분류 소비자 반응 조사 -2- 제14장 적합도 검정과 비모수적 방법 사회∙경제 현상에 대한 조사 인문∙사회과학 등에서의 실험 에서 나타나는 관측값들은 조사(실험) 에서 나올 수 있는 결과를 몇 개의 범주(category)로 분류하고 전체 관측값 중 각 범주에 속하는 수를 세어 얻어지는 자료(count data)인 경우가 많다. 다항 실험의 특성에 가깝다 <다항실험> 1. 실험은 n개의 동일한 시행(identical trials)들로 이루어진다. 2. 각 시행의 결과는 k개의 범주 중 하나에 속한다. 3. 하나의 시행결과가 범주 i에 속할 확률은 pi로서 시행에 따라 변하지 않고 일정하다 여기서 -3- p1 p2 pk 1 제14장 적합도 검정과 비모수적 방법 4. 시행들은 서로 독립이다. 5. n번 반복 시행결과 범주 i에 속하는 시행수(관측도수)를 Xi라 하자 여기서 X1 X 2 X1 , X 2 , , X k 의 분포에 관심 p x1 , X1, , xk , Xk n! Xk n 범주# 1 2 k 합계 p1x1 pkxk 확률 p1 p2 pk 1 MN k n; p1 , , pk 시행수 x1 x2 xk n x1 ! xk ! k 2인 경우 (binomial experiment) n! x y p 1 p , x! y ! p x, y -4- X y nx n! n x p x 1 p x ! n x ! b n, p 제14장 적합도 검정과 비모수적 방법 p1 , , pk 에 대한 가설검정에서 기각역의 결정에는 주어진 유의수준 에 따른 H 0하에서의 다항분포의 확률계산이 필요한데 이것이 매우 번거롭다 범주형 자료의 분석에는 관측도수 Xi와 기대도수 E(Xi)=npi의 차의 제곱 X i npi 2 을 기대도수의 역수로 가중평균한 통계량의 근사분포를 쓴다. <정리 14.1> X1 , , X k ~ MN k n ; p1 , k X i npi i 1 npi Q , pk 2 2 는 점근적으로 분포 k 1 을 따른다. -5- 제14장 적합도 검정과 비모수적 방법 k 2인 경우: X1 X 2 n, X 1 np1 Q 2 X 1 np1 2 np1 np1 X 2 np2 2 np2 X 1 np1 n 1 p1 X np 1 1 np1 1 p1 CLT에 의해 p1 p2 1 X 1 np1 2 np1 2 n X 1 n 1 p1 n 1 p1 2 X 1 np1 np1 1 p1 2 2 X 1 np1 np1 1 p1 의 극한분포는 N 0,1 Q의 극한분포는 2 1 -6- 제14장 적합도 검정과 비모수적 방법 주어진 자료가 각 범주에 속할 확률 p1 , H 0 : p1 p10 , , pk 에 관한 가설 , pk pk 0 대 H1 : H 0가 아니다 를 검정하는 문제: H 0가 참이면 E X i npi 0 실제 관측도수와 기대도수의 차이 X i npi 0 들이 크면 H 0가 참이 아니라는 뜻 k Q i 1 X i npi 0 npi 0 2 2 k 1 이고 Q 의 값 q 2 k 1이면 H 0을 기각 H 0에 대한 우도비 검정통계량 - 2ln 의 값은 n이 클 때 근사적으로 Q 의 값과 같아진다. -7- (보충문제 #9.25*) 제14장 적합도 검정과 비모수적 방법 우도비 검정에서 의 값을 구하는 것이 번거로우므로 기각역 - 2ln 2 k 1을 쓰는 대신 기각역 q 2 k 1을 쓴다 <예제 14.1> 야구선수의 안타 60개를 타구 방향에 따라 좌∙중 ∙우로 분류 안타가 전 방향에 고르게 나타나는가? H 0 : p1 p2 p3 1 3 좌 관측수 12 기대도수 20 1 E X i npi 60 20, 3 3 xi npi 0 i 1 npi 0 q 2 12 20 20 2 26 20 20 2 22 20 중 26 20 우 22 20 2 20 2 5.20 4.605 0.10 2 유의수준 10%로 H0를 기각 -8- 제14장 적합도 검정과 비모수적 방법 <적합도 검정 (goodness-of-fit test)> 주어진 자료가 특정분포로부터 나온 것인지를 판단하는 검정 좀더 엄밀히는, 특정분포모형이 모집단의 분포로서 적절하지 않다고 배제할 수 있을 지를 표본자료와 이 분포모형에 의한 이론(기대) 수치와 비교하여 판단하는 검정 a) 주어진 자료가 특정분포 F 로부터 얻어진 것이라는 가설 H0 : X ~ F 의 검정 자료가 정량적 자료이면 이를 범주형 자료로 변환한다. -9- 제14장 적합도 검정과 비모수적 방법 실수구간 R을 A1 , a1 A2 a1 , a2 Ak ak 1 , … 로 분할 A2 A1 Ak 1 a1 a 2 a k 2 Ak a k 1 pi P X Ai F ai F ai 1 여기서 p1 0, , pk 0 가 되도록 A1 , 분포 F로부터 확률표본 X1, , Ak를 정한다 , X n 을 뽑아 Yi X i들 중 관측결과가 구간 Ai에 속한 것들의 수 - 10 - Y1 , , Yk MN k n; p1 , , pk 제14장 적합도 검정과 비모수적 방법 <정리 14.1>에 의해 k Yi npi i 1 npi Q 2 2 k 1 Q 의 값 q 2 k 1이면 H 0을 기각 b) 분포함수가 미지의 모수 r개 1 , H0 : X Fθ , θ 1 , 실수구간 R을 R , r θ 를 갖는 Fθ 인 경우: , r k Ai 로 분할 i 1 pi P X Ai Fθ ai Fθ ai 1 Fθ로부터 확률표본 X 1 , MLEs 1 , - 11 - , X n 을 뽑는다 , r를 구한다. θ 1 , , r 제14장 적합도 검정과 비모수적 방법 pi Fθ ai Fθ ai 1 Yi X i들 중 관측결과가 구간 Ai에 속한 것들의 수 n 이 크면 k Q i 1 Y n p i i n pi 2 2 k 1 r Q 의 값 q 2 k 1 r 이면 가설 H 0을 기각 적합도 검정에서 유의할 것 i) (근사화) Q의 분모에 들어가는 npi 또는 n pi 이 너무 작으면 Q의 값이 불안정해 2 근사화가 좋지 않게 된다. npi 5 또는 n pi 5 가 되지 않는 구간은 인접구간과 합친다. pi =P X Ai 1 가 되도록 A1 , k - 12 - , Ak를 정하면 근사화가 좋아진다. 제14장 적합도 검정과 비모수적 방법 ii) (단측검정) 일반적으로 범주 i의 관측도수 oi, 기대도수의 추정값을 eˆi 라 하면 Q의 값 k oi eˆi i 1 eˆi q 2 2 k 1 r 일 때 가설 H 0를 기각 단측검정이다. iii) (자유도) H 0하에서 Q 2 df 여기서 자유도 df 는 문제의 성격에 따라 다르게 정해진다. § 14.1 각각 다른 유형의 문제 § 14.2 일반적으로는 ① df 범주의 수 관측도수에 부과되는 선형제약식의 수 - 13 - 제14장 적합도 검정과 비모수적 방법 예: 다항분포의 경우 범주의 수 k df k 1 xi n 이라는 선형제약식 1개 k ② Q i 1 Oi ei 2 ei 에서 ei가 미지의 모수를 포함할 경우 모수를 추정값으로 대체 ei eˆi 한다. 이때 ∙ 추정값은 MLE ∙ 모수 하나 추정할 때마다 df 가 하나씩 줄어든다. <예제 14.2> 어느 지역에서 하루에 발생하는 화재 건수 X를 60일간 관측한 결과 범주# 1 화재건수 0 관측도수 27 - 14 - 2 1 18 3 2 12 4 3 3 5 4이상 0 제14장 적합도 검정과 비모수적 방법 가설 H 0 : X Poi 를 유의수준 5%로 검정 모수 의 MLE ˆ x 0 27 1 18 2 12 3 3 60 0.85 P X 3 0.85 0.055 기대도수 60 0.055 3.3 각 구간의 기대도수가 5 이상이 되도록 다시 정리 범주# 1 화재건수 0 관측도수 27 H0 : X - 15 - 2 1 18 3 2 이상 15 Poi 일 때 각 구간에 속할 확률 추정 p1 P X 0 e p1 e 0.85 0.427 p2 P X 1 e p2 0.85e 0.85 0.363 p3 P X 2 1 p1 p2 p3 1 0.427 0.363 0.210 제14장 적합도 검정과 비모수적 방법 ∙ 기대도수의 추정 e1 n p1 25.62, e2 n p2 21.78, e3 n p3 12.60 ∙ 검정통계량 Q의 값 oi eˆi 27 25.62 18 21.78 15 12.60 q eˆi 25.62 21.78 12.60 i 1 k 2 2 2 2 2 1.188 3.841 0.05 1 여기서 df k 1 r 3 1 1 1 하루에 발생하는 화재건수가 포아송분포를 따른다는 가설을 배제할 충분한 증거가 없다. - 16 - 제14장 적합도 검정과 비모수적 방법 <예제 14.3> 정규분포를 따르는 난수(random number)를 생성시키는 전산프로그램을 작성하고, 이 프로그램을 실행하여 난수 40개 생성. 이 전산 프로그램은 올바르게 만들진 것인가? 즉 자료가 정규분포로부터 얻어진 것이라 할 수 있는가? 검정하고자 하는 가설 H 0 : X N , 2 MLEs x 2 1 2 n 1 2 x x s s2 i n n 주어진 자료로부터 n 40, x 15.96, s 2.144 표 11.2를 참고하여 범주를 5개로 정하고 각 범주에 속할 확률을 pi 1 0.2로 하면 5 pi P ai 1 X ai 0.2, i 0,1, ,5, a0 , a5 가 되도록 a1 , a2 , a3 , a4를 정한다. - 17 - 제14장 적합도 검정과 비모수적 방법 a P X ai P Z i 0.2i ai z10.2i ai z10.2i 여기서 15.96, s 2.144 를 쓰면 ai 15.96 2.144 z10.2i 표준정규분포표로부터 보간법을 쓰면 z0.2 0.8418 z0.8 , z0.4 0.2533 z0.6 a1 15.96 2.144 0.8418 14.155 a2 15.96 2.144 0.2533 15.417 a3 15.96 2.144 0.2533 16.503 a4 15.96 2.144 0.8418 17.765 - 18 - 제14장 적합도 검정과 비모수적 방법 도수분포표 관측도수 oi 구간 기대도수 eˆi pi -∞ ~ 14.115 12 0.2 8 14.115 ~ 15.417 4 0.2 8 15.417 ~ 16.503 7 0.2 8 16.503 ~ 17.965 6 0.2 8 17.965 ~ ∞ 11 0.2 8 40 1.0 40 합계 Q ~ 2 2 df k 1 r 5 1 2 2 k oi eˆi i 1 eˆi q 12 8 8 2 2 4 8 8 2 7 8 8 2 6 8 8 2 11 8 2 8 2 5.750 5.911 0.05 2 - 19 - 제14장 적합도 검정과 비모수적 방법 유의수준 5%로 가설 H0을 기각할 수 없다. 난수들이 정규분포에서 나온 것이 아니라고 단정할 수 없다. - 20 - 제14장 적합도 검정과 비모수적 방법 §14.2 분할표 관측된 범주형 자료를 두가지 다른 방법(기준)으로 분류할 때, 이 두가지 방법이 서로 독립적인지를 검증할 필요가 생길 수 있다. <예> 주제(issue)에 대한 의견 유형 1. 여론조사에서 응답자들을 으로 성별(또는 지역, 생활정도, 교육정도 등) 각각 분류해서, 이 주제에 대한 의견이 성별(또는 지역, 생활정도, 교육정도 등)과 무관한지 알아본다. 구입한 특정 가전제품의 종류 으로 2. 마케팅조사에서 소비자를 수입 수준 분류해서 구매행태가 수입수준과 관계가 있는지를 알아본다. - 21 - 제14장 적합도 검정과 비모수적 방법 종류별 3. 생산현장에서 불량품을 로 각각 분류해서, 작업교대조별 불량품 발생이 작업교대조와 관련이 있는지를 알아본다. 대학 1학년 성적별 4. 무시험으로 입학한 대학 2년생들을 로 고등학교 내신등급별 각각 분류해서 대학성적이 고등학교 내신성적과 관계가 있는지를 알아본다. 한 모집단의 개체들을 특성(분류기준) A와 특성(분류기준) B에 따라 각각 몇 개씩의 범주로 나누어, 두 특성간에 관련성(dependency 또는 contingency)이 있는지를 검증하는 독립성 검정 분할표(contingency table) 검정: 하나의 모집단에서 두 특성 간의 독립성검정 동일성 검정(test of homogeneity): 여러개의 (다항) 모집단이 동일한지의 검정 - 22 - 제14장 적합도 검정과 비모수적 방법 (1) 분할표 검정 하나의 모집단에서 두 특성간의 독립성을 검정하는 것 실험(또는 조사의) 결과를 특성 A에 따라 r개의 범주 A1, ∙∙∙, Ar 로 분류 특성 B에 따라 c개의 범주 B1, ∙∙∙, Bc 로 분류 pij 실험결과가 범주 Ai와 범주 B j에 동시에 속할 확률 r c p i 1 j 1 ij 1 X ij n개의 실험결과 중 범주 Ai와 범주 B j에 동시에 속하는 것들의 수 X 11 , , X 1c , , X r1 , , X rc ~ MN rc n; p11 , , p1c , , pr 1 , , prc E X ij n pij - 23 - 제14장 적합도 검정과 비모수적 방법 <정리 14.1>에 의해 n이 크면 r c Q i 1 j 1 여기서 X ij npij npij 2 2 rc 1 A B 범주의 수 rc df rc 1 제약식 X ij n 하나 c pi pij j 1 : 실험의 결과가 범주 Ai에 속할 확률 r p j pij i 1 : 실험의 결과가 범주 B j에 속할 확률 분류기준 A와 B가 서로 독립이라는 가설 H 0와 독립이 아니라는 가설 H1을 다시 쓰면 - 24 - H 0 : pij pi p j 모든 i, j H1 : pij pi p j 인 i, j 가 있다. 제14장 적합도 검정과 비모수적 방법 pij를 알면 검정통계량 Q의 값 r c q x i 1 j 1 ij npi p j 2 npi p j 가 q 2 rc 1 이면 가설 H 0를 기각 pij는 모르는 것이 보통 최우추정값들 pi p j p j r 여기서 pi 1, i 1 - 25 - xi pi x j n c p j 1 i 1, , n j , ,r j 1, ,c (연습문제 #9) c r j 1 i 1 1, xi xij , x j xij 제14장 적합도 검정과 비모수적 방법 H 0가 참일때 기대도수 eij E X ij npi p j의 최우추정값 xi x j eij n pi p j n n n (13.10) xi x j n 검정통계량 Q의 값 r c q i 1 j 1 x ij eij eij 2 , eij xi x j n 여기서 df rc 1 추정된 모수의 수 rc 1 r 1 c 1 r 1 c 1 q 2 r 1 c 1 이면 가설 H 0을 기각 독립성 검정을 하기 위해 범주형 자료를 표의 형태로 정리한 것 분할표(contingency table) - 26 - 제14장 적합도 검정과 비모수적 방법 <표 14.1> r c 분할표 B 합계 B1 A1 A2 x11 x21 A B2 e11 e21 x12 x22 e12 e22 … Bc … x1c … x2c e1c x1 e2c x2 erc xr … Ar 합계 xr1 x1 er1 xr 2 er 2 x2 … … xrc xc x n 관측도수 xij 기대도수 eij - 27 - xi x j n 제14장 적합도 검정과 비모수적 방법 <예제 14.4> 부부 264 쌍을 대상으로 남편과 아내가 지지하는 정당 조사 정당: A, B, C 남편 합계 아내 합계 A B C A 48(38.18) 29(37.45) 19(20.36) 96 B 35(44.94) 59(44.09) 19(23.97) 113 C 22(21.88) 15(21.46) 18(11.67) 55 105 103 56 264 남편과 아내가 지지하는 정당이 서로 독립인가? - 28 - 제14장 적합도 검정과 비모수적 방법 x1 x1 e11 n p1 p1 e33 n p3 p3 3 2 q x3 x3 x ij i 1 j 1 n eij 55 56 264 264 38.18 11.67 2 eij 48 38.18 38.18 n 96 105 2 29 37.45 37.45 2 18 11.67 2 11.67 2 18.173 13.227 0.01 4 H 0를 기각 여기서 df r 1 c 1 3 1 3 1 4 남편과 아내가 지지하는 정당이 서로 연관이 있다. - 29 - 제14장 적합도 검정과 비모수적 방법 (2) 동일성 검정 여러 개의 다항 모집단이 동일한 지를 검정 <예> 어떤 주제에 대한 여론 조사 A: 남,녀별 연령층별(예:10대, 20대, 30~40대, 50대 이상) 범주 A1 , 지역별 학력 또는 소득수준별 B: 매우 타당, 타당, 부당, 매우 부당, 모르겠음 범주 B1 , 인구 또는 집단의 구성비율에 따라 미리 정한 크기 n1 , n2 , , Ar , Bc , nr 의 표본을 뽑아 c개의 범주 B1, ∙∙∙,Bc 에 속하는 수를 센다. - 30 - 제14장 적합도 검정과 비모수적 방법 X ij 집단 Ai 에 속하는 실험 대상 ni 중 범주 B j 에 속하는 수 X ij의 관측값 xij들 <표 14.3> B 합계 B1 B2 … Bc A1 x11 x12 … x1c n1 A2 x21 x22 … x2c n2 A … Ar 합계 X i1 , - 31 - xr1 xr 2 … xrc nr x1 x2 … xc n , X ic ~ MN c ni ; pi1 , , pic E X ij ni pij 제14장 적합도 검정과 비모수적 방법 <정리 14.1>에 의해 ni 가 크면 c X ni pij ij 2 ni pij j 1 n1 , r 2 c 1 , i 1, ,r , nr이 크면 c i 1 j 1 X ij ni pij ni pij 2 2 r c 1 다항모집단 r 개 모집단 r 개가 모두 같으면 - 32 - B1 B2 Bc A1 p11 p12 p1c n1 A2 p21 p22 p2 c n2 Ar pr 1 pr 2 prc nr p1 p2 pc n 제14장 적합도 검정과 비모수적 방법 이들 다항 모집단 r 개가 모두 같은지를 검정하기 위한 가설 H 0 : p1 j p2 j prj p j , j 1, 2, , c H1 : H 0 가 아니다. H 0가 참일때 p j 들의 최우추정값 pj c p j 1 j pj x j n , j 1, 1 추정해야 할 모수의 수 c 1 eij E X ij ni p j (14.13) r ,c c q i 1 j 1 x ij eij eij ni x j n 2 2 r 1 c 1 이면 가설 H 0 기각 여기서 df r c 1 추정된 모수의 수 r c 1 c 1 r 1 c 1 - 33 - 제14장 적합도 검정과 비모수적 방법 분할표 검정과 동일성 검정 ∙ 표 14.1: x1 , 표 14.3: n1 , , xr 관측되는 값 의 차이만 있을 뿐 , nr 주어지는 값 xi x j n 같은 것 ni x j 식 14.13 : eij E X ij ni p j n ∙ 식 14.10 : eij E X ij ni pi p j ∙ 두 경우 모두 Q 2 r 1 c 1 분포의 동일성 검정: 분할표 검정과 동일한 절차를 따른다. - 34 - 제14장 적합도 검정과 비모수적 방법 <예제 14.5> 남녀 각 50명을 대상으로 세 회사의 스포츠음료 중 가장 좋아하는 것을 고르게 하는 실험 회사 표본크기 1 2 3 남성 32 (24) 7 (9.5) 11 (16.5) 50 여성 16 (24) 12 (9.5) 22 (16.5) 50 합계 48 19 33 100 남∙녀간에 좋아하는 제품에 차이가 있는가? p1 j 남자 중 j회사 제품을 좋아하는 비율, p2 j 여자 중 j회사 제품을 좋아하는 비율, - 35 - j 1,2,3 제14장 적합도 검정과 비모수적 방법 H 0 : p1 j p2 j p j , j 1, 2,3 H1 : H 0 가 아니다. H 0가 참일때 p1 48 100 , p2 19 100 p3 33 , e11 E X 11 n1 p1 50 48 24.0 100 e23 E X 23 n2 p3 50 2 3 q i 1 j 1 x ij eij eij 2 100 33 16.5 100 32 24 24 2 16 24 2 24 22 16.5 2 16.5 2 10.316 5.991 0.05 2 남∙녀에 따라 좋아하는 제품에 차이가 있다. - 36 - 제14장 적합도 검정과 비모수적 방법 <비모수적 방법> 모수적(parametric) 방법 : 모집단의 분포(함수)의 함수형태는 알고 있으나 이 분포에 포함된 모수(들)을 모른다고 가정 ∙ 추론은 주로 미지의 모수에 관한 것 예: 정규분포 N , 2 을 가정하고, 와 2에 대한 추론 ∙ 분포함수에 대한 가정이 실제와 다르면 추론 결과에 상당한 오류 비모수적(nonparametric) 방법 : 모집단의 분포(함수)의 형태조차 모르거나, 함수형태를 안다고 할 수 있을 정도로 충분한 자료가 없을 경우 ∙ 추론은 주로 미지의 분포함수에 관한 것 ∙ 관측값 자체보다는 순서나 부호 사용 ∙ 절차가 비교적 간단 ∙ 분포함수에 대한 가정이 만족될 때, 모수적 방법보다 성능이 떨어지나 그 정도가 크지 않다. - 37 - 제14장 적합도 검정과 비모수적 방법 비모수적 방법은 실제로 언제 쓰이는가? ① 실험(조사)에 따라서는 반응변수의 값을 ∙ 수치로 측정하기 어렵거나 ∙ 수치는 큰 의미가 없고 그 상대적 크기가 의미가 있을 때 특히 사회과학에서의 연구나 / 소비자 행태분석 연구에 그러한 예가 많다. <예> 기업의 기술력 / 소비자의 기호 / 맛 등의 비교 측정값들 간의 상대적 크기(rank) 자료 ② 모수적 방법에서의 가정에 강한 의문이 생길 때 두 모집단의 분포가 같은 지를 검정하는 방법 - 38 - 모집단 #1: X F 모집단 # 2 : Y G 제14장 적합도 검정과 비모수적 방법 가설 H 0 : F G 지정 : 모수적 방법 여기서 F와 G의 함수형태 미지정: 비모수적 방법 ∙ 대립가설 H1으로서 가장 간단한 것: F와 G는 모양은 같고 위치만 다르다는 것 i) 모수적 위치 검정 모형 <예> X N 1 , 2 Y N 2 , 2 가설 H 0 : 1 2 대 H1 : 1 2 H0 참 두 분포는 같다 H0 거짓 두 분포의 함수 모양은 같고 위치만 다르다 즉 1 2 Y 의 분포는 X 의 분포의 왼쪽에 - 39 - 제14장 적합도 검정과 비모수적 방법 1 2 1 2 두 표본 t 검정 t xy t n1 n2 2 이면 H 0기각 1 1 sp n1 n2 ii) 비모수적 위치검정모형 X F Y G 가설 H 0 : F G 대 H1 : F G - 40 - 제14장 적합도 검정과 비모수적 방법 ∙ H1은 지나치게 포괄적인 것이어서 좀더 범위를 좁힌 것 H1 : “Y의 분포는 X의 분포와 모양은 같으나 위치만 만큼 왼쪽으로 옮겨있는 것” 을 고려할 수 있다. G y P Y y P X y P X y F y fX fY 0 fY fX 0 - 41 - 제14장 적합도 검정과 비모수적 방법 이때 가설은 H0 : F G H0 : 0 이 가설에 대한 검정은 어떻게 하는가? <예> n1 n2 x 들과 y 들을 섞어 놓고 x 의 순서(rank)들을 본다 § 14.3 부호검정/ 분호순위검정 § 14.4 순위합 검정 비모수적 위치모형 § 14.5 Kruskal-Wallis 검정 § 14.6 run 검정 § 14.7 순위상관계수 - 42 - 제14장 적합도 검정과 비모수적 방법 §14.3 부호검정과 부호순위검정 §14.3.1 부호검정 부호(sign): 관측값이 특정값 보다 크다(+) 또는 작다(-)를 나타낸 것 순위(rank): 관측값을 작은 것부터 크기 순으로 나타냈을 때 나타나는 상대적 위치 부호나 순위는 분포의 형태나 이상점(outlier)의 영향을 덜 받는다 분포에 무관하게 이용가능 부호검정 i) 하나의 모집단의 중심위치에 대한 검정 ii) 분포의 모양은 같으나 중심위치가 다를 수 있는 두 모집단의 대응비교 (비모수적 위치검정모형) - 43 - 제14장 적합도 검정과 비모수적 방법 i) 하나의 모집단의 중심위치에 대한 검정 ∙ 중심위치척도 : 중앙값 m x0.5 가설 또는 m m0 또는 m m0 H 0 : m m0 대 H1 : m m0 p P X m0 라 하면 H 0가 참일때 p 1 가설 H0 : p 1 확률표본 X1 , 대 H1 : p 1 2 2 2 또는 p 1 2 또는 p 1 2 , X n 을 얻어 Di X i m0 라 하고 Di 0 인 것에는 부호 부여 Di 0 인 것에는 n n 개중 부호의 수 - 44 - H 0가 참이면 n ~ b n, 1 2 제14장 적합도 검정과 비모수적 방법 H 0가 참이면 n n 2 H 0가 거짓이면 n n 또는 0 모비율에 대한 가설검정 <예제 9.11> <정리 10.19> 소표본 대표본 에서 p0 1 인 경우와 같다. 2 <예제 14.6> 가설 H 0 : m 10 대 H1 : m 10 을 유의수준 5%로 검정 자료: 10.18 10.12 9.84 9.25 8.98 10.43 10.05 10.56 Di X i 10의 값을 구하면 0.18 0.12 0.16 0.75 1.02 0.43 0.05 0.56 n 5 - 45 - 제14장 적합도 검정과 비모수적 방법 1 H 0가 참이면 n ~ b 8, 이므로 2 p 값 P n 5 1 P n 4 1 0.637 0.363 H 0를 기각할 수 없다. ii) 중심위치만 다를 수 있는 두 모집단의 비교 ∙ X 의 분포 :중앙값 m1 Y 의 분포 :중앙값 m2 가설: H 0 : m1 m2 대 H1 : m1 m2 대응표본 X 1 , Y1 , , X n , Yn Di X i Yi , i 1, - 46 - 또는 m1 m2 또는 m1 m2 ,n 제14장 적합도 검정과 비모수적 방법 X 와 Y 의 분포가 같으면 P Di 0 P Di 0 1 2 p P Di 0 이라 하면 가설은 1 H0 : p 대 2 1 H1 : p 2 1 1 또는 p 또는 p 2 2 i)의 경우와 같이 Di 0 인 것에는 부호 Di 0 인 것에는 부호 검정절차 1 H 0가 참이면 n ~ b n, 2 실제로 n개 중 c개가 라면 - 47 - 제14장 적합도 검정과 비모수적 방법 대립가설 n 1 n p 값 P n c x 2 x 0 n n 1 1 H1 : p p 값 P n c n 이면 H 0를 기각 x 2 2 x c 1 H1 : p P n c 또는 P n c 2 2 2 * Di 0 가 되는 자료는 분석에서제외 1 H1 : p 2 c <예제 14.7> 제품 10개의 무게를 계측기 A와 B로 측정한 것 제품번호 A B 부호 - 48 - 1 2 3 4 5 6 71 108 72 140 61 94 77 105 71 152 88 117 - + + - - - 7 8 9 10 90 127 101 114 93 130 112 105 - - + 제14장 적합도 검정과 비모수적 방법 계측기간에 차이가 있는가? 가설 H 0 : p 1 대 2 H1 : p 1 2 Di Ai Bi n Di 0 인 것의 수 H 0가 참일 때 n 1 b 10, 2 n 3 P n 3 0.172 0.025 2 두 계측기간에 차이가 없다고 판단 - 49 - 제14장 적합도 검정과 비모수적 방법 대표본 검정 1 H 0가 참일 때 n ~ b n, 2 E n n , Var n n 2 4 Z n n 2 N 0,1 n 2 Z 검정 적용 - 50 - 제14장 적합도 검정과 비모수적 방법 §14.3.2 부호순위검정 윌콕슨(Wilcoxon)의 부호순위검정(signed rank test) X ~ F, Y ~ G H0 : F G H1 :"Y 의 분포는 X 의 분포와 모양은 같으나 중심위치가 만큼 왼쪽에 있다." 즉 G y F y G y P Y y P X y P X y F y H 0 : 0 대 H1 : 0 대응표본 X 1 , Y1 , , X n , Yn 가정: Di X i Yi 는 Di i 를 따른다. 여기서 i ~ iid 이고 원점에서 좌우대칭인 pdf를 갖는다. - 51 - 제14장 적합도 검정과 비모수적 방법 만일 X i와 Yi가 중심위치만 만큼 다른 모집단에서 얻어진 것이면 i Di 는 대칭성 가정을 만족한다. Di의 부호뿐만 아니라 Di 의 크기도 의미를 갖는다. Di 에 크기순으로 순위부여하되 tie가 있으면 해당순위들의 평균을 부여 부호순위통계량 T Di의 기호가 인 Di 들의 순위합 T Di의 기호가 인 Di 들의 순위합 여기서 전체순위합 T T n n 1 2 T min T , T - 52 - 제14장 적합도 검정과 비모수적 방법 H 0 : 0 두 분포가 같다가 참이면 E T E T T T ① T의 값이 아주 작으면 두 분포의 위치가 다르다 H1 : 0 일 때 T 의 값이 P T t0 를 만족하는 임계값 t0 이하이면 2 H 0을 기각 *임계값 t0 : 부록의 표 B.7 ② T+의 값이 아주 작으면 X가 Y의 보다 확률적으로 작다 (X의 분포가 Y의 분포의 왼쪽에) H1 : 0 일 때 T 의 값이 P T t0 를 만족하는 임계값 t0 이하이면 H 0을 기각 - 53 - 제14장 적합도 검정과 비모수적 방법 fY fX 0 ③ T-의 값이 아주 작으면 X가 Y의 보다 확률적으로 크다 (X의 분포가 Y의 분포의 오른쪽에) H1 : 0 일 때 T 의 값이 P T t0 를 만족하는 임계값 t0 이하이면 H 0을 기각 fX fY 0 - 54 - 제14장 적합도 검정과 비모수적 방법 <예제 14.8> <예제 14.7>의 두 계측기 자료 D의 값 i Di 의 순위 -6 3 1 -12 -27 -23 -3 -3 -11 9 5 3 1 8 10 9 3 3 7 6 Di 의 값이 같은 세개 3, 3, 3 에는 평균순위 3부여 T 의 값 t 3 1 6 10 T 의 값 t 5 8 10 9 3 3 7 45 T 의 값 t min 10, 45 10 부록의 표 B.7에서 n 10, 0.05 일때 t0 8 t 10 8 t0 두 계측기간에 차이가 없다고 판단 - 55 - 제14장 적합도 검정과 비모수적 방법 대표본 검정 부록의 표 B.7은 n 40까지만 H 0가 참일 때 E T E T n n 1 Var T Var T (보충문제 #27*) 4 n n 1 2n 1 24 n 이 클때 T E T Z n n 1 4 n n 1 2n 1 Var T T N 0,1 24 대표본 Z 검정 적용 - 56 - 제14장 적합도 검정과 비모수적 방법 §14.4 순위합 검정 두 모집단 A와 B의 분포가 같은지 또는 분포의 모양은 같으나 중심위치만 다른지를 검정 A ~ F, B ~ G H0 : F G H1 : A의 분포는 B의 분포와 모양은 같으나 중심위치가 만큼 오른쪽에 있다. G y P Y y P X y Y X fB fA P X y F y H0 : 0 H1 : 0 - 57 - 또는 0 또는 0 0 제14장 적합도 검정과 비모수적 방법 부호검정/부호순위검정 : 대응표본 순위합 검정 : 독립적인 두 표본 윌콕슨(Wilcoxon)의 순위합검정(rank sum test) 두 모집단 A와 B에서 크기가 n1과 n2인 표본을 각각 독립적으로 뽑아 얻은 관측값들을 혼합하여 크기 순으로 1에서 n1+n2=n 까지 순위를 매기고, rA A 에 속한 것들의 순위의 합 rB B 에 속한 것들의 순위의 합 을 구한다. ∙ 두 모집단의 분포가 같으면 관측값들이 고르게 섞일 것 rA와 rB는 대체로 n1과 n2에 비례 특히 n1 n2면 rA rB - 58 - 제14장 적합도 검정과 비모수적 방법 두 모집단의 분포의 중심위치가 다르면 관측값들이 각기 다른 방향으로 모일 것 rA rB 또는 rB rA 이면 두 분포가 같다는 귀무가설을 기각 <예> 같은 반 남학생 10명, 여학생 10명을 키 순서대로 한줄로 세우면 여학생은 주로 앞쪽에 / 남학생은 주로 뒤쪽에 여학생들의 순위합 남학생들의 순위합 기각역은 어떻게 정하는가? <예제 14.9> 식이요법 A와 B의 체중감소효과를 비교하기 위해 비만증 환자 9명을 대상으로 임상실험 4명에는 식이요법 A, 5명에는 식이요법 B를 실시한 결과의 체중감소량 (괄호 안의 수치는 순위) - 59 - 제14장 적합도 검정과 비모수적 방법 식이요법 A 식이요법 B 5 (6) 2 (2.5) 0 (1) 4 (5) 6 (7) 7 (8) 2 (2.5) 9 (9) 3 (4) 순위합 rB 30.5 순위합 rA 14.5 표본 A의 순위합 RA를 검정통계량으로 하면 RA의 최소값 10 1 2 3 4 , 최대값 30 6 7 8 9 10 RA 30 RA의 분포 두 표본이 같은 분포에서 나왔다면 9개의 관측값의 순위로 이루어진 순열의 수는 9! 각 경우의 확률 - 60 - 1 9! 제14장 적합도 검정과 비모수적 방법 i) 기각역 R 10,30을 고려 1 RA 10인 경우 표본 A의 순위:1, 2,3, 4 경우의 수 4! 5! P RA 10 4! 5! 1 9! 126 비슷하게 P RA 30 1 126 유의수준 P RA R 2 1 126 0.0159 ii) 기각역 R 10,11, 29,30을 고려 2 RA 11인 경우 표본 A의 순위:1, 2,3,5 경우의 수 4! 5! P RA 11 P RA 29 1 126 P RA R - 61 - 2 4126 0.0317 제14장 적합도 검정과 비모수적 방법 iii) 기각역 R 10,11,12, 28, 29,30을 고려 3 RA 12인 경우 표본 A의 순위:1, 2,3,6 또는 1, 2, 4,5 P RA 12 2 4! 5! 2 9! 126 P RA 28 2 P RA R 3 126 8126 0.0635 적절한 유의수준으로 0.0635 를 선택하면 기각역은 R RA의 값 rA 14.5 R 3 3 두 표본이 같은 모집단에서 나왔다고 판단 ∙ 이 순위합검정은 1945 Wilcoxon이 처음 제안 (n1=n2인 경우) Mann과 Whitney가 1947 n1≠n2인 경우로 확장 맨-휘트니 검정 - 62 - 제14장 적합도 검정과 비모수적 방법 윌콕슨의 순위합 검정 맨-휘트니 검정 본질적으로 같은 것이나 ∙ 검정통계량 / 적용절차가 다르다 ∙ 맨-휘트니 검정통계량의 분포 / 임계값이 표로 나와있어 보다 널리 쓰인다. 맨-휘트니 검정 검정통계량 U: 1. 표본 A와 B의 관측값 n1 n2개를 크기순으로 배열 2. 표본 B의 개개의 관측값보다 작은 표본 A의 관측값의 개수를 구해 모두 더한다. - 63 - 제14장 적합도 검정과 비모수적 방법 ∙ <예제 14.9>의 표 14.6의 자료 0 2 3 4 5 6 7 9 A A,B B A A B B B 표본 B의 관측값을 기준으로 한 통계량 U A의 값 표본 B의 가장 작은 관측값 2보다 작은 표본 A의 관측값의 수 u1 1.5 같은 방법으로 u2 2, u3 4, u4 4, u5 4 u A u1 u2 u3 u4 u5 1.5 2 4 4 4 15.5 표본 A의 관측값을 기준으로 한 통계량 U B의 값 uB 0 0.5 2 2 4.5 맨-휘트니 검정통계량의 값은 윌콕슨 순위합 통계량의 값으로 표현 가능 n1 n1 1 n2 n2 1 u A n1 n2 rA , u B n1 n2 rB 2 2 (연습문제 #9*) - 64 - 제14장 적합도 검정과 비모수적 방법 여기서 u A uB n1 n2 rA 표본 A의 순위합 rB 표본 B의 순위합 모집단 A의 분포가 모집단 B의 분포의 오른쪽에 위치 RA가 커지고 U A는 작아진다. RB가 작아지고 U B는 커진다. 모집단 A의 분포가 모집단 B의 분포의 왼쪽에 위치 RB가 커지고 U B는 작아진다. RA가 작아지고 U A는 커진다. U A나 U B의 값이 매우 크거나 매우 작으면 두 표본은 위치가 서로 다른 분포에서 나왔다는 증거 - 65 - 제14장 적합도 검정과 비모수적 방법 귀무가설 H 0 : 두 모집단의분포는 같다. i) 대립가설이 H1 : 두 모집단의분포의위치가 다르다. 인 양측검정인 경우: u min u A , uB 가 P U u0 를 만족하는 임계값 u0 2 이하이면 H 0를 기각 ii) 대립가설이 H1 : A의분포가 B의분포의오른쪽에 있다. 인 단측검정인 경우: U A의 값 u A가 P U A u0 를 u0 이하이면 H 0를 기각 - 66 - 제14장 적합도 검정과 비모수적 방법 ii) 대립가설이 H1 : A의분포가 B의분포의왼쪽에 있다. 인 단측검정인 경우: U B의 값 uB가 P U B u0 를 u0 이하이면 H 0를 기각 부록의 표 B.8a : n1 8, n2 8 인 경우 검정통계량 U 의 분포 부록의 표 B.8b : 9 n2 20, n1 n2 인 경우 검정통계량 U 의 기각역의 임계값 u0 n1 n2 이므로 크기가 작은 표본을 "표본 1"로 임계값 u0를 양측검정에 쓸때는 유의수준 2 - 67 - 제14장 적합도 검정과 비모수적 방법 <예제 14.10> <예제 14.9>의 자료 n1 4, n2 5, rA 14.5, rB 30.5 u A n1 n2 uB n1 n2 n1 n1 1 2 rA 4 5 n2 n2 1 2 45 14.5 15.5 2 rB 4 5 5 6 30.5 4.5 2 u min u A , uB 4.5 부록의 표 B.8a : n1 4, n2 5 일 때 P U 2 0.032 기각역 u 2를 쓰면 유의수준 2 0.032 0.064 <예제 14.9>에서의 유의수준과 같다. 계산된 U 의 값 u 4.5 u 2 H 0를 기각할 수 없다. 윌콕슨의 순위합 검정과 같은 결론 - 68 - 제14장 적합도 검정과 비모수적 방법 대표본 검정 H 0하에서 U 의 평균과 분산 E U A E U B n1 n2 Var U A Var U B (보충문제 #28*) 2 n1n2 n1 n2 1 12 n1 과 n2가 20보다 커서 부록의 표 B.8b를 쓰지 못하는 경우 Z U i E U i Var U i Ui n1n2 N 0,1 , 2 n1n2 n1 n2 1 i A, B 12 대표본 Z 검정 적용 - 69 - 제14장 적합도 검정과 비모수적 방법 맨-휘트니 검정 윌콕슨의 순위합 검정 * 과 두 표본 t 검정 ∙ 세 검정모두 서로 독립인 두 표본으로 ∙ 맨-휘트니 검정 / 윌콕슨의 순위합 검정은 표본에 있는 정보를 모두 쓰는 것이 아니라 순위들만 쓴다 두 표본 t 검정보다 효율이 떨어진다. ∙ 실제로는 효율이 크게 떨어지는 것은 아니다. <예> 모집단이 정규분포를 따를 때 맨-휘트니 검정의 α, β 과오 확률과 똑같은 과오확률을 가지기 위해 필요한 t 검정의 표본수는 맨-휘트니 검정의 표본수의 90% 정도 - 70 - 제14장 적합도 검정과 비모수적 방법 §14.5 크러스칼-월리스 검정 윌콕슨의 순위합 검정을 k (k≥2)개의 모집단을 비교하는 검정으로 일반화 한 것으로, §13.2 일원배치법의 분산분석에 대응되는 비모수적 방법 크러스칼-월리스 검정 k개의 모집단에서 각각 크기 n1 , , nk인 표본을 독립적으로 뽑는다 모형 yij i ij , i 1, , k, j 1, , ni 여기서 전체평균 i 모집단(처리) i 의 효과, 오차 i k i 1 i 0 iid 이고 연속형 분포함수를 갖는다 2 * §13.2 일원배치모형 : ij ~ iid N 0, 라 가정 - 71 - 제14장 적합도 검정과 비모수적 방법 가설 H 0 : 1 n n1 k 0 H 0 : 1 k nk 개의 관측값 yij들을 혼합하여 크기순으로 배열해 순위를 매긴다. : 표본 i 에 해당하는 순위들의 합 Ri Ri R Ri ni : 표본 i 의 평균 순위 : 전체 평균 순위 R - 72 - 1 2 n n n 1 2 제14장 적합도 검정과 비모수적 방법 일원배치의 분산분석에서 k SS A ni yi y 2 (식(13.4), 연습문제 #13.2.7) i 1 SS A에 해당하는 것 k V ni Ri R i 1 2 n 1 ni Ri 2 i 1 k 2 모집단이 모두 같으면 모든 Ri들의 값이 R의 값과 비슷할 것 V 의 값이 작아질 것 모집단이 서로 다르면 Ri들의 값이 R의 값과 많이 다를 것 V 의 값이 커질 것 검정통계량 V 의값이크면 H 0을 기각 - 73 - 제14장 적합도 검정과 비모수적 방법 Kruskal 과 Wallis가 제안한 검정통계량 H 12V n n 1 k Ri2 12 3 n 1 n n 1 i 1 ni (연습문제 #11*) * H의 분포표가 k와 ni들이 작은 값에 대해 나와는 있으나 널리 알려져 있지는 않다. * min n1 , n1 , , nk 에 따라 H 의 분포는 2 k 1로 접근 , nk가 크면 대체로 n 5 H 의 분포 2 k 1 따라서 H 의 값 h가 h 2 k 1 일 때 H 0를 기각 - 74 - 제14장 적합도 검정과 비모수적 방법 <예제 14.11> 통계수업이 3개 반으로 나뉘어 진행 각 반에서 10명 씩 뽑아 시험을 치른 점수 분반 1 분반 2 분반 3 점수 순위 점수 순위 점수 순위 83 19 73 13.5 88 24 97 30 66 8 55 1 68 9.5 85 21 73 13.5 95 29 64 7 79 16 86 22 73 13.5 62 6 70 11 80 17 82 18 87 23 60 4 59 3 94 28 61 5 73 13.5 84 20 93 27 89 25 90 26 58 2 68 9.5 r1 217.5 r2 118 r3 129.5 각 반에 속한 학생들의 학업성취도가 같은가? n1 n2 n3 10, n 30 - 75 - 제14장 적합도 검정과 비모수적 방법 12 r12 r22 r32 H의 값: h 3 n 1 n n 1 n1 n2 n3 12 217.5 118 129.5 30 31 10 10 10 2 2 모든 ni 5 이므로 2분포를 이용하면 2 h 7.65 5.991 0.05 2 3 31 7.65 H 0를 기각 세반의 학업성취도가 같지 않다고 판단. k=2 인 경우 크러스칼-월리스 검정은 윌콕슨 순위합검정의 양측검정과 동일하게 된다. k=2 일 때, 12 R12 R22 H 3 n 1 n n 1 n1 n2 R1 R2 - 76 - n n 1 n n 1 R2 R1 2 2 제14장 적합도 검정과 비모수적 방법 2 2 12 R1 1 n n 1 R1 3 n 1 H n n 1 n1 n2 2 3 n 1 n1 12 12 R12 R1 n2 n2 n 1 n1n2 aR12 bR1 c, a0 따라서 H c R1 c1 또는 R1 c2 즉 k 2 일 때 크러스칼-월리스 검정 윌콕슨의 순위합검정 (양측검정) 맨-휘트니 검정 (양측검정) - 77 - 제14장 적합도 검정과 비모수적 방법 §14.6 런 검정 <예> 흰 구슬 5개와 검은 구슬 5개가 들어있는 주머니에서 하나씩 비복원으로 뽑는 실험의 결과 ① ● ●●●●○ ○○○○ ② ●●●○○○○○●● ③ ●○●○●○●○●○ 두 종류의 구슬이 무작위하게 뽑혔는가? 한줄로 나열했을 때 주기성이 없이 얼마나 고르게 섞여있는가? ①, ② 흰 구슬과 검은 구슬들이 몰려있다. ③ - 78 - 흰 구슬과 검은 구슬이 주기적으로 반복해서 나타난다. 제14장 적합도 검정과 비모수적 방법 주기성이 없이 고르게 섞여있다고 할 수 없다. 실험이 무작위하게 수행되었다고 보기 어렵다. 두 종류의 사건이 일어나는 순서에 대한 무작위성(randomness)은 한 사건이 얼마나 연속해서 일어나는가로 평가 런(run) : 동일한 종류에 속하는 사건의 연속 런 2개 ② 길이 3인 런, 길이 5인 런, 길이 2인 런 런 3개 ③ 길이 1인 런, 길이 1인 런, … 런 10개 예: ① 길이 5인 런, 길이 5인 런 런검정(run test) : 런을 이용하여 일련의 사건의 발생에 대한 무작위성을 검정하는 것 ∙ 런의 수 ∙ 런의 길이 여기서는 런의 수를 쓰는 검정만 다룬다. - 79 - 제14장 적합도 검정과 비모수적 방법 가설은 H0 : 두사건(흰 구슬과 검은 구슬)이 무작위한 순서로 일어난다. H1 : H0가 아니다. 검정통계량이 런의 수 R일 경우, 기각역을 구하려면, H0가 참일 때 R의 분포를 구해야 흰 구슬 n1개와 검은 구슬 n2 개가 들어있는 주머니에서 하나씩 비복원으로 뽑아 한줄로 나열하는 실험에서 X1 : 흰 구슬의 런의 수 X2 : 검은 구슬의 런의 수 런의총수 R X1 X 2 R의 최소값 2 n1 n2 2n1 , R의 최대값 2n1 1, n1 n2 - 80 - 제14장 적합도 검정과 비모수적 방법 a) 구슬 n1 n2개를 배열하는 모든 가능한 경우의 수 n1 n2 n1 H 0가 참이면 모든 가능한 배열이 같은 확률을 가짐 n n 각 배열이 나타날 확률 1 1 2 n1 b) 흰구슬 n1개로부터 런 x1개를 얻은 경우의 수 상자 x1개에 흰구슬 n1개를 빈상자가 생기지 않게 나누어 담는 경우의 수 한줄로 놓은 구슬 n1개 사이에 막대기 x1 1개를 놓는 것 ○|○○○|○○|○∙∙∙|○|○○○|○ - 81 - 제14장 적합도 검정과 비모수적 방법 구슬 틈 n1 1개 중에서 막대기를 놓을 자리 x1 1개를 선택하는 n 1 경우의 수 1 x1 1 n 1 검은 구슬 n2개로부터 런 x2개를 얻는 경우의 수 2 x2 1 흰구슬의 런 x1개와 검은 구슬의 런 x2개를 가지는 경우의 수 n1 1 n2 1 x 1 x 1 1 2 c) x1과 x2 사이에는 x2 x1 1, x2 x1 , x2 x1 1 중 하나의 관계 2, x2 x1 h x1 , x2 1, x2 x1 1 0, 0 라 하면 - 82 - 제14장 적합도 검정과 비모수적 방법 n 1 n2 1 n n p x1 , x2 P X 1 x1 , X 2 x2 1 h x1 , x2 1 2 x1 1 x2 1 n1 d) R=r인 경우를 보면 x2 x1 일 때 r x1 x2는 짝수 x1 x2 r 2 r 1 r 1 x2 x1 1 일 때 r x1 x2는 홀수 x1 , x2 , 2 2 r 1 r 1 또는 , 2 2 n1 1 n2 1 2 r r n1 n2 , 1 n1 2 1 2 PR r n1 1 n2 1 n1 1 n2 1 r 1 r 3 r 3 r 1 2 2 2 2 - 83 - r 짝수 r 홀수 n1 n2 , n 1 (연습문제 #9) 제14장 적합도 검정과 비모수적 방법 부록의 표 B.9a : n1 n2 10 인 경우에 R의 분포함수 P R r0 의 값 부록의 표 B.9b : n1 20, n2 20, 0.05 인 경우에 P R rL , P R rU 가 되는 R에 대한 기각역의 2 2 임계값 rL과 rU <예제 14.12> 운전면허시험 20 문항의 정답여부가 OXOOXOXOXXOOXOXOXXXO 으로 나타나도록 문제를 배열 O와 X가 무작위로 배열되었다고 할 수 있는가? P R rL P R rU 를 만족하는 rL과 rU 를 구하여 rL R rU 로 나타나면 위의 배열이 무작위 하다고 판단. O : n1 10개 X : n2 10개 - 84 - 제14장 적합도 검정과 비모수적 방법 R의 범위는 2 R 20 이고 R 15가 관측되었다. 부록의 표 B.9b에서 n1 n2 10 rL 6, rU 16 rL 6 R 15 16 rU 배열이 무작위 하다고 판단 부록의 표 B.9a에서 n1 n2 10 P R 6 0.019 P R 16 0.019 P R 6 P R 16 0.038 0.05 * 런 검정은 시간에 따른 일련의 측정값 즉 시계열이 무작위한지를 검정하는 데도 쓰인다. - 85 - 제14장 적합도 검정과 비모수적 방법 <시계열의 예> 화학제품의 품질특성 특정제품에 대한 수요 물가지수 등 시간에 따라 어떤 경향을 갖거나 주기성을 띈다. 시계열에 대한 무작위성 검정 ① 어떤 기준점으로부터 벗어난 방향 조사 <예> 목표값보다 크거나 작은 측정값의 런의 개수로 수준의 변화여부를 판단 ② 측정값의 연속적인 증가 또는 감소 조사 <예> 연속적으로 증가하는 상승런과 연속으로 감소하는 하강런의 개수로 시계열에 주기성이 있는지를 판단. - 86 - 제14장 적합도 검정과 비모수적 방법 <예제 14.13> 화학제품의 순도(단위%)를 매시간 측정하여 타점한 것 13 12 11 10 9 8 7 0 2 4 6 8 10 12 14 16 이 자료들이 무작위 한가? ∙ 측정값들을 평균을 기준으로 평균보다 크다(U), 또는 작다(D)로 표시 D D D D U U D U U D U D D D D n1 5, n2 10, R 7 - 87 - 제14장 적합도 검정과 비모수적 방법 부록의 표 B.9a에서 p 값 P R 7 0.455 p 값이 크다 부록의 표 B.9b에서 rL 3, rU 는 존재하지 않는다. rL 3 R 7 rU 측정값들이 무작위하다고 판단. * 런 검정은 맨-휘트니 검정처럼 두 모집단 A와 B를 비교하는 데도 쓸 수 있다. ∙ 두 표본의 측정값들을 혼합하여 크기순으로 나열 ∙ 해당 모집단에 따라 A와 B로 표시 ∙ A AB B BA B 인 경우 런의 수 r 2 A ∙ r 이 작으면 두 모집단에 차이가 있다는 증거 기각역 r r0 - 88 - 제14장 적합도 검정과 비모수적 방법 대표본 검정 H 0가 참일 때 E R 2n1n2 1 n Var R 2n1n2 2n1n2 n n n 1 2 (보충문제 #29*) 1 여기서 n n1 n2 n1과 n2가 20보다 커서 부록의 표B.9b를 쓰지 못하는 경우 Z R E R Var R N 0,1 대표본 Z 검정 적용 - 89 - 제14장 적합도 검정과 비모수적 방법 §14.7 순위상관계수 X ,Y 2변량 정규분포일 때 H 0 : X 와 Y 는 서로 독립 H0 : 0 , X n , Yn 을 뽑아 표본상관계수 확률표본 X 1 , Y1 , R X X Y Y X X Y Y i i 2 i 2 식(12.42) i 을 얻으면 T R n2 1 R 2 t n 2 식(12.45) 정리 12.14 의 t검정 - 90 - 제14장 적합도 검정과 비모수적 방법 X , Y 의 분포를 모르거나 알려져있더라도 X 와 Y 의 관측값을 얻기 어려워 그 상대적 순위만을 관측 할 수 있을 때 X i와 Yi의 상대적 순위 자료를 이용해 X 와 Y 의 상관관계에 관한 가설을 검정할 수 있다. 스피어맨(Spearman)의 순위상관계수(rank correlation coefficient) X , Y 에 대한 크기 n인 확률표본의 관측값 x1 , y1 , , xn , yn 중 i 번째 관측값 xi , yi 에서 - 91 - x1 , , xn 중 xi의 순위 ri y1 , , yn 중 yi의 순위 si 제14장 적합도 검정과 비모수적 방법 순위쌍 r1 , s1 , , rn , sn 스피어맨의 순위상관계수 R*의 값 r * n r r r s s i 1 * (14.31) n i i ri r si s i 1 여기서 n 2 n n i 1 i 1 i 1 ri si 1 2 r s n 1 n n n n 1 2 2 n 2 2 2 r s 1 2 i i 2 i 1 2 n2 n n 1 2n 1 i 1 6 di ri si 라 하면 n n i 1 i 1 2 r s n n 1 2 n 1 6 d ii i 2 - 92 - 제14장 적합도 검정과 비모수적 방법 r 1 * 6 n n 2 1 n 2 d i 보충문제 #30*(a) i 1 <예제14.14> 입사시험에서 서류심사에 통과한 10명의 면접시험과 필기시험 결과 면접시험: 점수화가 힘들어 상대적 순위만 - 93 - 응시자 면접순위 필기시험성적 di 1 6 67 (8.5) -2.5 2 9 61 (10) -1 3 3 83 (4) -1 4 10 67 (8.5) 1.5 5 1 94 (2) -1 6 7 81 (5) 2 7 5 70 (7) -2 8 2 86 (3) -1 9 8 74 (6) 2 10 4 96 (1) 3 제14장 적합도 검정과 비모수적 방법 n 10, 10 d i 1 r* 1 2 i 33.5 6 33.5 0.797 10 99 1 r* 1 보충문제 #30*(b) xi와 yi의 순위가 완벽하게 일치하면 ri si 식(14.31)에서 r * 1 xi와 yi의 순위가 완벽하게 정반대이면 si n ri 식(14.31)에서 r * 1 r * 1 또는 r * 1 이면 X 와 Y 의 순위간에 상관관계가 있다는 증거 - 94 - 제14장 적합도 검정과 비모수적 방법 X 와 Y 의 순위간의 상관계수를 * 라 하면 r * 1 또는 r * 1 일 때 가설 H 0 : * 0 을 기각한다. 부록의 표 B.10 : 주어진 n 과 에 따른 P R* r0* = 를 만족하는 임계값 r0* 예: n 12, 0.01일 때 대립가설이 H1 : * 0 일 경우 r * 0.703 이면 H 0를 기각 H1 : * 0 일 경우 r * 0.703 이면 H 0를 기각 H1 : * 0 일 경우 0.005 r * 0.780 2 - 95 - r * 0.780 이면 H 0를 기각 제14장 적합도 검정과 비모수적 방법 <예제 14.15> <예제 14.14>에서 H0 : * 0 대 H0 : * 0 를 0.01 로 검점 부록의 표 B.10에서 n 10, 0.01일 때 r0* 0.745 r * 0.797 0.745 r0* H 0를 기각 면접시험과 필기시험은 서로 연관성이 있다고 판단 - 96 - 제14장 적합도 검정과 비모수적 방법