Transcript 類別資料分析
STATISTICS 類別資料分析 運用時機 一組比例值的檢定 陽明大學學生近視率(%)是否與全台灣的成人有所不同? 兩組比例值的檢定 陽明大學男女生的近視率是否有所不同? 一組的兩次比例值是否有所不同? 老人前後兩次觀察的憂鬱比率是否有所不同? 機率分佈 二項分佈: binomial distribution 1 STATISTICS 二項分佈 一組比例值 個數的平均值與變異數:np; npq 比率的平均值與變異數:p; (pq)/n 檢定值 Z p1 p0 ( p0 q0 ) / n 兩組比例值:標準差與檢定值 SE( p1 p2 ) p1 q1 p 2 q 2 SE( p1 p2 ) n n 2 1 p1 p 2 z SE ( p1 p2 ) n1 p1 n2 p 2 1 1 pq( ) p n1 n2 n1 n2 2 STATISTICS 二項分佈的舉例 1 男女各約一半的人口中,某時期機車肇事死亡共120人中,男性有80人女性有 40人,請問機車肇事死亡是否與性別有關? p 0.5 0.5 / 120 0.046 0 Z p1 p0 p p1 80 / 120 0.667 (0.667 0.5) / 0.046 3.63 0 都市與山地國中生各100人中,近視比例分別為55與15人,請問都市與山地國 中生近視比例差別的95%信賴區間為何? ( p p ) 0.55 0.45 / 100 0.15 0.85 / 100 0.0612 1 2 p1 0.55 p2 0.15 95% CI (0.55 0.15) 1.96 0.0612 0.40 0.12 0.28 ~ 0.52 3 STATISTICS 二項分佈的舉例 2 某區域醫院了配合總額預算新制、保有一定水準的醫療品質與醫院收入, 決定每天門診量不超過375人,但開放電話或電腦預約掛號到400號,因 為根據以往經驗約有10%的病人掛了號卻不來看診。請問該醫院至少有 一位病人掛了號卻看不到病的機率是多少?(假設病人掛號後有的看診機 率為二項分布) (A).P(Z>1.96)=2.5% (B).P(Z>2.14)=1.6% (C).P(Z>2.34)=1.0% (D).P(Z>2.58)=0.5% (E).P(Z>2.8)=0.3% np 400 0.9 360; npq 2 36; P( Z 375.5 360 2.58) 0.5% 6 4 STATISTICS 卡方分佈與兩個類別變項的統計 使用時機:兩個類別變項間是否有相關association 性別與自體免疫疾病的有無、注射流感疫苗與感冒發生的 有無、籍貫與投票行為等 與比例值的意義相同 卡方值 ( 2 xi ) ( 2 x1 ) ( 2 x1 ) ... ( 2 x1 ) 2 Z12 Z 22 ... Z n2 2 ( O E ) 2 E 5 STATISTICS 卡方檢定的舉例 卡方分佈表與自由度 d.f.=(No. of rows -1)*(No. of Columns-1) 依照自由度查表 例題 是否食用鴨子 患病 合計 否 是 11(4.33) 0(6.67) 11 否 75(81.67) 32(125.33) 207 86 132 218 (O E ) 2 17.84 E 2 合計 是 .295(1) 3.84 推翻虛無假說,接受對立假說,吃鴨子與否與患傷寒有關 6 STATISTICS Yate’s校正與Fisher’s exact test 2 卡方值的簡單公式: (1) N ( ad bc N / 2) 2 (a b)(c d )( a c)(b d ) Yats’ correction: N/2, 2× 2 table 檢定時使用 Fisher’s exact test (a b)!(c d )!(a c)!(b d )! 使用時機 : 某些cell期望值小於5 Pi N!a!b!c!d! 舉例 1 4 5 0 5 5 6 6 12 7 5 12 7 10 17 7 10 17 所以,P=0.238+0.041=0.279>0.05,接受虛無假說 Pi 5!12!7!10! 0.238 17!1!4!6!6! Pi 5!12!7!10! 0.041 17!0!5!7!5! 7 STATISTICS McNemar’s Test 名稱與使用時機:非獨立樣本比率數的卡方檢定 觀念與配對t 檢定完全相同 2 ( b c ) 檢定值 McNemar c2 bc 舉例: 第一次與第二次受訪老人的婚姻狀態是否有不同? 結論:追蹤憂鬱老人的婚姻狀態,發現有明顯不同 Married at Wave 2 Married at Wave 1 No Yes Total No Yes 257 1 258 45 291 336 Total 302 292 594 McNemar 2 c ( b c )2 bc ( 1 45 ) 2 1 45 (44) 2 2 42.09 95 (1) 3.84, d . f 1 46 結論:追蹤憂鬱老人的婚姻狀態,發現有明顯不同 8 STATISTICS 適合度檢定Goodness-of-fit test 使用時機 如果一個母群體,依某種分類的分布為已知,要了解一個隨機樣 本是否由該母群體所抽出的檢定,就應使用適合度檢定。 舉例 高血壓會者之血型分布與常人是否相同 第一次結果 樣本分佈 已知母群體分佈 樣本預期值 A B 63 45 25% 21% 54.50 45.78 O 93 49% 106.82 AB 15 5% 10.90 (63 54.5) 2 (45 45.78) 2 (95 106.82) 2 (15 10.9) 2 2 4.19 95 ( 3) 7.81 54.5 45.78 106.82 10.9 2 結論:接受虛無假說,高血壓患者的血型分佈與常人並無不同 9 STATISTICS 波以松分佈:Poisson Test 二項分布 波以松分布 自然對數 公式證明 P(r ) C rn p r q n r P( X ) n! p r q nr r!(n r )! X e X! 1 n lim n (1 ) e n x lim n (1 ) n e x n n(n 1)...( n x 1) x ( ) (1 ) n x x! n n x n n 1 n x 1 ( )( )...( )(1 ) n x x! n n n n x e x! lim n C xn p x (1 p) n x 10 STATISTICS 波以松檢定:舉例 波以松分布 P( X ) X e X! 設台灣地區盲腸手術失敗率為0.007,某醫院進行盲腸手術400次沒 有一次失敗,該院外科醫療水準是否較全國為優? 解:設α=0.05,p=0.007, n=400 H0: 該院手術失敗率與全國相同p1= p0 H1: 該院手術失敗率較全國為低p1< p0 e 2.8 2.80 P(0) 0.0608 0! 結論:接受虛無假說,該院並不比一般醫院之外科醫療水準為優 11 STATISTICS 卡方分佈的濫用與討論 任意將等距或等比變項轉化成類別變項 男女的體重是否有所差別? 分組武斷 體重:輕中重如何分?(BMI…?) 自變項與依變項的因果關係 Z 或 t 檢定:方法本身已隱含有因果關係的假定 卡方檢定:沒有因果關係的假設 但仍習慣將將「因」變項放在直行,「果」變項放在橫列 12 STATISTICS 結論 比率檢定:Z分佈 與平均值檢定的觀念完全相同 類別變項的統計:卡方檢定 2×2:要做Yate’s correction Fisher’s exact test: 某些cell 的期望值小於5時:樣本數太小或機率值 p 太小 McNemar’s test: 二項類別變項重複測兩次 Poisson test: 樣本數n很大且機率值 p很小(通常<0.01),如癌症發生比率 13 STATISTICS 期中考例題1 14 STATISTICS 期中考例題2 15