兩個類別變數之檢定 - 生物統計研究中心

Download Report

Transcript 兩個類別變數之檢定 - 生物統計研究中心

1. 考試日期:103年11月11日(星期二),18:00-20:00
2. 教室(坐位表考試當天公布於教室門口):
◦ 自備筆電者之教室為2301、2302
◦ 無筆電者,在杏春樓電腦教室A、B
3. 計算工具:使用R-web,以筆電上網至雲端系統(筆電至
少需維持3小時電力)
4. 資料庫:共有100組資料,隨機指派給每位同學分析
5. 每題答案,除了呈現數據結果外,文字說明不少於20個
字(需和答案相關),描述愈清楚分數愈高。
6. 範圍:第一章至第七章
7. Open book
1
2

卡方檢定

獨立性檢定

列聯表

葉氏連續性校正卡方檢定

費雪精確性檢定

超幾何分佈

McNemar 檢定
3

以下案例為關於血清鉀濃度是否會影響健康人日後
糖尿病罹患率的研究。本文章提出數據證明當一般
健康人血清鉀濃度偏低時,其日後也較容易罹患糖
尿病。研究者利用他們1986年開始的臨床研究,
蒐集到12,209位受試者的血清鉀濃度資料,並在
之後的9年內以面談的方式追蹤受試者是否罹患糖
尿病。結果發現:
(資料來源:康活健康知識網—醫學疾病類科,分泌及新陳代謝科,Apr. 2011,糖尿病增加可能與缺
鉀有關,節錄部份)
4



在9年內共有1,475位受試者被診斷出糖尿病;當研究
者把受試者依照血清鉀濃度分成4組(低於4.0
mEq/L、4.0~4.5 mEq/L、4.5~5.0 mEq/L、
5.0~5.5 mEq/L)時,發現濃度較低前三組的糖尿
病罹患率,分別是濃度最高第四組的1.64、1.64、
和1.39倍。
即使在9年之後,當研究者以電話繼續追蹤時仍發
現,從前血清鉀濃度較低者,其糖尿病罹患率在第
9~17年間仍然較高。
如何利用統計檢定的方式來比較血清鉀濃度會影響
健康人日後的糖尿病罹患率而得到結論便是本章重
點。
5


上例中探討血清鉀濃度的類別變項(4類) 與罹患糖
尿病(2類) 是否有關; 虛無假設(H0)為兩變數獨立
無關,而對立假設(Ha)為兩變數間有相關。研究
這種問題時經常將資料整理成列聯表(contingency
table)的形態。
假設一類別變數有r個分組,而另一類別變數有c個
分組,依據這兩個變數共可產生 𝑟 × 𝑐 個類別組合,
計數樣本資料落在每種組合的次數,下表為兩個類
別變數的 𝑟 × 𝑐 列聯表:
6
令𝑵𝒊𝒋 為第i列及第j行格子的次數,其中 𝑅1 , ⋯ ,𝑅r 和
𝐶1 , ⋯ ,𝐶c 分別為行列變數的邊際總和, n 為總樣本數。
Column
Row
1
1
2
⋯
j
⋯
c
𝑁11
𝑁12
⋯
𝑁1𝑗
⋯
𝑁1𝑐
合計
𝑅1
2
𝑁21
𝑁22
⋯
𝑁2𝑗
⋯
𝑁2𝑐
𝑅2
⋮
⋮
⋮
⋮
⋮
i
𝑁𝑖1
𝑁𝑖2
𝑁𝑖𝑐
𝑅𝑖
⋮
⋮
⋮
⋮
⋮
r
𝑁𝑟1
𝑁𝑟2
⋯
𝑁𝑟𝑗
⋯
𝑁𝑟𝑐
𝑅𝑟
合計
𝐶1
𝐶2
⋯
𝐶𝑗
⋯
𝐶𝑐
𝑛
⋮
⋯
𝑁𝑖𝑗
⋯
⋮
7

當虛無假設成立時,即兩變數是獨立,則兩事件會同時發
生的機率等於各事件獨立發生機率的相乘,所以第 ij 格
子的平均次數應為
𝑅𝑖 𝐶𝑗 𝑅𝑖 𝐶𝑗
𝐸𝑖𝑗 = 𝑛 × × =
𝑛 𝑛
𝑛
則卡方檢定統計量定義為:
r
χ2
c
=
i=1 j=1
Nij − Eij
Eij
2
此卡方檢定統計量在虛無假設成立時服從自由度為 𝑟 − 1 ×
(𝑐 − 1)之卡方分配𝜒 2r−1
2
;
p值=
P(𝜒
(c−1)
r−1
(c−1)
> χ2 )。
8

直覺上,若兩變數是獨立時,其觀察次數和期望個
數應相差無幾,這會使得卡方檢定值很小。反之,
若卡方檢定值很大,則代表兩變數間有相關。所以
在顯著水準為 α 下,如果卡方檢定統計值大於卡方
分佈右尾機率α的百分位 χ2α;
r−1 (c−1) 或
p值<α,
則拒絕虛無假設。
9
本例中的檢定假設為:
虛無假設(H0): PPHN新生兒死亡與懷孕周數小於34周無關
對立假設(Ha): PPHN新生兒死亡與懷孕周數小於34周有關

在表6-1.可得到此筆資料關於兩變數的列聯表,每格子的
數字依序為觀測次數、總百分比、列百分比及行百分比,
可藉由列聯表觀察資料的分佈情形,直觀上,兩行的行百
分比及兩列的列百分比分佈有些許差異,然而我們無法直
接判斷這樣的分佈差異是否有達到統計上顯著水準,需透
過卡方檢定方式得到結論。
10
表6-1. 列聯表
個數
聯合百分比
列百分比
行百分比
懷孕周數≥34
0
1
(否) (是)
合計
Total
0(存活)
26
86
19.85 65.65
23.21 76.79
81.25 86.87
112
1(死亡)
6
13
4.58 9.92
31.58 68.42
18.75 13.13
19
合計 Total
32
99
表6-2. 卡方獨立性檢定
虛無假設:兩變數之間無關聯
卡方檢定
統計量
自由度
p-值II
chi-square
d.f.
p-value
statistics
0.2459
1
0.61995
131
11

當樣本數不夠大時,我們會加入一修正項。葉氏校正方式
是利用觀測次數與期望次數之差的絕對值減去0.5而得下
列葉氏連續性校正的卡方檢定:
r
c
2
χ =
i=1 j=1
|Nij − Eij | − 0.5
Eij
2
使用卡方檢定時,應確保資料是否符合下列適用條件:
1.
不能有任何格子內之期望次數(Eij)小1。
2.
至少80%格子的期望次數(Eij)要大於5。例如:在 2 ×
2 的列聯表中,格子數為4,若其中有一格子的期望次
數小於5,則占總細格數的25%,超過僅能20%的限制
條件,故此資料不適合應用卡方分配來計算p值。
12

精確性檢定假設邊際觀測次數為固定值非隨機,在
行與列變數之間無關(虛無假設成立) 時,下面2 × 2
列聯表:
變數2 (I) 變數2 (II)
變數1 (I)
變數1 (II)
A
C
A+C
B
D
B+D
A+B
C+D
N
發生的機率為(此機率分配又稱為超幾何分配,
hypergeometric distribution):
A+C
A
q=
B+D
B
N
A+B
13

因為邊際觀測次數為固定值, 2 × 2列聯表會隨A的
變化而變化(給定A後, B,C,D就給定) , 計算比
觀測值A更大的所有列聯表發生的 “機率總和” 即為
精確性檢定的P值,若P值小於所定之顯著水準α則
拒絕虛假設。費雪精確性檢定是一種嚴謹且有效的
檢定方法,它經常在當樣本數太小(N<20)以致
卡方檢定的p值計算不可靠的情況下被使用,臨床
實務上用到的機會相當多。
14


當兩個類別變項的資料是有連帶關係而非彼此獨立
時,例如是配對(matched)或成對(paired)出
現時,則所建立的列聯表與檢定方法與上述兩個獨
立類別變項的討論方式完全不相同。
我們使用關於睪丸癌在年輕男性的流行病學研究,
研究設計採病例對照配對研究,調查在美國華盛頓
DC地區時間自1976年至1986年,評估男性睪丸
癌罹患是否和隱睪症有關,在此收集了259位睪丸
癌患者,並根據年齡、種族等屬性配對找一位未患
睪丸癌的同醫院病患當作對照,均詢問出生時是否
有隱睪症。
15

此類研究設計常用於病例對照配對研究(matched
case-control study),針對疾病與暴露因子的相
關研究,為避免一些干擾因子(如性別、年齡、種
族等)誤導或干擾結論,可以配對研究設計方式收
集資料來進行分析。

因為病例、對照兩組資料是來自同一配對,所以是
有相關而非獨立,因此我們將資料整理成以下2 × 2
列聯表:
16
病例組
(有睪
丸癌)
隱睪症
Yes
對照組(無睪丸癌)
隱睪症
Yes
No
4 (O11) 11 (O12)
總計
15
No
3 (O21)
241(O22)
244
總計
7
252
259
針對以上配對或成對資料的2 × 2列聯表分析,McNemar 檢定為適當的
統計方法,其統計檢定假設為:
H0: 隱睪症與睪丸癌無關
Ha: 隱睪症與睪丸癌有關
上述列聯表的結果可分為兩類配對: 結果一致的配對(concordant pairs),
如O11和O22,以及結果不一致的配對(discordant pairs),如O12和O21,
17
檢定隱睪症與睪丸癌是否相關的問題,那些一致的
配對似乎無法回答這個問題,只有那些結果不一致
的配對差異能提供變數是否相關的訊息。當虛無假
設成立時,我們認為O12和O21差異不大;
McNemar 檢定的檢定統計量為:
2
O
−
O
12
21
2
χMcNemar =
O12 + O21
此卡方檢定統計量在虛無假設成立時服從自由度為1

2
之卡方分配𝜒(1)
。
18

此配對資料可得檢定統計值為
2
χ2McNemar
(11 − 3)
=
= 4.57
11 + 3
2
對比於自由度為1之卡方分佈可得P值= P 𝜒(1)
>
19
1. 今有一針對慢性疲勞症候群(CFS)治療方法的臨床試驗,隨機將病患
分成兩群分別給予A藥物及安慰劑治療,持續治療六周後評估是否減輕各
種身心的不適症狀,資料如下,
治療成效
(是否減輕各種身心
的不適症狀)
治療方法
是
否
總計
12
3
15
A藥物
3
14
17
安慰劑
1) 試問在顯著水準α=0.05之下,該藥物對於治療慢性疲勞症候群是否有
效?請陳述統計檢定的假設、欲使用的統計檢定方法及檢定結論。
2) 請以葉氏連續性校正計算在(1)的檢定方法,並敘述其檢定結論。
3) 請檢驗是否符合卡方檢定的適用條件。
4) 請以費雪精確性檢定以檢定該藥物對於治療慢性疲勞症候群是否有
效。
20
2.今有一研究欲調查退休狀態與老年癡呆症是否有關
連,因為退休狀態與老年癡呆症可能與年紀大者或性
別有關,因此考慮年齡及性別為可能干擾因子,經年
齡與性別配對後,共調查127對老年癡呆患者及健康
的成年人,分別詢問其退休狀態,將資料以列聯表整
理後,其結果如下:
1) 試問下列二種陳列方式哪一種較為適當來回應此
研究問題?
2) 在顯著水準α=0.05之下,請檢定退休狀態與老
年癡呆症是否有關連?請陳述統計檢定的假設、
欲使用的統計檢定方法及檢定結論。
21
健康人
退休
未退休
合計
老年癡呆患者
合計
退休 未退休
27
12
39
20
68
88
47
80
127
表I
退休狀態
退休
未退休
合計
老年癡呆患者
是
否
47
39
80
88
127
127
合計
86
168
254
表II
22
The End
35