Transcript 相關和迴歸分析(二)
1
相對風險比
勝算比
邏輯斯迴歸模型
2
"…2005年3月新英格蘭雜誌上發表了一篇為期3年
(開始於2000年),多中心隨機雙盲,及對照控制
的APPOVe(Adenomatous Polyp Prevention on
VIOXX)臨床試驗,共收錄2,586位患者分別服用
Vioxx 25mg及安慰劑(placebo)。此試驗顯示,有
大腸直腸腺瘤病史的患者服用Vioxx 18個月療程的
治療與使用安慰劑相較,有增加心臟病及中風等危險
性,其實驗組 (服用Vioxx 18個月的一組)相對於照
組(使用安慰劑的一組) 的相對風險(relative risk,
RR)是1.92…” (周正修,周稚傑,羅慶徽,2007)
3
主要結論是: 服用Vioxx的病人得到心臟病及中風
等的風險是未服用藥的人的1.92倍,亦可解讀在大
腸直腸腺瘤病人中服用Vioxx會和是否獲得心臟病
及中風等有關。
兩者否有相關可以從第六章介紹的兩個類別變項的
獨立性檢定的結果中得到結論,但檢定方法無法估
計確切的相關大小。
前面一章我們已經介紹了幾種衡量兩個連續變數相
關大小的方法,本章我們則介紹幾種衡量兩個類別
變數相關大小的方法。
4
針對疾病或事件發生的研究,我們常用罹病(事件發生)
的機率來表示風險(risk)。
一個族群曝露在風險中致病機率為𝑝1 ,另一未曝露的族
群風險為𝑝2 (前瞻式世代研究方法),欲比較曝露和無曝
露兩個族群的差異時,最簡單的方法即是使用兩個風險
的比例(𝑝1 /𝑝2 或𝑝2 /𝑝1 ),這個比率值稱為相對風險
(relative risk, RR)。(如下表)
5
RR值大於1(即ln RR >0) 表示曝露產生疾病的風險
比不曝露較大,小於1 ( ln RR < 0) 則相反,等於
1(ln RR = 0)表示曝露與否和疾病的發生不相關。
若收集到的資料匯整成表8-2的次數統計表時,有
無曝露風險兩組人的風險估計值分別為a/(a+b)
與c/(c+d),因此,相對風險估計值為
𝑅𝑅 =
a/(a+b)
c/(c+d)
。
6
當樣本夠大時,相對風險對數值ln 𝑅𝑅 的抽樣分配
會近似於常態分佈,其變異數估計值為
σ2𝑅𝑅
1
𝑎
= −
1
𝑎+𝑏
1
+
𝑐
−
1
。
𝑐+𝑑
相對風險對數值ln(RR)的100 1 − α %信賴區間為
ln 𝑅𝑅 ± zα 𝜎𝑅𝑅 。
相對風險RR的的100 1 − α %信賴區間為
𝑅𝑅 × exp(±zα 𝜎𝑅𝑅 )。
7
男女得心血管疾病的風險分別為:Risk 男 =
Risk 女 =
3612
40438
= 0.0998;
= 0.0893。
0.0998
0.0893
相對風險為: 𝑅𝑅男/女 =
相對風險的95%信賴區間為
1
1.1176 ×
2399
24051
1
1
= 1.1176。
1
±1.96× 2399−24051+3612−40438
e
= 1.0635, 1.1732 。
8
在統計假設檢定中,兩組人風險沒有差異或風險因子與
事件是不相關的虛無假設為H0 : 𝑅𝑅 = 1 (或 H0 ∶ ln 𝑅𝑅 =
0 )。當虛無假設為真時,可以利用檢定統計量z =
及標準常態分配Z表求得雙尾檢定的P值 (p = 2 ×
P Z> z 。
ln 𝑅𝑅
𝜎𝑅𝑅
使用p值法時,檢定統計量為
z=
σRR
ln 1.1176
1
1
1
1
−
+
−
2399 24051 3612 40438
= 4.4389。
雙尾檢定p值為<0.0001,顯著水準設定為0.05時,拒
絶虛無假設,男性得到心血管疾病為女性的1.1176倍。
9
另一個常用來衡量風險的指標為勝算(Odds),勝算
定義為發生事件機率與不發生事件機率的比值。
以表8-2為例,兩組人的勝算分別為𝑝1 /(1 − 𝑝1 )及
𝑝2 /(1 − 𝑝2 ),此二比例的比值稱為勝算比(OR,
odds ratio)
𝑝1 /(1 − 𝑝1 )
𝑂𝑅 =
。
𝑝2 /(1 − 𝑝2 )
OR值大於1(即ln OR >0) 表示曝露產生疾病的風險比
無曝露較大,小於1 ( ln OR < 0) 則相反,等於1(ln
OR = 0)表示曝露與否和疾病的發生不相關。
10
兩組人勝算的估計值分別為a/b、c/d,勝算比估計值
為 𝑂𝑅 =
𝑎/𝑏
𝑐/𝑑
=
ad
。
bc
當樣本夠大時,ln(𝑂𝑅)的抽樣分配也會近似於常態分配,
且其變異數估計為σ2OR
1
𝑎
1
𝑏
= + +
1
1
+ 。
𝑐
𝑑
ln(𝑂𝑅)的100 1 − α % 信賴區間為ln 𝑂𝑅 ± zα × 𝜎𝑂𝑅
或
𝑂𝑅的100 1 − α %信賴區間為𝑂𝑅 × exp(±zα 𝜎𝑂𝑅 )。
11
男女兩組人的心血管疾病勝算分別為: 𝑂𝑑𝑑𝑠男 =
0.1108; 𝑂𝑑𝑑𝑠女 =
3612
36826
男女勝算比估計值為: 𝑂𝑅男/女 =
勝算比的95%信賴區間為
1.1296 ×
1
=
= 0.0981。
1
2399
21652
1
0.1108
0.0981
= 1.1296。
1
±1.96× 2399+21652+3612+36826
e
= 1.0987, 1.1613
。
12
假設檢定分析中,虛無假設通常設定為兩組人勝算是沒有
差異的,即勝算比為1H0 : 𝑂𝑅 = 1 或 ln 𝑂𝑅 = 0 ,此時可
用檢定統計量z =
ln 𝑂𝑅
𝜎𝑂𝑅
及標準常態分配,利用信賴區間法
或p值法判斷兩組人疾病風險上是否有差異。
使用p值法時,檢定統計量為
z=
σOR
ln 1.1296
1
1
1
1
+
+
+
2399 21652 3612 36826
= 4.4001。
雙尾檢定p值為<0.0001,顯著水準設定為0.05時,拒絶虛
無假設,結論為性別與心血管疾病有顯著相關,男生的勝算
為女生的1.1296倍,男生的風險會比女性高。
13
我們分析的指標經常是勝算比並非勝算,而應用貝氏定理
後勝算比又可寫成
𝑂𝑅 =
𝑞1 /(1−𝑞1 )
。
𝑞2 /(1−𝑞2 )
式中的𝑞1 (𝑞2 )是病人(非病人)中暴露於風險的比率。應用這個
公式去估計勝算比時,我們的研究也可以設計成去觀察病人
與非病人中分別有多少人曝露於風險中? 這種研究方法又稱
為回顧式研究方法。
無論是前瞻式世代研究的設計或回顧式的研究設計,
都可以用來分析勝算比。是勝算比較常被使用的原
因。
14
實際資料分析時經常會發現相對風險與勝算比的估
計值很相似,因為疾病事件發生的機率很小時,表
8-3中的a與c值會甚小於b和d,使得a+b和c+d可
近似為b和d,以致於相對風險與勝算比估計值很相
近,會得到相似的結果。
15
類別變項的分析方式也可以應用迴歸模型來分析,
我們可以把要研究的事件變數(Y,例如心血管疾
病是否發生,0:未發生,1:發生)當成依變數;
風險因子(X,例如性別,0:女性,1:男性)為
自變數。
此時依變數是一個二元(binary)型態的類別資料,
不適合使用簡單線性迴歸模型式將兩者的關係建立
起來。因簡單線性迴歸模型中依變數資料是連續型
的資料,但類別型的依變數其值僅為0或1。
16
給定風險變數𝑋為 𝑥的前題下,首先考量事件發生
的勝算
P Y=1|X=x
1−P Y=1|X=x
,並假設勝算的對數和風險變
數值 𝑥間成線性關係:
P Y = 1|X = x
ln
= 𝛽0 + 𝛽1 𝑥,
1 − P Y = 1|X = x
這就是簡單邏輯斯迴歸模型。
以性別為自變數為例,簡單邏輯斯迴歸模型成立下,
男性(X = 1)和女性(X = 0)發生心血管疾病的
勝算分別為e𝛽0 +𝛽1 、e𝛽0 ,兩者的勝算比為e𝛽1 。
17
簡單邏輯斯迴歸模型中的係數β1 即為 “男性相對於
女性” 在發生心血管疾病上勝算比的 “對數值”。
β1 > 0 (< 0)時,表示男性在發生心血管疾病方面
有較高(低)的風險, β1 = 0 表示性別不是心血管疾
病發生的風險因子。
簡單迴歸係數邏輯斯迴歸模型中的係數𝛽0 及β1 可以
藉由估計方法(一般使用最大概似估計法)求得。
檢定自變數與依變數不相關的虛無假設為H0 : β1 =
0。
18
點選分析方法迴歸模式簡單邏輯斯迴歸分析
步驟一(資料匯入):使用者個人資料檔步驟二
(參數設定):選擇依變數為心血管疾病與自變數
為性別開始分析。
表8-4為簡單邏輯斯迴歸分析的結果。性別的迴歸
係數與前面計算的勝算比對數值相等,但信賴區間
不同,主要是因為兩者使用計算方式不同,當樣本
夠大時二者便會趨近於相同。
19
在顯著水準設定為0.05時,信賴區間法(信賴區間
不包含虛無假設值)和p值法(p<0.05)都顯示拒
絶虛無假設,結論均為: 性別與心血管疾病的發生
在統計上有顯著的相關,男性發生心血管疾病的勝
算是女性的1.1296(=e0.1219 )倍。
20
簡單邏輯斯迴歸模型中的自變數可以為類別型變數
也可以是連續型變數,當是連續型變數時,係數β1
代表的意義為當自變數值增加 “一個單位” 時,勝算
比的對數值增加β1 個單位,或勝算比增加eβ1 倍。
以心血管資料為例,若自變數X為年齡時,得到表
8-5結果。
21
顯示年齡與心血管疾病的發生有顯著的正相關,每增加一
歲,心血管疾病發生的勝算即增加1.0741倍。
華德
係數
估計值
標準差 檢定統計量
Waldcoefficient estimation std. err.
statistic
參數的 95% 信賴區間
95% C.I. for estimations
p值II
p-value
下界
上界
lower
upper
截距項
-6.0128
0.0637 8913.4411 < 1e-04 ***
-6.1383
-5.8886
年齡
0.0715
0.0011 4345.4784 <1e-04 ***
0.0693
0.0736
22
一個問題經常有數種分析方法可以解決,例如列聯
表分析(卡方檢定)可以解決的問題通常也可以用
簡單或更複雜的邏輯斯迴歸分析解決。
只是當拒絶虛無假設時,列聯表的卡方檢定無法明
確說明風險與疾病發生相關的程度如何,但是邏輯
斯迴歸分析可以回答這個問題。
邏輯斯迴歸模型也可以處理連續型的自變數,列聯
表分析則無法。
23
當列聯表的資料中有些格子發生的次數較少產生資
料不平衡現象時,邏輯斯迴歸分析的檢定力通常比
列聯表分析的檢定力要高。
只是邏輯斯迴歸分析要特別注意迴歸模型的假設是
否正確,不正確的模型假設會導致分析結果的錯誤。
24
1.
2.
3.
4.
周正修;周稚傑;羅慶徽。非類固醇抗發炎藥劑及心臟
血管事件的相關性。基層醫學 2007 ; 22:147-52
Marcello Pagano, Kimberlee Gauvreau. (2000)
Principle of Biostatistics, 2nd Edition, Cengage
Learning.
Beth Dawson, Robert G. Trapp. (2004) Basic &
Clinical Biostatistics, 4/E, McGraw Hill
Professional.
Steven A. Julious and Mark A. Mullee. (1994)
Confounding and Simpson's paradox. BMJ 309
(6967): 1480–1481.
25
1.下表為一探討心血管疾病與飲酒關係之研究,請問飲酒得
心升管疾病與不飲酒得心血管疾病的相對風險為何?當顯著
水準設定為0.05時,試利用檢定方法探討飲酒習慣是否與
心血疾病的風險有關,其p值為何?兩者是否有顯著的相關?
飲酒習慣
心血管疾病
有
無
合計
有
12
188
200
無
16
784
800
合計
28
972
1000
26
2. 承上題,請問飲酒習慣得到心血管疾病相對於沒有飲酒
習慣的勝算比為何?勝算比的95%信賴區間為何?當顯著水
準為0.05時,心血管疾病是否與飲酒有顯著的相關?
3. 試利用肺癌資料分析回答以下問題
(1)利用簡單邏輯斯迴歸分析復發情形與性別的關係,請問
男女復發的勝算比各為何?95%信賴區間為何?若顯著水準
為0.05,復發與性別是否有顯著的關係?
(2)利用簡單邏輯斯迴歸分析復發情形與年齡的關係,若顯
著水準為0.05,復發與年齡是否有顯著的關係?
27
The End
35