相關和迴歸分析（二）

Transcript 相關和迴歸分析（二）

1

相對風險比

勝算比

邏輯斯迴歸模型
2
＂…2005年3月新英格蘭雜誌上發表了一篇為期3年
（開始於2000年），多中心隨機雙盲，及對照控制
的APPOVe（Adenomatous Polyp Prevention on
VIOXX）臨床試驗，共收錄2,586位患者分別服用
Vioxx 25mg及安慰劑(placebo)。此試驗顯示，有
大腸直腸腺瘤病史的患者服用Vioxx 18個月療程的
治療與使用安慰劑相較，有增加心臟病及中風等危險
性，其實驗組 (服用Vioxx 18個月的一組)相對於照
組(使用安慰劑的一組) 的相對風險（relative risk，
RR）是1.92…” （周正修，周稚傑，羅慶徽，2007）
3



主要結論是: 服用Vioxx的病人得到心臟病及中風
等的風險是未服用藥的人的1.92倍，亦可解讀在大
腸直腸腺瘤病人中服用Vioxx會和是否獲得心臟病
及中風等有關。
兩者否有相關可以從第六章介紹的兩個類別變項的
獨立性檢定的結果中得到結論，但檢定方法無法估
計確切的相關大小。
前面一章我們已經介紹了幾種衡量兩個連續變數相
關大小的方法，本章我們則介紹幾種衡量兩個類別
變數相關大小的方法。
4


針對疾病或事件發生的研究，我們常用罹病(事件發生)
的機率來表示風險（risk）。
一個族群曝露在風險中致病機率為𝑝1 ，另一未曝露的族
群風險為𝑝2 (前瞻式世代研究方法)，欲比較曝露和無曝
露兩個族群的差異時，最簡單的方法即是使用兩個風險
的比例（𝑝1 /𝑝2 或𝑝2 /𝑝1 ），這個比率值稱為相對風險
（relative risk, RR）。(如下表)
5


RR值大於1(即ln RR >0) 表示曝露產生疾病的風險
比不曝露較大，小於1 ( ln RR < 0) 則相反，等於
1(ln RR = 0)表示曝露與否和疾病的發生不相關。
若收集到的資料匯整成表8-2的次數統計表時，有
無曝露風險兩組人的風險估計值分別為a/（a+b）
與c/（c+d），因此，相對風險估計值為
𝑅𝑅 =
a/（a+b）
c/（c+d）
。
6

當樣本夠大時，相對風險對數值ln 𝑅𝑅 的抽樣分配
會近似於常態分佈，其變異數估計值為
σ2𝑅𝑅

1
𝑎
= −
1
𝑎+𝑏
1
+
𝑐
−
1
。
𝑐+𝑑
相對風險對數值ln(RR)的100 1 − α %信賴區間為
ln 𝑅𝑅 ± zα 𝜎𝑅𝑅 。

相對風險RR的的100 1 − α %信賴區間為
𝑅𝑅 × exp(±zα 𝜎𝑅𝑅 )。
7

男女得心血管疾病的風險分別為:Risk 男 =
Risk 女 =


3612
40438
= 0.0998;
= 0.0893。
0.0998
0.0893
相對風險為: 𝑅𝑅男/女 =
相對風險的95%信賴區間為
1
1.1176 ×
2399
24051
1
1
= 1.1176。
1
±1.96× 2399−24051+3612−40438
e
= 1.0635， 1.1732 。
8

在統計假設檢定中，兩組人風險沒有差異或風險因子與
事件是不相關的虛無假設為H0 : 𝑅𝑅 = 1 (或 H0 ∶ ln 𝑅𝑅 =
0 )。當虛無假設為真時，可以利用檢定統計量z =
及標準常態分配Z表求得雙尾檢定的P值 (p = 2 ×
P Z> z 。

ln 𝑅𝑅
𝜎𝑅𝑅
使用p值法時，檢定統計量為
z=
σRR
ln 1.1176
1
1
1
1
−
+
−
2399 24051 3612 40438
= 4.4389。
雙尾檢定p值為<0.0001，顯著水準設定為0.05時，拒
絶虛無假設，男性得到心血管疾病為女性的1.1176倍。
9



另一個常用來衡量風險的指標為勝算（Odds），勝算
定義為發生事件機率與不發生事件機率的比值。
以表8-2為例，兩組人的勝算分別為𝑝1 /（1 − 𝑝1 ）及
𝑝2 /（1 − 𝑝2 ），此二比例的比值稱為勝算比（OR,
odds ratio）
𝑝1 /（1 − 𝑝1 ）
𝑂𝑅 =
。
𝑝2 /（1 − 𝑝2 ）
OR值大於1(即ln OR >0) 表示曝露產生疾病的風險比
無曝露較大，小於1 ( ln OR < 0) 則相反，等於1(ln
OR = 0)表示曝露與否和疾病的發生不相關。
10

兩組人勝算的估計值分別為a/b、c/d，勝算比估計值
為 𝑂𝑅 =

𝑎/𝑏
𝑐/𝑑
=
ad
。
bc
當樣本夠大時，ln(𝑂𝑅)的抽樣分配也會近似於常態分配，
且其變異數估計為σ2OR

1
𝑎
1
𝑏
= + +
1
1
+ 。
𝑐
𝑑
ln(𝑂𝑅)的100 1 − α % 信賴區間為ln 𝑂𝑅 ± zα × 𝜎𝑂𝑅
或
𝑂𝑅的100 1 − α %信賴區間為𝑂𝑅 × exp(±zα 𝜎𝑂𝑅 )。
11

男女兩組人的心血管疾病勝算分別為: 𝑂𝑑𝑑𝑠男 =
0.1108; 𝑂𝑑𝑑𝑠女 =
3612
36826
男女勝算比估計值為: 𝑂𝑅男/女 =

勝算比的95%信賴區間為
1.1296 ×
1
=
= 0.0981。

1
2399
21652
1
0.1108
0.0981
= 1.1296。
1
±1.96× 2399+21652+3612+36826
e
= 1.0987， 1.1613
。
12

假設檢定分析中，虛無假設通常設定為兩組人勝算是沒有
差異的，即勝算比為1H0 : 𝑂𝑅 = 1 或 ln 𝑂𝑅 = 0 ，此時可
用檢定統計量z =
ln 𝑂𝑅
𝜎𝑂𝑅
及標準常態分配，利用信賴區間法
或p值法判斷兩組人疾病風險上是否有差異。

使用p值法時，檢定統計量為
z=
σOR
ln 1.1296
1
1
1
1
+
+
+
2399 21652 3612 36826
= 4.4001。
雙尾檢定p值為<0.0001，顯著水準設定為0.05時，拒絶虛
無假設，結論為性別與心血管疾病有顯著相關，男生的勝算
為女生的1.1296倍，男生的風險會比女性高。
13

我們分析的指標經常是勝算比並非勝算，而應用貝氏定理
後勝算比又可寫成
𝑂𝑅 =
𝑞1 /（1−𝑞1 ）
。
𝑞2 /（1−𝑞2 ）
式中的𝑞1 (𝑞2 )是病人(非病人)中暴露於風險的比率。應用這個
公式去估計勝算比時，我們的研究也可以設計成去觀察病人
與非病人中分別有多少人曝露於風險中? 這種研究方法又稱
為回顧式研究方法。

無論是前瞻式世代研究的設計或回顧式的研究設計，
都可以用來分析勝算比。是勝算比較常被使用的原
因。
14

實際資料分析時經常會發現相對風險與勝算比的估
計值很相似，因為疾病事件發生的機率很小時，表
8-3中的a與c值會甚小於b和d，使得a+b和c+d可
近似為b和d，以致於相對風險與勝算比估計值很相
近，會得到相似的結果。
15


類別變項的分析方式也可以應用迴歸模型來分析，
我們可以把要研究的事件變數（Y，例如心血管疾
病是否發生，0：未發生，1：發生）當成依變數；
風險因子（X，例如性別，0：女性，1：男性）為
自變數。
此時依變數是一個二元（binary）型態的類別資料，
不適合使用簡單線性迴歸模型式將兩者的關係建立
起來。因簡單線性迴歸模型中依變數資料是連續型
的資料，但類別型的依變數其值僅為0或1。
16

給定風險變數𝑋為 𝑥的前題下，首先考量事件發生
的勝算
P Y=1|X=x
1−P Y=1|X=x
，並假設勝算的對數和風險變
數值 𝑥間成線性關係：
P Y = 1|X = x
ln
= 𝛽0 + 𝛽1 𝑥，
1 − P Y = 1|X = x
這就是簡單邏輯斯迴歸模型。
 以性別為自變數為例，簡單邏輯斯迴歸模型成立下，
男性（X = 1）和女性（X = 0）發生心血管疾病的
勝算分別為e𝛽0 +𝛽1 、e𝛽0 ，兩者的勝算比為e𝛽1 。
17


簡單邏輯斯迴歸模型中的係數β1 即為 “男性相對於
女性” 在發生心血管疾病上勝算比的 “對數值”。
β1 > 0 (< 0)時，表示男性在發生心血管疾病方面
有較高(低)的風險， β1 = 0 表示性別不是心血管疾
病發生的風險因子。
簡單迴歸係數邏輯斯迴歸模型中的係數𝛽0 及β1 可以
藉由估計方法（一般使用最大概似估計法）求得。
檢定自變數與依變數不相關的虛無假設為H0 : β1 =
0。
18


點選分析方法迴歸模式簡單邏輯斯迴歸分析
步驟一（資料匯入）：使用者個人資料檔步驟二
（參數設定）：選擇依變數為心血管疾病與自變數
為性別開始分析。
表8-4為簡單邏輯斯迴歸分析的結果。性別的迴歸
係數與前面計算的勝算比對數值相等，但信賴區間
不同，主要是因為兩者使用計算方式不同，當樣本
夠大時二者便會趨近於相同。
19

在顯著水準設定為0.05時，信賴區間法（信賴區間
不包含虛無假設值）和p值法（p<0.05）都顯示拒
絶虛無假設，結論均為: 性別與心血管疾病的發生
在統計上有顯著的相關，男性發生心血管疾病的勝
算是女性的1.1296（=e0.1219 ）倍。
20

簡單邏輯斯迴歸模型中的自變數可以為類別型變數
也可以是連續型變數，當是連續型變數時，係數β1
代表的意義為當自變數值增加 “一個單位” 時，勝算
比的對數值增加β1 個單位，或勝算比增加eβ1 倍。

以心血管資料為例，若自變數X為年齡時，得到表
8-5結果。
21
顯示年齡與心血管疾病的發生有顯著的正相關，每增加一
歲，心血管疾病發生的勝算即增加1.0741倍。
華德
係數
估計值
標準差檢定統計量
Waldcoefficient estimation std. err.
statistic
參數的 95% 信賴區間
95% C.I. for estimations
p值II
p-value
下界
上界
lower
upper
截距項
-6.0128
0.0637 8913.4411 < 1e-04 ***
-6.1383
-5.8886
年齡
0.0715
0.0011 4345.4784 <1e-04 ***
0.0693
0.0736
22



一個問題經常有數種分析方法可以解決，例如列聯
表分析（卡方檢定）可以解決的問題通常也可以用
簡單或更複雜的邏輯斯迴歸分析解決。
只是當拒絶虛無假設時，列聯表的卡方檢定無法明
確說明風險與疾病發生相關的程度如何，但是邏輯
斯迴歸分析可以回答這個問題。
邏輯斯迴歸模型也可以處理連續型的自變數，列聯
表分析則無法。
23


當列聯表的資料中有些格子發生的次數較少產生資
料不平衡現象時，邏輯斯迴歸分析的檢定力通常比
列聯表分析的檢定力要高。
只是邏輯斯迴歸分析要特別注意迴歸模型的假設是
否正確，不正確的模型假設會導致分析結果的錯誤。
24
1.
2.
3.
4.
周正修；周稚傑；羅慶徽。非類固醇抗發炎藥劑及心臟
血管事件的相關性。基層醫學 2007 ； 22:147-52
Marcello Pagano, Kimberlee Gauvreau. (2000)
Principle of Biostatistics, 2nd Edition, Cengage
Learning.
Beth Dawson, Robert G. Trapp. (2004) Basic &
Clinical Biostatistics, 4/E, McGraw Hill
Professional.
Steven A. Julious and Mark A. Mullee. (1994)
Confounding and Simpson's paradox. BMJ 309
(6967): 1480–1481.
25
1.下表為一探討心血管疾病與飲酒關係之研究，請問飲酒得
心升管疾病與不飲酒得心血管疾病的相對風險為何？當顯著
水準設定為0.05時，試利用檢定方法探討飲酒習慣是否與
心血疾病的風險有關，其p值為何？兩者是否有顯著的相關？
飲酒習慣
心血管疾病
有
無
合計
有
12
188
200
無
16
784
800
合計
28
972
1000
26
2. 承上題，請問飲酒習慣得到心血管疾病相對於沒有飲酒
習慣的勝算比為何？勝算比的95%信賴區間為何？當顯著水
準為0.05時，心血管疾病是否與飲酒有顯著的相關？
3. 試利用肺癌資料分析回答以下問題
(1)利用簡單邏輯斯迴歸分析復發情形與性別的關係，請問
男女復發的勝算比各為何？95%信賴區間為何？若顯著水準
為0.05，復發與性別是否有顯著的關係？
(2)利用簡單邏輯斯迴歸分析復發情形與年齡的關係，若顯
著水準為0.05，復發與年齡是否有顯著的關係？
27
The End
35

相關和迴歸分析（二）

Transcript 相關和迴歸分析（二）

Directory