多變項迴歸分析

Transcript 多變項迴歸分析

1

干擾變數

連結函數

粗糙的勝算比

調整後的勝算比

交互作用

分層分析
2

我們研究的主題（依變數）資料有些是像第七章中
討論的連續型（或稱數值型）資料，有些是像第八
章中討論的二元類別型資料，有些則是像第九章中
討論的計數資料。不同的資料形態導致分析的迴歸
模型及方法都有相當大的差異。

若主題資料是二元類別型資料，用卜瓦松迴歸模型
去分析就會發生嚴重的錯誤。不同迴歸模型的迴歸
係數也各有不同的解釋和代表的意義，分析時要特
別注意。
3

我們在第七-九章中已經介紹了如何利用不同的迴
歸模型探討一個自變數和一個依變數之間的關係，
如何利用迴歸模型做預測。但在醫學資料的分析中
我們很少會遇到僅用一個自變數分析的情形。

重要的原因之一是經常有許多風險因子（自變數）
會同時影響要研究的依變數，單一自變數的分析結
論經常有干擾（confounding）的情形產生。
4

賀爾蒙治療和冠狀動脈性心臟病相關性的研究裡，假設
資料分析的結論是 “賀爾蒙的治療會降低冠狀動脈性心
臟病的發生率，結論在統計上是顯著的”，但發現所研
究的資料中接受賀爾蒙治療的婦女剛好多數是年齡較輕
的人，會不會冠狀動脈性心臟病發生率降低的原因是因
為使用者年齡較低的關係，而不是因為使用賀爾蒙的原
因?

統計上解決這種干擾的處理原則上有二種：從研究方法
上處理或從資料分析上下手。
5

要從研究方法的設計上解決的話，我們在收集資料時，
觀察到一位接受賀爾蒙治療的婦女（可稱為案例）就找
一位年齡（干擾變數）相仿沒接受賀爾蒙治療的婦女
（可稱為對照）同步追蹤觀察冠狀動脈性心臟病發生的
情形（此設計是以年齡相配(matching) 的設計），接
著用檢定方法(例如McNemar檢定) 處理分析。

若要從分析方法下手的話，則通常要使用多變項迴歸分
析方法，將干擾變數放進迴歸模型中和主要的風險變數
同步分析，這種作法稱為控制干擾因子的作法
（control of confounding），是本章討論的重點。
6

簡單線性迴歸模型應用於常態分配資料y（例如收縮
壓）的分析；“假設”收縮壓的期望值𝜇會受年齡自
變數𝑥1 的影響；它們的關係假設滿足
𝜇 = 𝛽0 + 𝛽1 𝑥。

簡單邏輯斯廻歸模型應用於二項式分配資料y，二項
式分配中的重要參數𝜇 ，代表心血管疾病的發生機
率。 “假設＂心血管疾病的勝算比 μ 1 − μ 會受性
別自變數𝑥1 的影響；它們的關係假設是
log  /(1   )   0  1 x。
1
7

簡單卜瓦松迴歸模型則是應用於計數型態資料y，
（例如，每年罹患肺癌的人數，等）的分析；卜瓦
松分配中的唯一參數就是𝜃，代表每年罹患肺癌的
平均人數。 “假設”每年肺癌的發生率會受年齡自
變數𝑥1 的影響，以μ表示；它們的關係假設是
log    0  1 x1 。

以上這些迴歸模型都經常在醫學相關的研究中被使
用，它們之所以被稱為簡單迴歸模型的原因是因為
模型中只有一個自變數。
8

𝛽0 、𝛽1 通稱為迴歸係數，雖然它們在不同的迴歸模
型下各別代表不同的意義，但是我們分析的重點經
常圍繞在探討（檢定）𝛽1 =0是否成立?

雖然不同 “依變數”y的資料形態會影響不同迴歸模
型的應用選擇，但是在任何迴歸模型中 “自變數＂
𝑥1 資料形態則是不拘的，可以是連續形的資料形態
也可以是類別形的資料形態。
9

本章討論”多變項迴歸模型”要求迴歸模型中至少有二個
以上的自變數，為方便討論假設模型中有二個自變數𝑥1
和𝑥2 。最簡單的多變項迴歸模型假設
𝑓 𝜇 =𝛽0 + 𝛽1 𝑥1 +𝛽2 𝑥2 。

𝑓 𝜇 被稱為連結函數（link function），在線性迴歸模
型下𝑓 𝜇 ＝𝜇，在邏輯斯廻歸模型下𝑓 𝜇 ＝log μ 1 − μ ，
在卜瓦松迴歸模型下𝑓 𝜇 ＝log𝜇。

連結函數是用來連結 “平均數𝜇＂和自變數的函數使它們
之間的關係成 “線性＂。
10

自變數𝑥2 的資料形態也是不拘的，可以是連續形的
資料形態也可以是類別形的資料形態。

1.
在迴歸分析的應用裡，我們可以視問題的屬性
將自變數 𝑥1 和 𝑥2 當成研究中共同的主要因子變數，
或
2.
僅將自變數𝑥1 當成主要因子變數，而自變數𝑥2 當
成前面所說的干擾變數。
11
在探討抽菸（𝑥1 ）對心血管疾病的發生機率使是否有
相關的研究中：

若邏輯斯廻歸模型的分析中同步放入“年齡”(此為
可能的干擾變數當作第二個自變數𝑥2 ) ，則可以說
“在任何的年齡層下”，抽菸者罹患心血管疾病的勝算
估計是非抽菸者的𝑒 𝛽1 倍;或說抽菸者罹患心血管疾病
相對非抽菸者罹患心血管疾病的勝算比是𝑒 𝛽1 。

這種勝算比又稱是調整（年齡）後的勝算比
（age-adjusted odds ratio）。
12

若是邏輯斯廻歸模型中只有一個自變數𝑥1 ，沒有放入干
擾變數𝑥2 的話，估計所得的勝算比稱為未調整
（unadjusted）或粗糙的（crude）勝算比。

若是調整過及未調整的勝算比差別不大的話，則顯示變
數𝑥2 不是干擾變數。在流行病學或醫學的研究裡，性別
及年齡經常被看成是干擾變數，須要被用來 “調整其他
研究主要因子的效應。

以上 “干擾變數＂及如何運用廻歸模型作 “調整＂的作
法在線性迴歸及卜瓦松迴歸分析中也有相同的運用，我
們就不再贅述。
13
以下我們針對第八章心血管研究的資料分析抽菸量對罹
患心血管疾病的影響。

首先我們使用R-web（www.r-web.com.tw）資料處
理中資料分組模組的功能將數值變數 “年齡＂轉換成類
別變數（50歲以下為第0組，以上為第1組），將抽菸
量也分成二組（1包菸以下為第0組，以上為第1組）。

接著我們使用R-web 中廣義線性模式中邏輯特連結函
數的模組（和邏輯斯迴歸分析模組功能相同但進階選項
功能更多）分析。
14

以點選方式選用路徑： “分析方法 廣義線性模式
邏輯特連結函數 步驟一（資料匯入）: 使用個人資料
檔 步驟二（參數設定）：選擇依變數：心血管疾病；
自變數：抽菸量開始分析
表10-1. 抽菸對心血管疾病的影響
係數
估計值
標準差
z檢定統計量
p-值II
coefficient estimation
std. err.
z-statistic
p-value
-2.2873315 0.0140894 -162.3443 < 2e-16 ***
截距項
0.2306469 0.0764061
3.0187
0.00254 **
抽菸量

抽菸量1包以上的人在罹患心血管疾病的勝算和抽菸量
1包以下的人勝算相比較，粗估為𝑒 0.231 = 1.2599；信
賴區間為𝑒 0.231±1.96×0.076 ，統計檢定的結論是抽菸量是
顯著的風險因子（p值為0.00254）。
15
我們用年齡來調整勝算比的估計，並檢視年齡是否為干擾因子:

以點選方式選用路徑: “ 分析方法 廣義線性模式 邏輯
特連結函數 步驟一（資料匯入）: 使用個人資料檔 步
驟二（參數設定）: 選擇依變數: 心血管疾病；自變數: 抽菸
量，年齡 開始分析“
表10-2.調整年齡後抽菸量對心血管疾病的影響
係數
估計值
標準差
coefficient estimation
std. err.
-3.2059414 0.026073
截距項
1.7316398 0.0311022
年齡
0.1379097 0.0690198
抽菸量
z檢定統計量
z-statistic
-122.96
55.6758
1.9981179
p-值II
p-value
<2e-16 ***
<2e-16 ***
0.0489
表10-2中的結果顯示：年齡及抽菸量都是心血管疾病的風險
因子；他們的勝算比對數分別為1.732及0.138。
16

調整年齡後的勝算比為𝑒 0.138 和未調整的勝算比
𝑒 0.231 相較，顯示有相當的落差，調整後較低；在
高或低年齡層中，高抽菸量的人相對於低抽菸量的
人在心血管疾病發生的勝算比沒有原先估計的高。

線性迴歸模型及卜瓦松迴歸模型也有類似以上的分
析和討論，我們可以使用R-web廣義線性模式中對
等連結函數（即線性回歸模型）及自然對數連結函
數（即卜瓦松迴歸模型）的模組來計算。
17

迴歸模型的結果顯示不論在何種年齡層下，抽菸對心血
管疾病的效應是固定，不會隨著年齡層的不同而有差異。
但是這種作法有時和臨床的觀察有時會有相當程度的落
差。

臨床研究經常發現𝑥1 因子對疾病發生的效應會隨著𝑥2
（例如年齡）值的變化而變化。這時候我們就說因子
𝑥2 的值會修改（modify） 𝑥1 因子影響疾病發生的效應。
處理這種情形，使用前面的迴歸模型就顯得不適當。
18

簡單又經常被使用的迴歸模型是：
𝑓 𝜇 =𝛽0 + 𝛽1 𝑥1 +𝛽2 𝑥2 +𝛽3 𝑥3 。
其中𝑥3 = 𝑥1 × 𝑥2 ，𝛽3 稱為因子𝑥1 及𝑥2 交互作用的係
數。

以邏輯斯廻歸為例：抽菸對心血管疾病的研究，給
定任何𝑥2 （年齡）的情況下，
𝑥1 ＝１（抽菸量1包（含）以上），
log
𝜇1
1−𝜇1
=𝛽0 + 𝛽1 +𝛽2 𝑥2 +𝛽3 𝑥2 。
𝑥1 ＝0（抽菸量1包以下），log
𝜇0
1−𝜇0
=𝛽0 +𝛽2 𝑥2 。
19

抽菸量1包(含)以上(𝑥1 ＝１)相對於抽菸量1包以下
(𝑥1 ＝0)的勝算比是
𝑒 𝛽0+𝛽1+𝛽2𝑥2+𝛽3𝑥2 𝑒 𝛽0+𝛽2𝑥2 =𝑒 𝛽1+𝛽3𝑥2
此值受𝑥2 影響。

使用這種迴歸模型，我們在分析上可以反應𝑥2 “修改
𝑥1 效應”的實務現象。即抽菸量(𝑥1 )和心血管疾病
之相關性和年齡(𝑥2 )有關。稱抽菸量和年齡具交互
作用。
20
探討是否存在抽菸及年齡的交互作用?

以點選方式選用路徑: “分析方法 廣義線性模式邏
輯特連結函數 步驟一（資料匯入）:使用個人資料檔
步驟二（參數設定）: 選擇依變數: 心血管疾病；自變
數：抽菸量，年齡；進階選項設定: 交互作用項: 抽菸量×
年齡開始分析＂，得下列分析結果表:
表10-3. 年齡和抽菸量交互作用對心血管疾病的影響
係數
coefficient
估計值
estimation
截距項
-3.2161479
年齡
1.7462776
0.031686
抽菸量
0.4425181
0.1356783
年齡*抽菸量
標準差
std. err.
z檢定統計量
z-statistic
0.0264831 -121.4415
-0.4329225 0.1658689
p-值II
p-value
< 2e-16
***
55.112
< 2e-16
***
3.2615
0.00111
**
-2.61
0.00905
**
21

表10-3的結果顯示：年齡及抽菸量都是心血管疾病的
風險因子；他們的勝算比對數估計分別為1.746及
0.443，交互作用的勝算比對數為-0.433；他們檢定
統計量的p值都小於0.001，表示統計上顯著的不為零。

分析指出，低年齡層中高抽菸量的人相對於低抽菸量的
人在心血管疾病發生的勝算比為𝑒 0.443 ；而在高年齡層
中的勝算比則為𝑒 0.443−0.433 = 𝑒 0.010 。顯示心血管疾病
發生的勝算在個別的年齡層內相比較（勝算比）有不同
的結果。
22

自變數𝑥2 為干擾因子或有交互作用現象的前題是𝑥2 必須
對疾病的發生而言是風險因子（即對應的迴歸係數顯著
的不為零），但影響疾病發生的風險因子決不會只有一
個。

多變項迴歸分析的模型可以使用一個以上的干擾因子或
交互作用，分析二個因子的交互作（如：抽菸量 × 年齡）
也可以擴大分析三個因子的交互作用（如：抽菸量×年
齡×性別），等等。

三個以上因子的交互作用的解釋相當複雜，醫學的研究
中較少出現，通常替代的方法是使用分層分析。
23

以心血管疾病的研究為例，可將分析的資料分成男女二
層，然後使用表10-3的邏輯斯廻歸模型個別分析層內
資料並下結論。

這種作法的好處是分析模型中不必考慮複雜的交互作用，
但缺點是層內資料會變少檢定力會變低，風險因子有可
能得不到顯著的分析結果。因此，若是某一層的資料明
顯的不足時，分層分析可能就不適合。

以下我們用性別分層，將資料分成男女二層，分別有
24051及 40438筆資料。
24

以點選方式選用路徑: “分析方法 廣義線性模式邏
輯特連結函數 步驟一（資料匯入）: 使用個人資料檔
步驟二（參數設定）: 選擇依變數: 心血管疾病；自變
數: 抽菸量，年齡；進階選項設定: 交互作用項: 抽菸量×
年齡開始分析“
表10-4. 年齡和抽菸量交互作用對心血管疾病的影響（女性）
依變數
心血管疾病
係數
估計值
coefficient estimation
標準差
std. err.
華德檢定統計量
p-值
Wald-statistic p-value
截距項
-3.226
0.0325
9869.5993
< 1e-04
年齡
1.7524
0.0394
1981.6483
< 1e-04
抽菸量
0.7246
0.4663
2.4145
0.1202
年齡*抽菸量
-0.5503
0.6558
0.704
0.4014
25

針對女性而言，抽菸量無法顯示是風險因子，因為
表10-4中抽菸量及年齡×抽菸量的勝算比對數分
別為0.724及-0.550，但由於分層後女性抽菸的樣
本人數在資料中只有94人，因此標準差估計較大，
導致許多統計檢定均呈不顯著結果（p值各為0.120
及 0.401）。女性勝算比對數的值和表10-3中的值
差異較大。
26
表10-5. 年齡和抽菸量交互作用對心血管疾病的影響（男性）
依變數
心血管疾病

華德檢定統計量
p-值
Wald-statistic p-value
係數
coefficient
估計值
estimation
標準差
std. err.
截距項
-3.1962
0.0458
4877.7761
< 1e-04
年齡
1.7323
0.0536
1044.5987
< 1e-04
抽菸量
0.4012
0.1462
7.5256
0.0061
年齡*抽菸量
-0.4041
0.1771
5.2101
0.0225
針對男性而言，表10-5的結果顯示：年齡及抽菸量都是心
血管疾病的風險因子；他們的勝算比對數估計分別為1.730
及0.401，交互作用的勝算比對數為-0.404；他們檢定統
計量的p值都小於0.03，表示統計上顯著的不為零。
27

分析指出，低年齡層中高抽菸量的人相對於低抽菸
量的人在心血管疾病發生的勝算比為e0.401 = 1.4933；
而在高年齡層中的勝算比則為e0.401−0.404 =
e−0.003 = 0.997。

不同年齡層的人互相比較的話，結果顯示: 高年齡高
抽菸量的人相對於低年齡層低抽菸量的人而言，相
對勝算比為e1.730+0.401−0.404 = e1.727 = 5.6238。男
性勝算比對數的值和表10-3中的值較無差異。
28
CVD_All資料中包含66,489人的臨床檢驗數據、家族、行為數
據、及是否罹患CVD的數據。
1) 請將＂壓差=收縮壓減舒張壓＂當成應變數，年齡當成自變
數，做線性迴歸分析，並檢定年齡是否為壓差的風險因子?
2) 接續第1題，將性別當成做線性迴歸分析的干擾因子，分析
年齡是否為風險因子？性別是否真的是干擾因子？針對壓差
這個應變數，年齡和性別是否存有交互作用？
3) CVD_All資料中有追蹤時間的紀錄，請使用這個資料及卜瓦
松模型估計CVD的每年發生率為何？
4) 請檢定壓差是否為CVD發生的風險因子？年齡（或性別）是
否為干擾因子？年齡（或性別）和壓差是否存在交互作用？
5) 接續第4個問題，針對性別做分層分析，並比較3和4的結論？
29
The End
35

多變項迴歸分析

Transcript 多變項迴歸分析

Directory