多變項迴歸分析

Download Report

Transcript 多變項迴歸分析

1

干擾變數

連結函數

粗糙的勝算比

調整後的勝算比

交互作用

分層分析
2

我們研究的主題 (依變數)資料有些是像第七章中
討論的連續型(或稱數值型)資料,有些是像第八
章中討論的二元類別型資料,有些則是像第九章中
討論的計數資料。不同的資料形態導致分析的迴歸
模型及方法都有相當大的差異。

若主題資料是二元類別型資料,用卜瓦松迴歸模型
去分析就會發生嚴重的錯誤。不同迴歸模型的迴歸
係數也各有不同的解釋和代表的意義,分析時要特
別注意。
3

我們在第七-九章中已經介紹了如何利用不同的迴
歸模型探討一個自變數和一個依變數之間的關係,
如何利用迴歸模型做預測。但在醫學資料的分析中
我們很少會遇到僅用一個自變數分析的情形。

重要的原因之一是經常有許多風險因子(自變數)
會同時影響要研究的依變數,單一自變數的分析結
論經常有干擾(confounding)的情形產生。
4

賀爾蒙治療和冠狀動脈性心臟病相關性的研究裡,假設
資料分析的結論是 “賀爾蒙的治療會降低冠狀動脈性心
臟病的發生率,結論在統計上是顯著的”,但發現所研
究的資料中接受賀爾蒙治療的婦女剛好多數是年齡較輕
的人,會不會冠狀動脈性心臟病發生率降低的原因是因
為使用者年齡較低的關係,而不是因為使用賀爾蒙的原
因?

統計上解決這種干擾的處理原則上有二種:從研究方法
上處理或從資料分析上下手。
5

要從研究方法的設計上解決的話,我們在收集資料時,
觀察到一位接受賀爾蒙治療的婦女(可稱為案例)就找
一位年齡(干擾變數)相仿沒接受賀爾蒙治療的婦女
(可稱為對照)同步追蹤觀察冠狀動脈性心臟病發生的
情形 (此設計是以年齡相配(matching) 的設計),接
著用檢定方法(例如McNemar檢定) 處理分析。

若要從分析方法下手的話,則通常要使用多變項迴歸分
析方法,將干擾變數放進迴歸模型中和主要的風險變數
同步分析,這種作法稱為控制干擾因子的作法
(control of confounding),是本章討論的重點。
6

簡單線性迴歸模型應用於常態分配資料y(例如收縮
壓)的分析;“假設”收縮壓的期望值𝜇會受年齡自
變數𝑥1 的影響;它們的關係假設滿足
𝜇 = 𝛽0 + 𝛽1 𝑥。

簡單邏輯斯廻歸模型應用於二項式分配資料y,二項
式分配中的重要參數𝜇 ,代表心血管疾病的發生機
率。 “假設"心血管疾病的勝算比 μ 1 − μ 會受性
別自變數𝑥1 的影響;它們的關係假設是
log  /(1   )   0  1 x。
1
7

簡單卜瓦松迴歸模型則是應用於計數型態資料y,
(例如,每年罹患肺癌的人數,等)的分析;卜瓦
松分配中的唯一參數就是𝜃,代表每年罹患肺癌的
平均人數。 “假設”每年肺癌的發生率會受年齡自
變數𝑥1 的影響,以μ表示;它們的關係假設是
log    0  1 x1 。

以上這些迴歸模型都經常在醫學相關的研究中被使
用,它們之所以被稱為簡單迴歸模型的原因是因為
模型中只有一個自變數。
8

𝛽0 、𝛽1 通稱為迴歸係數,雖然它們在不同的迴歸模
型下各別代表不同的意義,但是我們分析的重點經
常圍繞在探討(檢定)𝛽1 =0是否成立?

雖然不同 “依變數”y的資料形態會影響不同迴歸模
型的應用選擇,但是在任何迴歸模型中 “自變數"
𝑥1 資料形態則是不拘的,可以是連續形的資料形態
也可以是類別形的資料形態。
9

本章討論”多變項迴歸模型”要求迴歸模型中至少有二個
以上的自變數,為方便討論假設模型中有二個自變數𝑥1
和𝑥2 。最簡單的多變項迴歸模型假設
𝑓 𝜇 =𝛽0 + 𝛽1 𝑥1 +𝛽2 𝑥2 。

𝑓 𝜇 被稱為連結函數(link function),在線性迴歸模
型下𝑓 𝜇 =𝜇,在邏輯斯廻歸模型下𝑓 𝜇 =log μ 1 − μ ,
在卜瓦松迴歸模型下𝑓 𝜇 =log𝜇。

連結函數是用來連結 “平均數𝜇"和自變數的函數使它們
之間的關係成 “線性"。
10

自變數𝑥2 的資料形態也是不拘的,可以是連續形的
資料形態也可以是類別形的資料形態。

1.
在迴歸分析的應用裡,我們可以視問題的屬性
將自變數 𝑥1 和 𝑥2 當成研究中共同的主要因子變數,
或
2.
僅將自變數𝑥1 當成主要因子變數,而自變數𝑥2 當
成前面所說的干擾變數。
11
在探討抽菸(𝑥1 )對心血管疾病的發生機率使是否有
相關的研究中:

若邏輯斯廻歸模型的分析中同步放入“年齡”(此為
可能的干擾變數當作第二個自變數𝑥2 ) ,則可以說
“在任何的年齡層下”,抽菸者罹患心血管疾病的勝算
估計是非抽菸者的𝑒 𝛽1 倍;或說抽菸者罹患心血管疾病
相對非抽菸者罹患心血管疾病的勝算比是𝑒 𝛽1 。

這種勝算比又稱是 調整(年齡)後的勝算比
(age-adjusted odds ratio)。
12

若是邏輯斯廻歸模型中只有一個自變數𝑥1 ,沒有放入干
擾變數𝑥2 的話,估計所得的勝算比稱為未調整
(unadjusted)或粗糙的(crude)勝算比。

若是調整過及未調整的勝算比差別不大的話,則顯示變
數𝑥2 不是干擾變數。在流行病學或醫學的研究裡,性別
及年齡經常被看成是干擾變數,須要被用來 “調整其他
研究主要因子的效應。

以上 “干擾變數"及如何運用廻歸模型作 “調整"的作
法在線性迴歸及卜瓦松迴歸分析中也有相同的運用,我
們就不再贅述。
13
以下我們針對第八章心血管研究的資料分析抽菸量對罹
患心血管疾病的影響。

首先我們使用R-web(www.r-web.com.tw)資料處
理中資料分組模組的功能將數值變數 “年齡"轉換成類
別變數(50歲以下為第0組,以上為第1組), 將抽菸
量也分成二組(1包菸以下為第0組,以上為第1組)。

接著我們使用R-web 中廣義線性模式中邏輯特連結函
數的模組(和邏輯斯迴歸分析模組功能相同但進階選項
功能更多)分析。
14

以點選方式選用路徑: “分析方法 廣義線性模式
邏輯特連結函數 步驟一(資料匯入): 使用個人資料
檔 步驟二(參數設定):選擇依變數:心血管疾病;
自變數:抽菸量開始分析
表10-1. 抽菸對心血管疾病的影響
係數
估計值
標準差
z檢定統計量
p-值II
coefficient estimation
std. err.
z-statistic
p-value
-2.2873315 0.0140894 -162.3443 < 2e-16 ***
截距項
0.2306469 0.0764061
3.0187
0.00254 **
抽菸量

抽菸量1包以上的人在罹患心血管疾病的勝算和抽菸量
1包以下的人勝算相比較,粗估為𝑒 0.231 = 1.2599;信
賴區間為𝑒 0.231±1.96×0.076 ,統計檢定的結論是抽菸量是
顯著的風險因子(p值為0.00254)。
15
我們用年齡來調整勝算比的估計,並檢視年齡是否為干擾因子:

以點選方式選用路徑: “ 分析方法 廣義線性模式 邏輯
特連結函數 步驟一 (資料匯入): 使用個人資料檔 步
驟二(參數設定): 選擇依變數: 心血管疾病; 自變數: 抽菸
量,年齡 開始分析“
表10-2.調整年齡後抽菸量對心血管疾病的影響
係數
估計值
標準差
coefficient estimation
std. err.
-3.2059414 0.026073
截距項
1.7316398 0.0311022
年齡
0.1379097 0.0690198
抽菸量
z檢定統計量
z-statistic
-122.96
55.6758
1.9981179
p-值II
p-value
<2e-16 ***
<2e-16 ***
0.0489
表10-2中的結果顯示:年齡及抽菸量都是心血管疾病的風險
因子;他們的勝算比對數分別為1.732及0.138。
16

調整年齡後的勝算比為𝑒 0.138 和未調整的勝算比
𝑒 0.231 相較,顯示有相當的落差,調整後較低;在
高或低年齡層中,高抽菸量的人相對於低抽菸量的
人在心血管疾病發生的勝算比沒有原先估計的高。

線性迴歸模型及卜瓦松迴歸模型也有類似以上的分
析和討論,我們可以使用R-web廣義線性模式中對
等連結函數(即線性回歸模型)及自然對數連結函
數 (即卜瓦松迴歸模型)的模組來計算。
17

迴歸模型的結果顯示不論在何種年齡層下,抽菸對心血
管疾病的效應是固定,不會隨著年齡層的不同而有差異。
但是這種作法有時和臨床的觀察有時會有相當程度的落
差。

臨床研究經常發現𝑥1 因子對疾病發生的效應會隨著𝑥2
(例如年齡) 值的變化而變化。這時候我們就說因子
𝑥2 的值會修改(modify) 𝑥1 因子影響疾病發生的效應。
處理這種情形,使用前面的迴歸模型就顯得不適當。
18

簡單又經常被使用的迴歸模型是:
𝑓 𝜇 =𝛽0 + 𝛽1 𝑥1 +𝛽2 𝑥2 +𝛽3 𝑥3 。
其中𝑥3 = 𝑥1 × 𝑥2 ,𝛽3 稱為因子𝑥1 及𝑥2 交互作用的係
數。

以邏輯斯廻歸為例:抽菸對心血管疾病的研究,給
定任何𝑥2 (年齡)的情況下,
𝑥1 =1(抽菸量1包(含)以上),
log
𝜇1
1−𝜇1
=𝛽0 + 𝛽1 +𝛽2 𝑥2 +𝛽3 𝑥2 。
𝑥1 =0(抽菸量1包以下),log
𝜇0
1−𝜇0
=𝛽0 +𝛽2 𝑥2 。
19

抽菸量1包(含)以上(𝑥1 =1)相對於抽菸量1包以下
(𝑥1 =0)的勝算比是
𝑒 𝛽0+𝛽1+𝛽2𝑥2+𝛽3𝑥2 𝑒 𝛽0+𝛽2𝑥2 =𝑒 𝛽1+𝛽3𝑥2
此值受𝑥2 影響。

使用這種迴歸模型,我們在分析上可以反應𝑥2 “修改
𝑥1 效應”的實務現象。即抽菸量(𝑥1 )和心血管疾病
之相關性和年齡(𝑥2 )有關。稱抽菸量和年齡具交互
作用。
20
探討是否存在抽菸及年齡的交互作用?

以點選方式選用路徑: “分析方法 廣義線性模式邏
輯特連結函數 步驟一 (資料匯入):使用個人資料檔
步驟二(參數設定): 選擇依變數: 心血管疾病;自變
數:抽菸量,年齡;進階選項設定: 交互作用項: 抽菸量×
年齡開始分析",得下列分析結果表:
表10-3. 年齡和抽菸量交互作用對心血管疾病的影響
係數
coefficient
估計值
estimation
截距項
-3.2161479
年齡
1.7462776
0.031686
抽菸量
0.4425181
0.1356783
年齡*抽菸量
標準差
std. err.
z檢定統計量
z-statistic
0.0264831 -121.4415
-0.4329225 0.1658689
p-值II
p-value
< 2e-16
***
55.112
< 2e-16
***
3.2615
0.00111
**
-2.61
0.00905
**
21

表10-3的結果顯示:年齡及抽菸量都是心血管疾病的
風險因子;他們的勝算比對數估計分別為1.746及
0.443,交互作用的勝算比對數為-0.433;他們檢定
統計量的p值都小於0.001,表示統計上顯著的不為零。

分析指出,低年齡層中高抽菸量的人相對於低抽菸量的
人在心血管疾病發生的勝算比為𝑒 0.443 ;而在高年齡層
中的勝算比則為𝑒 0.443−0.433 = 𝑒 0.010 。顯示心血管疾病
發生的勝算在個別的年齡層內相比較(勝算比)有不同
的結果。
22

自變數𝑥2 為干擾因子或有交互作用現象的前題是𝑥2 必須
對疾病的發生而言是風險因子(即對應的迴歸係數顯著
的不為零),但影響疾病發生的風險因子決不會只有一
個。

多變項迴歸分析的模型可以使用一個以上的干擾因子或
交互作用,分析二個因子的交互作(如:抽菸量 × 年齡)
也可以擴大分析三個因子的交互作用(如:抽菸量×年
齡×性別),等等。

三個以上因子的交互作用的解釋相當複雜,醫學的研究
中較少出現,通常替代的方法是使用分層分析。
23

以心血管疾病的研究為例,可將分析的資料分成男女二
層,然後使用表10-3的邏輯斯廻歸模型個別分析層內
資料並下結論。

這種作法的好處是分析模型中不必考慮複雜的交互作用,
但缺點是層內資料會變少檢定力會變低,風險因子有可
能得不到顯著的分析結果。因此,若是某一層的資料明
顯的不足時,分層分析可能就不適合。

以下我們用性別分層,將資料分成男女二層, 分別有
24051及 40438筆資料。
24

以點選方式選用路徑: “分析方法 廣義線性模式邏
輯特連結函數 步驟一 (資料匯入): 使用個人資料檔
步驟二(參數設定): 選擇依變數: 心血管疾病;自變
數: 抽菸量,年齡;進階選項設定: 交互作用項: 抽菸量×
年齡開始分析“
表10-4. 年齡和抽菸量交互作用對心血管疾病的影響 (女性)
依變數
心血管疾病
係數
估計值
coefficient estimation
標準差
std. err.
華德檢定統計量
p-值
Wald-statistic p-value
截距項
-3.226
0.0325
9869.5993
< 1e-04
年齡
1.7524
0.0394
1981.6483
< 1e-04
抽菸量
0.7246
0.4663
2.4145
0.1202
年齡*抽菸量
-0.5503
0.6558
0.704
0.4014
25

針對女性而言,抽菸量無法顯示是風險因子, 因為
表10-4中 抽菸量 及 年齡×抽菸量 的勝算比對數分
別為0.724及-0.550,但由於分層後女性抽菸的樣
本人數在資料中只有94人,因此標準差估計較大,
導致許多統計檢定均呈不顯著結果(p值各為0.120
及 0.401)。女性勝算比對數的值和表10-3中的值
差異較大。
26
表10-5. 年齡和抽菸量交互作用對心血管疾病的影響 (男性)
依變數
心血管疾病

華德檢定統計量
p-值
Wald-statistic p-value
係數
coefficient
估計值
estimation
標準差
std. err.
截距項
-3.1962
0.0458
4877.7761
< 1e-04
年齡
1.7323
0.0536
1044.5987
< 1e-04
抽菸量
0.4012
0.1462
7.5256
0.0061
年齡*抽菸量
-0.4041
0.1771
5.2101
0.0225
針對男性而言,表10-5的結果顯示:年齡及抽菸量都是心
血管疾病的風險因子;他們的勝算比對數估計分別為1.730
及0.401,交互作用的勝算比對數為-0.404;他們檢定統
計量的p值都小於0.03,表示統計上顯著的不為零。
27

分析指出,低年齡層中高抽菸量的人相對於低抽菸
量的人在心血管疾病發生的勝算比為e0.401 = 1.4933;
而在高年齡層中的勝算比則為e0.401−0.404 =
e−0.003 = 0.997。

不同年齡層的人互相比較的話,結果顯示: 高年齡高
抽菸量的人相對於低年齡層低抽菸量的人而言,相
對勝算比為e1.730+0.401−0.404 = e1.727 = 5.6238。男
性勝算比對數的值和表10-3中的值較無差異。
28
CVD_All資料中包含66,489人的臨床檢驗數據、家族、行為數
據、及是否罹患CVD的數據。
1) 請將"壓差=收縮壓減舒張壓"當成應變數,年齡當成自變
數,做線性迴歸分析,並檢定年齡是否為壓差的風險因子?
2) 接續第1題,將性別當成做線性迴歸分析的干擾因子,分析
年齡是否為風險因子?性別是否真的是干擾因子?針對壓差
這個應變數,年齡和性別是否存有交互作用?
3) CVD_All資料中有追蹤時間的紀錄,請使用這個資料及卜瓦
松模型估計CVD的每年發生率為何?
4) 請檢定壓差是否為CVD發生的風險因子?年齡(或性別)是
否為干擾因子?年齡(或性別)和壓差是否存在交互作用?
5) 接續第4個問題,針對性別做分層分析,並比較3和4的結論?
29
The End
35