Transcript 多變項迴歸分析
1 干擾變數 連結函數 粗糙的勝算比 調整後的勝算比 交互作用 分層分析 2 我們研究的主題 (依變數)資料有些是像第七章中 討論的連續型(或稱數值型)資料,有些是像第八 章中討論的二元類別型資料,有些則是像第九章中 討論的計數資料。不同的資料形態導致分析的迴歸 模型及方法都有相當大的差異。 若主題資料是二元類別型資料,用卜瓦松迴歸模型 去分析就會發生嚴重的錯誤。不同迴歸模型的迴歸 係數也各有不同的解釋和代表的意義,分析時要特 別注意。 3 我們在第七-九章中已經介紹了如何利用不同的迴 歸模型探討一個自變數和一個依變數之間的關係, 如何利用迴歸模型做預測。但在醫學資料的分析中 我們很少會遇到僅用一個自變數分析的情形。 重要的原因之一是經常有許多風險因子(自變數) 會同時影響要研究的依變數,單一自變數的分析結 論經常有干擾(confounding)的情形產生。 4 賀爾蒙治療和冠狀動脈性心臟病相關性的研究裡,假設 資料分析的結論是 “賀爾蒙的治療會降低冠狀動脈性心 臟病的發生率,結論在統計上是顯著的”,但發現所研 究的資料中接受賀爾蒙治療的婦女剛好多數是年齡較輕 的人,會不會冠狀動脈性心臟病發生率降低的原因是因 為使用者年齡較低的關係,而不是因為使用賀爾蒙的原 因? 統計上解決這種干擾的處理原則上有二種:從研究方法 上處理或從資料分析上下手。 5 要從研究方法的設計上解決的話,我們在收集資料時, 觀察到一位接受賀爾蒙治療的婦女(可稱為案例)就找 一位年齡(干擾變數)相仿沒接受賀爾蒙治療的婦女 (可稱為對照)同步追蹤觀察冠狀動脈性心臟病發生的 情形 (此設計是以年齡相配(matching) 的設計),接 著用檢定方法(例如McNemar檢定) 處理分析。 若要從分析方法下手的話,則通常要使用多變項迴歸分 析方法,將干擾變數放進迴歸模型中和主要的風險變數 同步分析,這種作法稱為控制干擾因子的作法 (control of confounding),是本章討論的重點。 6 簡單線性迴歸模型應用於常態分配資料y(例如收縮 壓)的分析;“假設”收縮壓的期望值𝜇會受年齡自 變數𝑥1 的影響;它們的關係假設滿足 𝜇 = 𝛽0 + 𝛽1 𝑥。 簡單邏輯斯廻歸模型應用於二項式分配資料y,二項 式分配中的重要參數𝜇 ,代表心血管疾病的發生機 率。 “假設"心血管疾病的勝算比 μ 1 − μ 會受性 別自變數𝑥1 的影響;它們的關係假設是 log /(1 ) 0 1 x。 1 7 簡單卜瓦松迴歸模型則是應用於計數型態資料y, (例如,每年罹患肺癌的人數,等)的分析;卜瓦 松分配中的唯一參數就是𝜃,代表每年罹患肺癌的 平均人數。 “假設”每年肺癌的發生率會受年齡自 變數𝑥1 的影響,以μ表示;它們的關係假設是 log 0 1 x1 。 以上這些迴歸模型都經常在醫學相關的研究中被使 用,它們之所以被稱為簡單迴歸模型的原因是因為 模型中只有一個自變數。 8 𝛽0 、𝛽1 通稱為迴歸係數,雖然它們在不同的迴歸模 型下各別代表不同的意義,但是我們分析的重點經 常圍繞在探討(檢定)𝛽1 =0是否成立? 雖然不同 “依變數”y的資料形態會影響不同迴歸模 型的應用選擇,但是在任何迴歸模型中 “自變數" 𝑥1 資料形態則是不拘的,可以是連續形的資料形態 也可以是類別形的資料形態。 9 本章討論”多變項迴歸模型”要求迴歸模型中至少有二個 以上的自變數,為方便討論假設模型中有二個自變數𝑥1 和𝑥2 。最簡單的多變項迴歸模型假設 𝑓 𝜇 =𝛽0 + 𝛽1 𝑥1 +𝛽2 𝑥2 。 𝑓 𝜇 被稱為連結函數(link function),在線性迴歸模 型下𝑓 𝜇 =𝜇,在邏輯斯廻歸模型下𝑓 𝜇 =log μ 1 − μ , 在卜瓦松迴歸模型下𝑓 𝜇 =log𝜇。 連結函數是用來連結 “平均數𝜇"和自變數的函數使它們 之間的關係成 “線性"。 10 自變數𝑥2 的資料形態也是不拘的,可以是連續形的 資料形態也可以是類別形的資料形態。 1. 在迴歸分析的應用裡,我們可以視問題的屬性 將自變數 𝑥1 和 𝑥2 當成研究中共同的主要因子變數, 或 2. 僅將自變數𝑥1 當成主要因子變數,而自變數𝑥2 當 成前面所說的干擾變數。 11 在探討抽菸(𝑥1 )對心血管疾病的發生機率使是否有 相關的研究中: 若邏輯斯廻歸模型的分析中同步放入“年齡”(此為 可能的干擾變數當作第二個自變數𝑥2 ) ,則可以說 “在任何的年齡層下”,抽菸者罹患心血管疾病的勝算 估計是非抽菸者的𝑒 𝛽1 倍;或說抽菸者罹患心血管疾病 相對非抽菸者罹患心血管疾病的勝算比是𝑒 𝛽1 。 這種勝算比又稱是 調整(年齡)後的勝算比 (age-adjusted odds ratio)。 12 若是邏輯斯廻歸模型中只有一個自變數𝑥1 ,沒有放入干 擾變數𝑥2 的話,估計所得的勝算比稱為未調整 (unadjusted)或粗糙的(crude)勝算比。 若是調整過及未調整的勝算比差別不大的話,則顯示變 數𝑥2 不是干擾變數。在流行病學或醫學的研究裡,性別 及年齡經常被看成是干擾變數,須要被用來 “調整其他 研究主要因子的效應。 以上 “干擾變數"及如何運用廻歸模型作 “調整"的作 法在線性迴歸及卜瓦松迴歸分析中也有相同的運用,我 們就不再贅述。 13 以下我們針對第八章心血管研究的資料分析抽菸量對罹 患心血管疾病的影響。 首先我們使用R-web(www.r-web.com.tw)資料處 理中資料分組模組的功能將數值變數 “年齡"轉換成類 別變數(50歲以下為第0組,以上為第1組), 將抽菸 量也分成二組(1包菸以下為第0組,以上為第1組)。 接著我們使用R-web 中廣義線性模式中邏輯特連結函 數的模組(和邏輯斯迴歸分析模組功能相同但進階選項 功能更多)分析。 14 以點選方式選用路徑: “分析方法 廣義線性模式 邏輯特連結函數 步驟一(資料匯入): 使用個人資料 檔 步驟二(參數設定):選擇依變數:心血管疾病; 自變數:抽菸量開始分析 表10-1. 抽菸對心血管疾病的影響 係數 估計值 標準差 z檢定統計量 p-值II coefficient estimation std. err. z-statistic p-value -2.2873315 0.0140894 -162.3443 < 2e-16 *** 截距項 0.2306469 0.0764061 3.0187 0.00254 ** 抽菸量 抽菸量1包以上的人在罹患心血管疾病的勝算和抽菸量 1包以下的人勝算相比較,粗估為𝑒 0.231 = 1.2599;信 賴區間為𝑒 0.231±1.96×0.076 ,統計檢定的結論是抽菸量是 顯著的風險因子(p值為0.00254)。 15 我們用年齡來調整勝算比的估計,並檢視年齡是否為干擾因子: 以點選方式選用路徑: “ 分析方法 廣義線性模式 邏輯 特連結函數 步驟一 (資料匯入): 使用個人資料檔 步 驟二(參數設定): 選擇依變數: 心血管疾病; 自變數: 抽菸 量,年齡 開始分析“ 表10-2.調整年齡後抽菸量對心血管疾病的影響 係數 估計值 標準差 coefficient estimation std. err. -3.2059414 0.026073 截距項 1.7316398 0.0311022 年齡 0.1379097 0.0690198 抽菸量 z檢定統計量 z-statistic -122.96 55.6758 1.9981179 p-值II p-value <2e-16 *** <2e-16 *** 0.0489 表10-2中的結果顯示:年齡及抽菸量都是心血管疾病的風險 因子;他們的勝算比對數分別為1.732及0.138。 16 調整年齡後的勝算比為𝑒 0.138 和未調整的勝算比 𝑒 0.231 相較,顯示有相當的落差,調整後較低;在 高或低年齡層中,高抽菸量的人相對於低抽菸量的 人在心血管疾病發生的勝算比沒有原先估計的高。 線性迴歸模型及卜瓦松迴歸模型也有類似以上的分 析和討論,我們可以使用R-web廣義線性模式中對 等連結函數(即線性回歸模型)及自然對數連結函 數 (即卜瓦松迴歸模型)的模組來計算。 17 迴歸模型的結果顯示不論在何種年齡層下,抽菸對心血 管疾病的效應是固定,不會隨著年齡層的不同而有差異。 但是這種作法有時和臨床的觀察有時會有相當程度的落 差。 臨床研究經常發現𝑥1 因子對疾病發生的效應會隨著𝑥2 (例如年齡) 值的變化而變化。這時候我們就說因子 𝑥2 的值會修改(modify) 𝑥1 因子影響疾病發生的效應。 處理這種情形,使用前面的迴歸模型就顯得不適當。 18 簡單又經常被使用的迴歸模型是: 𝑓 𝜇 =𝛽0 + 𝛽1 𝑥1 +𝛽2 𝑥2 +𝛽3 𝑥3 。 其中𝑥3 = 𝑥1 × 𝑥2 ,𝛽3 稱為因子𝑥1 及𝑥2 交互作用的係 數。 以邏輯斯廻歸為例:抽菸對心血管疾病的研究,給 定任何𝑥2 (年齡)的情況下, 𝑥1 =1(抽菸量1包(含)以上), log 𝜇1 1−𝜇1 =𝛽0 + 𝛽1 +𝛽2 𝑥2 +𝛽3 𝑥2 。 𝑥1 =0(抽菸量1包以下),log 𝜇0 1−𝜇0 =𝛽0 +𝛽2 𝑥2 。 19 抽菸量1包(含)以上(𝑥1 =1)相對於抽菸量1包以下 (𝑥1 =0)的勝算比是 𝑒 𝛽0+𝛽1+𝛽2𝑥2+𝛽3𝑥2 𝑒 𝛽0+𝛽2𝑥2 =𝑒 𝛽1+𝛽3𝑥2 此值受𝑥2 影響。 使用這種迴歸模型,我們在分析上可以反應𝑥2 “修改 𝑥1 效應”的實務現象。即抽菸量(𝑥1 )和心血管疾病 之相關性和年齡(𝑥2 )有關。稱抽菸量和年齡具交互 作用。 20 探討是否存在抽菸及年齡的交互作用? 以點選方式選用路徑: “分析方法 廣義線性模式邏 輯特連結函數 步驟一 (資料匯入):使用個人資料檔 步驟二(參數設定): 選擇依變數: 心血管疾病;自變 數:抽菸量,年齡;進階選項設定: 交互作用項: 抽菸量× 年齡開始分析",得下列分析結果表: 表10-3. 年齡和抽菸量交互作用對心血管疾病的影響 係數 coefficient 估計值 estimation 截距項 -3.2161479 年齡 1.7462776 0.031686 抽菸量 0.4425181 0.1356783 年齡*抽菸量 標準差 std. err. z檢定統計量 z-statistic 0.0264831 -121.4415 -0.4329225 0.1658689 p-值II p-value < 2e-16 *** 55.112 < 2e-16 *** 3.2615 0.00111 ** -2.61 0.00905 ** 21 表10-3的結果顯示:年齡及抽菸量都是心血管疾病的 風險因子;他們的勝算比對數估計分別為1.746及 0.443,交互作用的勝算比對數為-0.433;他們檢定 統計量的p值都小於0.001,表示統計上顯著的不為零。 分析指出,低年齡層中高抽菸量的人相對於低抽菸量的 人在心血管疾病發生的勝算比為𝑒 0.443 ;而在高年齡層 中的勝算比則為𝑒 0.443−0.433 = 𝑒 0.010 。顯示心血管疾病 發生的勝算在個別的年齡層內相比較(勝算比)有不同 的結果。 22 自變數𝑥2 為干擾因子或有交互作用現象的前題是𝑥2 必須 對疾病的發生而言是風險因子(即對應的迴歸係數顯著 的不為零),但影響疾病發生的風險因子決不會只有一 個。 多變項迴歸分析的模型可以使用一個以上的干擾因子或 交互作用,分析二個因子的交互作(如:抽菸量 × 年齡) 也可以擴大分析三個因子的交互作用(如:抽菸量×年 齡×性別),等等。 三個以上因子的交互作用的解釋相當複雜,醫學的研究 中較少出現,通常替代的方法是使用分層分析。 23 以心血管疾病的研究為例,可將分析的資料分成男女二 層,然後使用表10-3的邏輯斯廻歸模型個別分析層內 資料並下結論。 這種作法的好處是分析模型中不必考慮複雜的交互作用, 但缺點是層內資料會變少檢定力會變低,風險因子有可 能得不到顯著的分析結果。因此,若是某一層的資料明 顯的不足時,分層分析可能就不適合。 以下我們用性別分層,將資料分成男女二層, 分別有 24051及 40438筆資料。 24 以點選方式選用路徑: “分析方法 廣義線性模式邏 輯特連結函數 步驟一 (資料匯入): 使用個人資料檔 步驟二(參數設定): 選擇依變數: 心血管疾病;自變 數: 抽菸量,年齡;進階選項設定: 交互作用項: 抽菸量× 年齡開始分析“ 表10-4. 年齡和抽菸量交互作用對心血管疾病的影響 (女性) 依變數 心血管疾病 係數 估計值 coefficient estimation 標準差 std. err. 華德檢定統計量 p-值 Wald-statistic p-value 截距項 -3.226 0.0325 9869.5993 < 1e-04 年齡 1.7524 0.0394 1981.6483 < 1e-04 抽菸量 0.7246 0.4663 2.4145 0.1202 年齡*抽菸量 -0.5503 0.6558 0.704 0.4014 25 針對女性而言,抽菸量無法顯示是風險因子, 因為 表10-4中 抽菸量 及 年齡×抽菸量 的勝算比對數分 別為0.724及-0.550,但由於分層後女性抽菸的樣 本人數在資料中只有94人,因此標準差估計較大, 導致許多統計檢定均呈不顯著結果(p值各為0.120 及 0.401)。女性勝算比對數的值和表10-3中的值 差異較大。 26 表10-5. 年齡和抽菸量交互作用對心血管疾病的影響 (男性) 依變數 心血管疾病 華德檢定統計量 p-值 Wald-statistic p-value 係數 coefficient 估計值 estimation 標準差 std. err. 截距項 -3.1962 0.0458 4877.7761 < 1e-04 年齡 1.7323 0.0536 1044.5987 < 1e-04 抽菸量 0.4012 0.1462 7.5256 0.0061 年齡*抽菸量 -0.4041 0.1771 5.2101 0.0225 針對男性而言,表10-5的結果顯示:年齡及抽菸量都是心 血管疾病的風險因子;他們的勝算比對數估計分別為1.730 及0.401,交互作用的勝算比對數為-0.404;他們檢定統 計量的p值都小於0.03,表示統計上顯著的不為零。 27 分析指出,低年齡層中高抽菸量的人相對於低抽菸 量的人在心血管疾病發生的勝算比為e0.401 = 1.4933; 而在高年齡層中的勝算比則為e0.401−0.404 = e−0.003 = 0.997。 不同年齡層的人互相比較的話,結果顯示: 高年齡高 抽菸量的人相對於低年齡層低抽菸量的人而言,相 對勝算比為e1.730+0.401−0.404 = e1.727 = 5.6238。男 性勝算比對數的值和表10-3中的值較無差異。 28 CVD_All資料中包含66,489人的臨床檢驗數據、家族、行為數 據、及是否罹患CVD的數據。 1) 請將"壓差=收縮壓減舒張壓"當成應變數,年齡當成自變 數,做線性迴歸分析,並檢定年齡是否為壓差的風險因子? 2) 接續第1題,將性別當成做線性迴歸分析的干擾因子,分析 年齡是否為風險因子?性別是否真的是干擾因子?針對壓差 這個應變數,年齡和性別是否存有交互作用? 3) CVD_All資料中有追蹤時間的紀錄,請使用這個資料及卜瓦 松模型估計CVD的每年發生率為何? 4) 請檢定壓差是否為CVD發生的風險因子?年齡(或性別)是 否為干擾因子?年齡(或性別)和壓差是否存在交互作用? 5) 接續第4個問題,針對性別做分層分析,並比較3和4的結論? 29 The End 35