Transcript 相關和迴歸分析(二)
1 相對風險比 勝算比 邏輯斯迴歸模型 2 "…2005年3月新英格蘭雜誌上發表了一篇為期3年 (開始於2000年),多中心隨機雙盲,及對照控制 的APPOVe(Adenomatous Polyp Prevention on VIOXX)臨床試驗,共收錄2,586位患者分別服用 Vioxx 25mg及安慰劑(placebo)。此試驗顯示,有 大腸直腸腺瘤病史的患者服用Vioxx 18個月療程的 治療與使用安慰劑相較,有增加心臟病及中風等危險 性,其實驗組 (服用Vioxx 18個月的一組)相對於照 組(使用安慰劑的一組) 的相對風險(relative risk, RR)是1.92…” (周正修,周稚傑,羅慶徽,2007) 3 主要結論是: 服用Vioxx的病人得到心臟病及中風 等的風險是未服用藥的人的1.92倍,亦可解讀在大 腸直腸腺瘤病人中服用Vioxx會和是否獲得心臟病 及中風等有關。 兩者否有相關可以從第六章介紹的兩個類別變項的 獨立性檢定的結果中得到結論,但檢定方法無法估 計確切的相關大小。 前面一章我們已經介紹了幾種衡量兩個連續變數相 關大小的方法,本章我們則介紹幾種衡量兩個類別 變數相關大小的方法。 4 針對疾病或事件發生的研究,我們常用罹病(事件發生) 的機率來表示風險(risk)。 一個族群曝露在風險中致病機率為𝑝1 ,另一未曝露的族 群風險為𝑝2 (前瞻式世代研究方法),欲比較曝露和無曝 露兩個族群的差異時,最簡單的方法即是使用兩個風險 的比例(𝑝1 /𝑝2 或𝑝2 /𝑝1 ),這個比率值稱為相對風險 (relative risk, RR)。(如下表) 5 RR值大於1(即ln RR >0) 表示曝露產生疾病的風險 比不曝露較大,小於1 ( ln RR < 0) 則相反,等於 1(ln RR = 0)表示曝露與否和疾病的發生不相關。 若收集到的資料匯整成表8-2的次數統計表時,有 無曝露風險兩組人的風險估計值分別為a/(a+b) 與c/(c+d),因此,相對風險估計值為 𝑅𝑅 = a/(a+b) c/(c+d) 。 6 當樣本夠大時,相對風險對數值ln 𝑅𝑅 的抽樣分配 會近似於常態分佈,其變異數估計值為 σ2𝑅𝑅 1 𝑎 = − 1 𝑎+𝑏 1 + 𝑐 − 1 。 𝑐+𝑑 相對風險對數值ln(RR)的100 1 − α %信賴區間為 ln 𝑅𝑅 ± zα 𝜎𝑅𝑅 。 相對風險RR的的100 1 − α %信賴區間為 𝑅𝑅 × exp(±zα 𝜎𝑅𝑅 )。 7 男女得心血管疾病的風險分別為:Risk 男 = Risk 女 = 3612 40438 = 0.0998; = 0.0893。 0.0998 0.0893 相對風險為: 𝑅𝑅男/女 = 相對風險的95%信賴區間為 1 1.1176 × 2399 24051 1 1 = 1.1176。 1 ±1.96× 2399−24051+3612−40438 e = 1.0635, 1.1732 。 8 在統計假設檢定中,兩組人風險沒有差異或風險因子與 事件是不相關的虛無假設為H0 : 𝑅𝑅 = 1 (或 H0 ∶ ln 𝑅𝑅 = 0 )。當虛無假設為真時,可以利用檢定統計量z = 及標準常態分配Z表求得雙尾檢定的P值 (p = 2 × P Z> z 。 ln 𝑅𝑅 𝜎𝑅𝑅 使用p值法時,檢定統計量為 z= σRR ln 1.1176 1 1 1 1 − + − 2399 24051 3612 40438 = 4.4389。 雙尾檢定p值為<0.0001,顯著水準設定為0.05時,拒 絶虛無假設,男性得到心血管疾病為女性的1.1176倍。 9 另一個常用來衡量風險的指標為勝算(Odds),勝算 定義為發生事件機率與不發生事件機率的比值。 以表8-2為例,兩組人的勝算分別為𝑝1 /(1 − 𝑝1 )及 𝑝2 /(1 − 𝑝2 ),此二比例的比值稱為勝算比(OR, odds ratio) 𝑝1 /(1 − 𝑝1 ) 𝑂𝑅 = 。 𝑝2 /(1 − 𝑝2 ) OR值大於1(即ln OR >0) 表示曝露產生疾病的風險比 無曝露較大,小於1 ( ln OR < 0) 則相反,等於1(ln OR = 0)表示曝露與否和疾病的發生不相關。 10 兩組人勝算的估計值分別為a/b、c/d,勝算比估計值 為 𝑂𝑅 = 𝑎/𝑏 𝑐/𝑑 = ad 。 bc 當樣本夠大時,ln(𝑂𝑅)的抽樣分配也會近似於常態分配, 且其變異數估計為σ2OR 1 𝑎 1 𝑏 = + + 1 1 + 。 𝑐 𝑑 ln(𝑂𝑅)的100 1 − α % 信賴區間為ln 𝑂𝑅 ± zα × 𝜎𝑂𝑅 或 𝑂𝑅的100 1 − α %信賴區間為𝑂𝑅 × exp(±zα 𝜎𝑂𝑅 )。 11 男女兩組人的心血管疾病勝算分別為: 𝑂𝑑𝑑𝑠男 = 0.1108; 𝑂𝑑𝑑𝑠女 = 3612 36826 男女勝算比估計值為: 𝑂𝑅男/女 = 勝算比的95%信賴區間為 1.1296 × 1 = = 0.0981。 1 2399 21652 1 0.1108 0.0981 = 1.1296。 1 ±1.96× 2399+21652+3612+36826 e = 1.0987, 1.1613 。 12 假設檢定分析中,虛無假設通常設定為兩組人勝算是沒有 差異的,即勝算比為1H0 : 𝑂𝑅 = 1 或 ln 𝑂𝑅 = 0 ,此時可 用檢定統計量z = ln 𝑂𝑅 𝜎𝑂𝑅 及標準常態分配,利用信賴區間法 或p值法判斷兩組人疾病風險上是否有差異。 使用p值法時,檢定統計量為 z= σOR ln 1.1296 1 1 1 1 + + + 2399 21652 3612 36826 = 4.4001。 雙尾檢定p值為<0.0001,顯著水準設定為0.05時,拒絶虛 無假設,結論為性別與心血管疾病有顯著相關,男生的勝算 為女生的1.1296倍,男生的風險會比女性高。 13 我們分析的指標經常是勝算比並非勝算,而應用貝氏定理 後勝算比又可寫成 𝑂𝑅 = 𝑞1 /(1−𝑞1 ) 。 𝑞2 /(1−𝑞2 ) 式中的𝑞1 (𝑞2 )是病人(非病人)中暴露於風險的比率。應用這個 公式去估計勝算比時,我們的研究也可以設計成去觀察病人 與非病人中分別有多少人曝露於風險中? 這種研究方法又稱 為回顧式研究方法。 無論是前瞻式世代研究的設計或回顧式的研究設計, 都可以用來分析勝算比。是勝算比較常被使用的原 因。 14 實際資料分析時經常會發現相對風險與勝算比的估 計值很相似,因為疾病事件發生的機率很小時,表 8-3中的a與c值會甚小於b和d,使得a+b和c+d可 近似為b和d,以致於相對風險與勝算比估計值很相 近,會得到相似的結果。 15 類別變項的分析方式也可以應用迴歸模型來分析, 我們可以把要研究的事件變數(Y,例如心血管疾 病是否發生,0:未發生,1:發生)當成依變數; 風險因子(X,例如性別,0:女性,1:男性)為 自變數。 此時依變數是一個二元(binary)型態的類別資料, 不適合使用簡單線性迴歸模型式將兩者的關係建立 起來。因簡單線性迴歸模型中依變數資料是連續型 的資料,但類別型的依變數其值僅為0或1。 16 給定風險變數𝑋為 𝑥的前題下,首先考量事件發生 的勝算 P Y=1|X=x 1−P Y=1|X=x ,並假設勝算的對數和風險變 數值 𝑥間成線性關係: P Y = 1|X = x ln = 𝛽0 + 𝛽1 𝑥, 1 − P Y = 1|X = x 這就是簡單邏輯斯迴歸模型。 以性別為自變數為例,簡單邏輯斯迴歸模型成立下, 男性(X = 1)和女性(X = 0)發生心血管疾病的 勝算分別為e𝛽0 +𝛽1 、e𝛽0 ,兩者的勝算比為e𝛽1 。 17 簡單邏輯斯迴歸模型中的係數β1 即為 “男性相對於 女性” 在發生心血管疾病上勝算比的 “對數值”。 β1 > 0 (< 0)時,表示男性在發生心血管疾病方面 有較高(低)的風險, β1 = 0 表示性別不是心血管疾 病發生的風險因子。 簡單迴歸係數邏輯斯迴歸模型中的係數𝛽0 及β1 可以 藉由估計方法(一般使用最大概似估計法)求得。 檢定自變數與依變數不相關的虛無假設為H0 : β1 = 0。 18 點選分析方法迴歸模式簡單邏輯斯迴歸分析 步驟一(資料匯入):使用者個人資料檔步驟二 (參數設定):選擇依變數為心血管疾病與自變數 為性別開始分析。 表8-4為簡單邏輯斯迴歸分析的結果。性別的迴歸 係數與前面計算的勝算比對數值相等,但信賴區間 不同,主要是因為兩者使用計算方式不同,當樣本 夠大時二者便會趨近於相同。 19 在顯著水準設定為0.05時,信賴區間法(信賴區間 不包含虛無假設值)和p值法(p<0.05)都顯示拒 絶虛無假設,結論均為: 性別與心血管疾病的發生 在統計上有顯著的相關,男性發生心血管疾病的勝 算是女性的1.1296(=e0.1219 )倍。 20 簡單邏輯斯迴歸模型中的自變數可以為類別型變數 也可以是連續型變數,當是連續型變數時,係數β1 代表的意義為當自變數值增加 “一個單位” 時,勝算 比的對數值增加β1 個單位,或勝算比增加eβ1 倍。 以心血管資料為例,若自變數X為年齡時,得到表 8-5結果。 21 顯示年齡與心血管疾病的發生有顯著的正相關,每增加一 歲,心血管疾病發生的勝算即增加1.0741倍。 華德 係數 估計值 標準差 檢定統計量 Waldcoefficient estimation std. err. statistic 參數的 95% 信賴區間 95% C.I. for estimations p值II p-value 下界 上界 lower upper 截距項 -6.0128 0.0637 8913.4411 < 1e-04 *** -6.1383 -5.8886 年齡 0.0715 0.0011 4345.4784 <1e-04 *** 0.0693 0.0736 22 一個問題經常有數種分析方法可以解決,例如列聯 表分析(卡方檢定)可以解決的問題通常也可以用 簡單或更複雜的邏輯斯迴歸分析解決。 只是當拒絶虛無假設時,列聯表的卡方檢定無法明 確說明風險與疾病發生相關的程度如何,但是邏輯 斯迴歸分析可以回答這個問題。 邏輯斯迴歸模型也可以處理連續型的自變數,列聯 表分析則無法。 23 當列聯表的資料中有些格子發生的次數較少產生資 料不平衡現象時,邏輯斯迴歸分析的檢定力通常比 列聯表分析的檢定力要高。 只是邏輯斯迴歸分析要特別注意迴歸模型的假設是 否正確,不正確的模型假設會導致分析結果的錯誤。 24 1. 2. 3. 4. 周正修;周稚傑;羅慶徽。非類固醇抗發炎藥劑及心臟 血管事件的相關性。基層醫學 2007 ; 22:147-52 Marcello Pagano, Kimberlee Gauvreau. (2000) Principle of Biostatistics, 2nd Edition, Cengage Learning. Beth Dawson, Robert G. Trapp. (2004) Basic & Clinical Biostatistics, 4/E, McGraw Hill Professional. Steven A. Julious and Mark A. Mullee. (1994) Confounding and Simpson's paradox. BMJ 309 (6967): 1480–1481. 25 1.下表為一探討心血管疾病與飲酒關係之研究,請問飲酒得 心升管疾病與不飲酒得心血管疾病的相對風險為何?當顯著 水準設定為0.05時,試利用檢定方法探討飲酒習慣是否與 心血疾病的風險有關,其p值為何?兩者是否有顯著的相關? 飲酒習慣 心血管疾病 有 無 合計 有 12 188 200 無 16 784 800 合計 28 972 1000 26 2. 承上題,請問飲酒習慣得到心血管疾病相對於沒有飲酒 習慣的勝算比為何?勝算比的95%信賴區間為何?當顯著水 準為0.05時,心血管疾病是否與飲酒有顯著的相關? 3. 試利用肺癌資料分析回答以下問題 (1)利用簡單邏輯斯迴歸分析復發情形與性別的關係,請問 男女復發的勝算比各為何?95%信賴區間為何?若顯著水準 為0.05,復發與性別是否有顯著的關係? (2)利用簡單邏輯斯迴歸分析復發情形與年齡的關係,若顯 著水準為0.05,復發與年齡是否有顯著的關係? 27 The End 35