Transcript 卜瓦松迴歸模型
1
卜瓦松迴歸模型(Poisson regression model)
補償項(offset)
人-年(person-year)
發生率(incidence rate)
發生率比值(incidence rate ratio, IRR)
2
在醫學、公共衛生及流行病學研究領域中,除了常
用羅吉斯(logistic regression)及線性迴歸
(linear regression)模型外,卜瓦松迴歸模型也
常應用在各類計數型態資料(count data)的模型
建立上。
例如:估計疾病死亡率或發生率、細菌或病毒的菌
落數及了解與其他相關危險因子之間的關係等,然
而這些模型都是廣義線性模型(generalized
linear models)的特例。
本文章介紹如何使用卜瓦松迴歸模型來建立危險因
子與疾病發生率的關係。
3
表9-1. 澳大利亞觀測於1983年一月至1986年六月每三個月死於愛滋病人數
死亡人數
週期
0 1
1 2
2
3
3
4
1
5
4
6
9 18 23 31 20 25 37 45
7 8 9 10 11 12 13 14
4
研究目的想探討因愛滋病死亡人數是否逐年增加,
相較於母體為整個澳洲而言,死於愛滋病人數為罕
見事件,我們以卜瓦松迴歸模型來分析這樣的計數
資料。
因此第i週期愛滋病死亡人數 Yi (i = 1, ⋯ , 14)的機
率分配是卜瓦松分配,其發生機率為
μi yi exp(−μi )
P(Yi = yi ) =
, yi = 0,1,2, …
yi !
其中時間周期內的平均發生次數為參數 μi > 0。
5
現在我們加入風險因子xi (例如周期) 探討其影響平
均發生次數之間的關係,由於死於愛滋病人數隨著周
期呈現 “指數” 遞增的現象,因此平均發生次數的參
數 μi 在對數轉換後經常用線性函數來描述與風險因
子之間的關係:
log μi = β0 + β1 xi ,
這就是卜瓦松迴歸模型。
6
和簡單線性迴歸模型及羅吉斯迴歸模型相似,卜瓦
松迴歸模型中的風險因子xi ,可以是連續型的變項,
也可以是類別型的變項。
假設x=1 表示曝露於風險,x=0 表示不曝露,卜瓦
松迴歸模型顯示曝露相對於基準(非曝露)的發生率比
值(incidence rate ratio, IRR) 為
μ(x = 1 )/μ(x = 0 ) = exp(β1 )。
檢定曝露是否有風險的虛無假設可以寫成 𝐻0 : 𝛽1 = 0 。
7
愛滋病死亡人數的案例資料是每三個月因病死亡人
數的資料,觀察周期的時間長度是相同的,但很多
應用問題中觀察周期的時間長度不一定相同。
根據卜瓦松分佈的特性,平均發生次數與時間成正
比,如果觀察死亡人數的周期的時間長度t i 不同,
則模型應該調整為:
log
μi
ti
= β0 + β1 xi ,
卜瓦松迴歸模型如下:
log μi = log t i + β0 + β1 xi 。
8
通常我們稱log(ti)為補償值(offset),當每筆
資料的觀測時間不同時,且我們想探討的是每筆資
料觀測時間內平均發生次數時,必須使用平移調整
項log(ti)來做調整。滋病死亡人數的案例因觀測
周期相同,可以不用使用平移調整項。
調整項(補償項)的使用與否,僅會造成截距項估計
的改變,不會影響斜率項參數的估計。
9
由下圖可看出發生次數與周期皆取對數轉換後會呈
線性關係,所以我們考慮用以下的簡單卜瓦松迴歸
模型來探討愛滋病死亡人數與周期的關係:
log μi = β0 + β1 log(x𝑖 ) 。
log (死亡人數)
log(週期)
10
以此例顯示時間與愛滋病死亡人數有顯著相關,每
增加一個log(周期),愛滋病平均死亡人數增加
8.80倍。
表9.2(下表)為愛滋病死亡人數與時間的簡單卜瓦
松迴歸模型結果,截距及斜率項檢定皆是顯著。
截距(β0 )
時間(β1 )
估計值
-1.9442
2.1748
標準誤
0.5116
0.2150
p值
0.00015
<0.0001
模型中斜率係數代表的意義為當自變數增加一單位
時,平均死亡人數的對數值為增加β1 個單位,或平
均死亡人數增加eβ1 倍。
11
分析方法使用自然對數(ln)連結函數的廣義線
性模式資料匯入設定參數:點選使用卜瓦松分
配假設的對數線性模式分析,選擇資料型態及要進
行分析的變數 進階選項(設定設定補償值
(offset))開始分析分析結果
12
研究目的是想探討不同的年齡層是否會影響肺癌的
發生率。
研究中調查四個城市在六個年齡層的新發肺癌案例,
資料包含每個城市中各年齡層的居民人數,通常我
們稱此為各年齡分群中涉險(risk exposure)人
數(有時候用觀察的人-年表示,人-年代表的意義
和時間長度的意義相同,人-年越大卜瓦松的平均
發生次數越大,要做調整)。
13
資料整理後共24筆如右表所列:
利用卜瓦松迴歸模型可建立年
齡與肺癌發生率的關係如下:
log
𝜇𝑖
𝐿𝑖
= 𝛽0 + β1 xi 。
模型中Li為第i個資料中觀察的
人-年資料。
城市
Fredericia
Horsens
Kolding
Vejle
Fredericia
Horsens
Kolding
Vejle
Fredericia
Horsens
Kolding
Vejle
Fredericia
Horsens
Kolding
Vejle
Fredericia
Horsens
Kolding
Vejle
Fredericia
Horsens
Kolding
Vejle
年齡層
40-54
40-54
40-54
40-54
55-59
55-59
55-59
55-59
60-64
60-64
60-64
60-64
65-69
65-69
65-69
65-69
70-74
70-74
70-74
70-74
≧75
≧75
≧75
≧75
居民數
3059
2879
3142
2520
800
1083
1050
878
710
923
895
839
581
834
702
631
509
634
535
539
605
782
659
619
案例數
11
13
4
5
11
6
8
7
11
15
7
10
10
10
11
14
11
12
9
8
10
2
12
7
14
step-wise linear function示意圖
模型中,線性函數 β1 xi 改以“階梯型式”的線
性函數(step-wise linear function) 定義:
𝛽1,1 𝐼 55−59 𝑖 + 𝛽1,2 𝐼 60−64 𝑖 + 𝛽1,3 𝐼 65−69 𝑖 + 𝛽1,4 𝐼 70−74 𝑖 +𝛽1,5 𝐼 75+ 𝑖
應用此種模型的優點在於使用者可以了解每個年齡層下疾病發生
的 IRR,模型較具彈性,這也是實務上常使用這種模型的原因。
若是一眛的使用不合適的線性函數模型,我們有時會發現分析及
結論有錯誤。
若第i筆的年齡層在55-59歲範圍內,則𝐼 55−59 𝑖 值取為 1;若第i筆
的年齡層不在55-59歲範圍內,則𝐼 55−59 𝑖 值取為0。 (𝐼 55−59 是指
標變數(Indicator variable)) 。
此卜瓦松迴歸模型係以40-54歲年齡層為基準(baseline)。
15
表9.4為丹麥肺癌資料肺癌發生率與年齡的簡單卜
瓦松迴歸模型結果,當顯著水準為0.05時,雙尾檢
定結果顯示肺癌發生率與年齡有顯著的相關。
參數
估計值
標準誤
z-值
95%信賴區間
p值
截距(β0 )
-7.2485
0.1741
-41.640
(-7.6103, -6.9257)
<0.0001
年齡55-59
(β11 )
1.0823
0.2481
4.363
(0.5930, 1.5704)
<0.0001
年齡60-64
(β12 )
1.5017
0.2314
6.489
(1.0507, 1.9618)
<0.0001
年齡65-69
(β13 )
1.7503
0.2292
7.637
(1.3044, 2.2066)
<0.0001
1.8472
0.2352
7.855
(1.3877, 2.3136)
<0.0001
1.4083
0.2501
5.630
(0.9143, 1.9000)
<0.0001
年齡70-74
(β14 )
年齡75+
(β15 )
雖然發生風險隨年齡層遞增,除了
75歲以上這個族群,再次顯示年
齡視為指標變數的優點。
16
卜瓦松迴歸模型表示
基準40-54歲年齡層的每人-年(每人每年)肺癌發生率估
計為 exp(β0 ) = exp −7.2485 = 0.0007。
第i個年齡層每人-年肺癌發生率估計為 exp(β0 + 𝛽1,𝑖 ),
55-59、60-64、65-69、70-74和75歲以上各年齡層
的每人-年發生率估計分別為0.0021、0.0032、0.0041、
0.0045和0.0029。
17
其他年齡層相較於基準(40-54歲)年齡層的肺癌發
生率比值𝐼𝑅𝑅為
exp 𝛽0 + 𝛽1,𝑖 1
exp 𝛽0 + 𝛽1,𝑖 0
= exp β1,𝑖 。
55-59、60-64、65-69、70-74和75歲以上各
年齡層相較於基準40-54歲年齡層的每人-年發生
率比值估計分別為2.9515、4.4893、5.7563、
6.3420和4.0890。
可知年齡層對於肺癌的發生率皆有顯著影響,而且
除了75歲以上年齡層外,相對發生率比值有隨著年
齡增加而遞增的傾向。
18
分析方法使用自然對數(ln)連結函數的廣義線
性模式資料匯入設定參數:點選使用卜瓦松迴
歸,選擇資料型態及要進行分析的變數 進階選項
(設定設定補償值(offset))開始分析分析
結果
19
1.為評估退役軍人是否曾在作戰區域服役與得癌症之間是否
有關,澳洲國家衛生研究院於1992發表一份關於退伍軍人
長期追蹤的資料,資料如下:
年齡
-24
25-29
30-34
35-39
40-40
45-49
50-54
55-59
60-64
65-69
70合計
作戰區
罹癌人數
6
21
54
118
97
58
56
54
34
9
2
509
人-年
60,840
157,175
176,134
186,514
135,475
42,620
25,001
13,710
6,163
1,575
273
805,480
非作戰區
人-年
罹癌人數
18
208,487
60
303,832
122
325,421
191
312,242
108
165,597
74
54,396
88
40,716
120
33,801
141
26,618
108
17,404
99
14,146
1129
1,502,660
20
1.
以年齡層中位數為橫軸,即(24, 27, 32, 37, 42, 47, 52,
57, 62, 67, 70),每人-年癌症發生率為縱軸,將上表資料
點在座標上並以不同線分別表示作戰區與非作戰區退役軍人
的癌症發生率。
2.
請以卜瓦松迴歸模型分別分析在作戰區與非作戰區退役軍人,
年齡與罹癌率是否有相關,在此以年齡為解釋變數並假設年
齡為連續變數,以年齡層中位數為值(如上題),試問在顯
著水準α=0.05之下,年齡與罹癌率關係為何?請陳述兩者關
係及解釋模型中係數的意義。
3.
請解釋上題分析是否需要補償值(offset),其調整目的為何?
4.
請討論在第(2)題中的模型是否適合?是否需要考慮針對年齡解
釋變數取對數轉換或二次曲線的迴歸模型? 試問在顯著水準
α=0.05之下,重新配適模型後,年齡與罹癌率關係為何?請
陳述兩者關係及解釋模型中係數的意義。
5.
請討論在卜瓦松迴歸模型中,作戰區與非作戰區退役軍人其
年齡與罹癌率的關係分別為何?
21
The End
35