第十八章 迴歸分析

Download Report

Transcript 第十八章 迴歸分析

第十八章 迴歸分析
一般線性迴歸模型 (GLM)
資料: (yi , x i1 , ……, x ip )
模式:
i=1,….,n
Yi = β0+ β1X i1 +…….+ βpX ip+ εi,
其中
Yi
β0
β1, …, βp
Xij
εij
i=1,….,n
為依變數 (dependent var.)
為截距 (intercept)
為係數
為預測變數 (independent var.)
為隨機誤差項 (error)
註解 :
線性迴歸模型意指其對參數為線性的方程式,有 p 個預測變數 ,
可為數量或質性變數 。
E(Y) = β0+ β1X 1 +…….+ βp X p
估計式:Y= b0+ b1X 1 +…….+ bp X p
特殊模式
 兩個自變數的一階模式; 如: E(Y) =β0+β1X1+β2 X2
若 X1 對平均反應的效應和X2 無關, 而 X2 對平均反應的效應和 X1
無關, 則稱此兩自變數無交互作用 (no interaction),
即自變數對反應變數的效應是可加的 , 或無交互作用的。
迴歸係數的意義
參數β1:經過 X2 調整,平均反應(Y)隨 X1 之每一單位增加而改變的量。
參數β2:經過 X1 調整,平均反應(Y)隨 X2 之每一單位增加而改變的量。
兩個自變數含交互作用項的一階模式;
如: E(Y) =β0+β1X1+β2 X2 + β3X 1 X2
二次完全迴歸式;
如: E(Y)=β0+β1X1+ β2 X12 +β3 X2 + β4 X22 + β5X 1 X2
E(Y)為一曲面, 稱為 regression surface 或 response surface
 多項式迴歸式; 如: E(Y) =β0+β1X1+ β2 X12
 轉換變數迴歸式; 如: E(log(Y)) =β0+β1X1+β2 X2
E(Y) =β0+ β1 log(X1) + β2 X22
變異數分析表
變異來源
SS
df
MS
迴 歸
SSR
p
MSR
誤 差
SSE
n-p-1
MSE
合 計
SSTO
n-1
F
F*=MSR / MSE
註: F* 值用於檢定 Y 與 X 諸變數是否有迴歸關聯
H
0
: 1  1  ...  
H
1
: 0
0
for some i
p >α, 則結論為迴歸式不顯著。
p <α, 則結論為迴歸式顯著。
p-value
p
決定係數 (coef. of
R
2

SS
 1
SS
determination, R2)
SS
SS
說明 : 1. R2表示 Y 之總變異中由 X1,…,Xp 解釋的比例
2. 0≦R2≦1
3. R2 值的大小通常代表迴歸式解釋程度的多少。
評論 :
1. 增加 X 變數個數 , 一定使 R2 值增加 。
2. 高的 R2 值並不一定表示配套的模式適合 。
3. 有些學者建議以 X 變數個數調整後的校正判定係數( Ra2) 為比
較標準 。
R
2
 1
S S E /( n  p  1 )
S S T O /( n  1)
預測變數相關性的影響:
 由簡單相關係數矩陣可以看出變數間相關性之強度。
 由檢定 H0 : ρ= 0 vs. Ha : ρ ≠0 決定變數間是否相關;
若 p-值 < α,結論為顯著相關。
 兩預測變數的簡單相關係數相當大時,則其迴歸結果有共
線性的現象存在,此時迴歸式的不準度性很高,應做修正。
(p483)
見例18.3b
相關係數與決定係數:
• 相關係數量測兩變數間單純的相關性強度。
• 決定係數量測一變數與其他多個變數間的相關性強度。
• 在一個自變數問題上,決定係數是相關係數的平方值。
係數之顯著性與區間估計:
檢定第 i自變數(Xi)對依變數 (Y) 影響之顯著性:
H0 : βi = 0
Ha : βi ≠0
由 t-test 得到 p-值,若 p-值 < α,結論為經由其它變數
的調整後,Xi 對 Y 影響顯著。
係數之區間估計:
βi 估計範圍在 bi ± tα/2;n-p-1 SE{bi}
【例 18.3b】 研究某林區樹木之年齡(X1),株高(X2),以及單位面積上
株數(X3) 對樹木直徑(Y)的影響。
Data : p481
SPSS_相關性:分析 → 相關 → 雙變數
選擇 Pearson相關係數
SPSS_迴歸:分析 → 迴歸方法 → 線性
指定 依變數
自變數
SAS_相關性: Analysis → Descriptive → Correlation
Columns:指定 Correlations variables
Correlation: ˇ Pearson
SAS_迴歸: Analysis → Regression → Linear
Columns:指定 Dependent variables
Explanatory variables
變數間相關性
Pearson Correlation Coefficients, N = 15
Prob > |r| under H0: Rho=0
age
high
treeno
diam;
age
age
1.00000
0.90793
<.0001
0.12458
0.6582
0.58814
0.0211
high
high
0.90793
<.0001
1.00000
0.17777
0.5262
0.76367
0.0009
treeno
treeno
0.12458
0.6582
0.17777
0.5262
1.00000
0.00347
0.9902
diam;
diam;
0.58814
0.0211
0.76367
0.0009
0.00347
0.9902
1.00000
age, high 對 diam的影響較強;treeno 與 diam相關性不顯著,
age與 high 相關性很強,可能有共線性影響 。
考慮三個自變數的迴歸分析
Parameter Estimates
Variable
Label
D
F
Intercept
Intercept
1
4.33469
0.814
5.32
0.0002
age
age
1
-0.13272
0.0869
-1.53
0.1549
high
high
1
0.09306
0.0284
3.27
0.0074
treeno
1
-0.000837
0.000919
-0.91
0.3820
treeno
high 的部分貢獻顯著
Parameter
Estimate
Standard
Error t Value Pr > |t|
age 與treeno 的部分貢獻不顯著
考慮 age,high 自變數的迴歸分析
Parameter Estimates
Variable
Intercept
age
high
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
Intercept
1
3.82668
0.58865
6.50
<.0001
age
1
-0.12565
0.08594
-1.46
0.1694
high
1
0.08903
0.02789
3.19
0.0078
Label
high 的部分貢獻顯著
age 的部分貢獻不顯著
high 對 Diam 的迴歸分析
Root MSE
0.42695
R-Square
0.5889
Parameter Estimates
Variable
Label
Intercept
high
Intercept
株高
DF
Parameter
Estimate
Standard
Error
t Value
Pr > |t|
1
1
3.59373
0.05350
0.60940
0.01240
5.90
4.32
<.0001
0.0008
最終迴歸式:
直徑 = 3.59 + .0535 (株高) ,R2 = 0.589
(.0124)
每增高一單位,直徑平均增加0.0535單位。括號內為標準誤。
註:可由 Model selection method 中的 Stepwise 法選擇自變數,此例由
stepwise 法將得到相同結果。
模式是否適當 ?
以考慮的模式做預測之前 , 應先檢查模式對資料的適當性,在迴歸
上稱為診斷 (Diagnostics) ;診斷方法分為殘差圖分析及殘差檢定。
殘差 (residual)
ei  Yi  Yˆi ,
殘差 , ei ,可視為觀測的誤差 , 用於估計真實誤差 , εi = Yi - E{Yi}
若模式適合 ,則殘差應反映出 εi 的特性.
t 化殘差 以 MSE 估計 ei 的標準差,
將 ei 標準化得到的值。
e 
*
i
ei
MSE
殘差的特性 :
1. 殘差的平均數 = 0。
2. 殘差的樣本變異數定義為 MSE,是 σ2 的不偏估計量。
3. ei* 應介於 -3 與 3 之間。
例18.3b 之殘差圖
(Forest Study – p481)
迴歸的模式配適性的檢定 ----- Lack-of-Fit F Test
判斷X與Y的關係式是直線或非直線。
檢定前提一:對一或多個 X 水準有重複觀測值 (replicates)
X
x1
Y
y11
x2
….
….
xc
….
y1k
檢定前提二:
對觀測值 Y 的假設:1、獨立,2、服從常態分佈,
3、有相同變異數。
• H0:Yi =β0 + β1Xi + εi
(呈直線關係)
H.1:Yi ≠β0 + β1Xi + εi (未呈直線關係)
ANOVA 表
變因
迴歸
誤差
欠合
純誤差
總 計
平方和 自由度
SSR
1
SSE
n-2
SSLF c-2
SSPE n-c
SSTO
註 : SSE = SSLF + SSPE,
均方
MSR
MSE
MSLF
MSPE
F
p-value
p1
F*
p2
SSTO = SSR + SSE
使用 SAS 軟體執行欠合性檢定:
在data內增加一分組序號的變數 lof = 1 2 3 …..
Type I lof 的檢定即是缺失性的檢定,若檢定
結果是直線模式適合,可以迴歸得到估計的直線。
Lack-of-Fit
Data for
SAS
age
bp
lof
20
102
1
20
110
1
20
108
1
30
120
2
30
115
2
30
118
2
30
112
2
40
126
3
40
119
3
40
120
3
50
135
4
50
130
4
50
136
4
50
128
4
60
150
5
60
146
5
60
148
5
60
138
5
60
140
5
70
160
6
70
155
6
70
159
6
70
150
6
【Exp 18.6.b】研究年齡與血壓之關係 (p428)
Sum of
Squares
Mean Square F Value Pr > F
6305.705797 1261.141159 68.27 <.0001
314.033333 18.472549
Source
Model
Error
DF
5
17
Source
age
lof
DF Type I SS Mean Square
1 6228.709640 6228.709640
4
76.996157
19.249039
Root MSE
4.31514 R-Square
F Value
337.19
1.04
Pr > F
<.0001
0.4146
0.9409
Parameter Estimates
Variable
DF
Parameter
Estimate
Intercept
age
1
1
85.50938
0.97989
Standard
Error
t Value
Pr > |t|
2.67183
0.05358
32.00
18.29
<.0001
<.0001
ANOVA 表
變因
迴歸
誤差
欠合
純誤差
總計
平方和
6229
391
77
314
6620
自由度
1
21
4
17
均方
6228
18.6
19.25
18.47
F
335
1.04
p-值
<.0001
0.4146
由 Lack-of-fit test 得到 F = 1.04,p-value = .4146 > 0.05,
結論為在α=.05 下,直線模式適合。
由迴歸得: 血壓 = 85.5 + 0.98 (年齡),R2 = 0.94,
(.0536)
年齡增加一歲,估計血壓增加 0.98。
邏輯迴歸模式(Logistic Regression model)
--- 以影響變因預估某狀況發生之機率 ( p487)
特性:依變數(Y) 為二分類的反應數,以 1及 0 代表。
假設 z  ln ( odds )  β0  β1X,
odds  勝算 
Model:
Yi = E{Yi} + εi
E{Yi }  pi 
exp (  0  1 X i )
1 exp (  0  1 X i )
,
i  1,...., n
此 Model 稱為 logistic regression model
prob(y1)
prob(y0)
可由最大概似估計法估計β0 及β1,迴歸式之圖可能如下。
exp ( z )
ˆ
發生率 p  1exp ( z )  1exp1 (-z) , z  ˆ0  ˆ1 x
【Exp 18.6.1】研究年齡與患CHD之關係 (p489)
年齡層
25
35
40
45
50
55
60
65
70
無病人數
9
14
9
9
7
4
6
4
2
有病人數
1
2
3
5
6
5
12
11
8
由年齡估計患病率
SPSS_邏輯迴歸:分析 → 迴歸→ 二元 Logistic
指定 依變數
共變數,或選項中的類別變數
SAS_邏輯迴歸: Analysis → Regression → Logistic
Columns:指定 Dependent variables (可選擇目標項)
Quantitative variables
Classification variables
Frequency variabl
Statistics : ˇ logit
SAS 報表
Testing Global Null Hypothesis: BETA=0
Test
Likelihood Ratio
Score
Wald
Chi-Square
29.7851
27.0896
22.6152
DF
1
1
1
Pr > ChiSq
<.0001
<.0001
<.0001
Analysis of Maximum Likelihood Estimates
Parameter
DF
Intercept
age
1
1
Standard
Estimate
Error
-4.6486
0.0881
0.9775
0.0185
Wald
Chi-Square
Pr > ChiSq
22.6171
22.6152
<.0001
<.0001
Odds Ratio Estimates
Point
95% Wald
Effect Estimate
Confidence Limits
age
1.092
1.053
1.132
(1) 適合性測驗:
Wald test 得 p-值 < 0.05,年齡的影響顯著。
(2) 由最大概似估計得到由迴歸分析得到
z = - 4.65 + 0.0881 (年齡)
58歲患病率估計
p
1 exp(4.65-0.088158)
 0.6132
42歲患病率估計為 0.279
(3) 勝算比(odds ratio,OR ) 或相對危險率之估計:
OR = exp(0.0881) = 1.092 .
年齡增加一歲患CHD之勝算(風險)是原來的1.09 倍
【Exp 18.6.3】研究不同空氣體積及傳遞速率是否引起血管收縮
(p498)
Testing Global Null Hypothesis: BETA=0
Test
Likelihood Ratio
Score
Wald
Chi-Square
24.3214
17.5848
9.0173
DF
2
2
2
Pr > ChiSq
<.0001
0.0002
0.0110
Analysis of Maximum Likelihood Estimates
Parameter DF
Intercept
1
air
1
trans
1
Estimate
-9.5083
3.8737
2.6402
Standard
Error
3.2208
1.4229
0.9113
Wald
Chi-Square Pr > ChiSq
8.7150
0.0032
7.4112
0.0065
8.3942
0.0038
Odds Ratio Estimates
Effect
air
trans
Point
Estimate
48.120
14.016
95% Wald
Confidence Limits
2.959 782.573
2.349 83.621
(1) 適合度測驗:
Wald test 得 p-值 < 0.05, X1 ,X2的影響顯著。
(2) 由最大概似估計得到 z = - 9.51 + 3.87 X1 + 2.64 X2
發生率
p̂ 
1
1 exp(  z)
(3) 勝算比:
X1: OR = 48.1,經傳遞速率調整,空氣體積每增加一,
血管收縮之風險是原來的 48.1 倍
X2:OR = 14.0,經空氣體積調整,傳遞速率每增加一,
血管收縮之風險是原來的14 倍