3. 檢定參數顯著性

Download Report

Transcript 3. 檢定參數顯著性

應用統計系
複迴歸分析-2
Multiple Regression
1
學習主題
應用統計系
1.
2.
3.
4.
5.
6.
7.
解釋複迴歸模式
複習簡單迴歸的重要觀念
殘差分析
檢定整個模型的顯著性
檢定個別變數的影響
檢定部分模型
電腦報表使用及詮釋
2
學習目標
應用統計系
1. 複習 ----複迴歸分析- 1
2. 今日內容 ---複迴歸分析- 2
3
複習
應用統計系
複迴歸分析- 1
1.
2.
3.
4.
5.
6.
4
解釋複迴歸模式
複習簡單迴歸的重要觀念
殘差分析
檢定整個模型的顯著性
檢定個別變數的影響
電腦報表使用及詮釋
今日內容
應用統計系
複迴歸分析- 2
1. 檢定部分模型
2. 模型的應用
3. 電腦報表使用及詮釋
5
迴歸模式之種類
應用統計系
1 Explanatory
Variable
Regression
Models
2+Explanatory
Variables
Multiple
Simple
Linear
6
NonLinear
Linear
NonLinear
建立線性複迴歸模式之步驟
應用統計系
1. 設立迴歸模式中確定之部分(期望值)
2. 估計模式參數(X變數係數及截距)
3. 誤差項的機率分配

F
進入統計推論的前提
4. 評估模式
5. 利用模式做預測及估計
7
一般線性複迴歸模式
應用統計系
1. 某個變數和其它變數之間的線性關係
Population
Y-intercept
Population
slopes
隨機誤差
(Random error)
Yi   0   1X 1i   2 X 2i   k X ki   i
相依或反應變數
(response variable )
8
獨立或預測變數
(predictor variables)
一般線性複迴歸模式
應用統計系
母體真實關係
E (Yi )   0   1 X 1i   2 X 2i     k X ki
 i 代表獨立變數 X i 的貢獻
X 1 , X 2 ,, X k 可為其他變數的函數
例如:
9
X 2  X , X 4  X1 X 3 
2
1
母體複迴歸模式
應用統計系
觀測值
Bivariate model
Y
Response
Plane
X1
Yi = 0 +1X1i +2X2i +i
(Observed Y)
0
i
X2
(X1i,X2i)
E(Y) = 0 +1X1i +2X2i
10
期望值
樣本複迴歸模式
應用統計系
Bivariate model
Yi =b0 +b1X1i +b2X2i +ei
Y
Response
Plane
X1
(Observed Y)
b0
ej
(X1i,X2i)
^
Yi =b0 +b1X1i +b2X2i
11
X2
例二 參數估計
應用統計系
你是大型連鎖超商的行銷經理,認為活力棒(
高能量補充品)為有潛力的產品,想找出
產品價格(cent分)和店內促銷(元)對活力
棒銷售量(次數/週)的影響,分別在34家連
鎖店收集資料如下:
12
例二 資料
應用統計系
13
B a rs P ric e P ro m o tio n
4141
59
200
3842
59
200
3056
59
200
3519
59
200
4226
59
400
4630
59
400
3507
59
400
3754
59
400
5000
59
600
5120
59
600
4011
59
600
5015
59
600
1916
79
200
675
79
200
3636
79
200
3224
79
200
2295
79
400
B a rs
2730
2618
4421
4113
3746
3532
3825
1096
761
2088
820
2114
1882
2159
1602
3354
2927
P ric e
79
79
79
79
79
79
79
99
99
99
99
99
99
99
99
99
99
P ro m o tio n
400
400
400
600
600
600
600
200
200
200
200
400
400
400
400
600
600
例二的模型
應用統計系
考慮模型如下:
Yi =  0 +  1 X 1 i +  2 X 2 i + i
E (Yi )   0  1 X 1i   2 X 2i
14
X 1i
表price
X 2i
表promotion
參數估計電腦報表
應用統計系
b0
Yˆ  5837.52  53.22 X 1  3.61 X 2
係數
標準誤
t 統計
P-值
截距
5837.521 628.1502 9.293192 1.79E-10
Price
-53.2173 6.852221 -7.76644 9.2E-09
Promotion 3.613058 0.685222 5.272828 9.82E-06
b1
15
b2
係數之詮釋
應用統計系
1. 斜率 (b1)

在店內促銷經費不變情形下, 售價(X1) 每降低一
分,銷售次數(Y), 可期望(平均)增加53.2次,
2. 斜率 (b2)

在售價不變情形下,店內促銷經費(X2)每增加 百
元的銷售次數(Y), 可期望(平均)增加361.3次,
3. 截距 (b0)

16
b0亦無具體意義,
比較不同模型的估計值
應用統計系
E (Yi )   0  1 X 1i
係數
截距
P rice
7 5 1 2 .3 4 8
-5 6 . 71 3 8 4
E (Yi )   0  1 X 2i
係數
X 1i 表price
標準誤
t 統計
7 3 4 .6 1 8 9 1 0 . 2 26 1 8
9 .2 4 5 1 0 4 -6 . 1 3 44 7 3
P- 值
1 .3 1 E -1 1
7 .3 6 E -0 7
X 2 i 表promotion
標準誤
t 統計
P -值
截距
1 4 9 6 .0 1 6
4 8 3 .9 7 8 9
3 .0 9 1 0 7 7
0 .0 0 4 1 1 1
P ro m o tio n
4 .1 2 8 0 6 5
1 .1 5 2 1
3 .5 8 3 0 7 8
0 .0 0 1 1 1 1
17
迴歸模型適用前滿足之假設
應用統計系
Linear Regression Model Assumptions
1. 隨機誤差機率分配的平均數為0
2. 隨機誤差機率分配的變異數為固定常數s2
3. 隨機誤差機率分配為常態分配
4. 任何隨機誤差間均相互獨立
 i 
 N (0, s )
i .i .d .
i.i.d:獨立且為完全相同之分配
18
隨機誤差機率分配示意圖
Error Probability Distribution
應用統計系
f( )
Y
X2
X
19
X1
建立線性複迴歸模式之步驟
應用統計系
1. 設立迴歸模式中確定之部分(期望值)
2. 估計模式參數(X變數係數及截距)
3. 誤差項的機率分配

進入統計推論的前提
4. 評估模式
5. 利用模式做預測及估計
20
評估複迴模式之步驟
應用統計系
1. 檢視變異測量(決定係數coefficient of
determination及模型估計的標準誤)
2. 殘差分析(residual analysis)
3. 檢定參數顯著性



21
整個模式
個別係數
部分模式
隨機誤差變異量
Random Error Variation
應用統計系
^
1. 真實的Y與預估的Y 間的差異變異情形
2. 根據迴歸模型所測得的標準誤

模型估計的標準誤 S 
e
3. 受到下列因素的影響


22
模型選定的正確性
各個參數估計的正確性
MSE sˆ
2
 MSE
迴歸模型變異量的示意圖
Variation Measures
應用統計系
Y
Yi
未考慮迴歸前
的差異(Yi -Y)
模型未能解釋的差
^
異 (Yi - Yi)
Yˆi  b0  b1 X i
^
模型已解釋的差異(Yi -Y)
Y
X
Xi
23
迴歸模型變異量的量測
Measures of Variation in Regression
應用統計系
1. 總變異量 (SST或SSy)  (Y  Y )
2
i

觀察值Yi與平均數Y差異的平方和
2. 經由模型可解釋的變異量 (SSR)

^
 (Yˆi  Y )
2
平均數Y與預估值Yi間差異的平方和
3. 模型仍未解釋之隨機變異量 (SSE)  (Y  Yˆ )
i


24
其他未能考慮到的因素所產生的變異量
^
觀察值Yi與預估值Yi間差異的平方和
i
2
判定係數
(Coefficient of
Multiple Determination)
應用統計系
1. Y 變異量被所有X變數同時解釋到之比例
R2 = 解釋到的變異 = SSR
總變異量
SST
2. 模式中的X變數增多則R2增大


25
僅以 Y 值計算 SST,SST不變但SSE變小
比較不同模式時, 利用R2值有缺點(Xs共相關)
調整的判定係數
(Adjusted Coefficient of Multiple
Determination)
應用統計系
考慮自變數的個數和樣本數大小調整後的判
定係數


26
比 R2 為小
比較不同模型時較為有用
範例二的判定係數
應用統計系
R2=0.7577
迴歸統計
R 的倍數
0.87047455
R 平方
0.75772594
調整的 R 平方
0.74209536
標準誤
638.065288
觀察值個數
銷售量的總變異有
75.77%可由售價和促銷經
費所解釋
2
radj =0.7421
比 R2 為小
34
模型估計的標準誤=Se= 638.07
27
其他模型的變異測量
應用統計系
E (Yi )   0  1 X 1i
ANOVA
自由度
迴歸
SS
MS
F
顯著值
1 28153486 28153486 37.63176 7.36E-07
殘差
32 23940191
總和
33 52093677
748131
E (Yi )   0   2 X 2i
SST不變
ANOVA
自由度
迴歸
SS
MS
F
顯著值
1 14915814 14915814 12.83845 0.001111
殘差
32 37177863
總和
33 52093677
28
1161808
其他模型的判定係數
應用統計系
E (Yi )   0  1 X 1i
E (Yi )   0   2 X 2i
迴歸統計
迴歸統計
R 的倍數
R 平方
0.735146
0.54044
調整的 R 平方
0.526078
標準誤
864.9457
觀察值個數
0.5350951
R 平方
0.2863268
調整的 R 平方
0.2640245
標準誤
1077.8721
觀察值個數
34
R2較小
29
R 的倍數
34
評估複迴模式之步驟
應用統計系
1. 檢視變異測量(決定係數coefficient of
determination及模型估計的標準誤)
2. 殘差分析(residual analysis)
3. 檢定參數顯著性



30
整個模式
個別係數
部分模式
殘差分析
Residual Analysis
應用統計系
目的



檢驗預測變數Xi與所對應的反應變數Y是否為線性
關係,亦即檢測模式的適切性(pattern)
評估是否合乎線性迴歸成立的假設
偵測離群值或影響點
進階問題
使用殘差的繪圖分析



31
殘差 e  ˆ  Y  Yˆ
繪製殘差圖
殘差的直方圖,莖葉圖或常態機率圖
範例二的殘差分析
應用統計系
Yˆ  5837.52  53.22 X 1  3.61 X 2
當 X1  59, X 2  200
Yˆ1  5837.52  53.22(59)  3.61(200)  3420.31
e1  Y1  Yˆ1  4141  3420.31  720.69
32
所有殘差值
應用統計系
殘
差
較
大
觀察值 預測為 Bars 殘差
標準化殘差
1 3420.31 720.6905 1.165359
2 3420.31 421.6905 0.681875
3 3420.31 -364.3095 -0.58909
4 3420.31 98.69048 0.159583
5 4142.921 83.07887 0.134339
6 4142.921 487.0789 0.787608
7 4142.921 -635.9211 -1.028287
8 4142.921 -388.9211 -0.628887
9 4865.533 134.4673 0.217434
10 4865.533 254.4673 0.411474
11 4865.533 -854.5327 -1.381783
12 4865.533 149.4673 0.241689
13 2355.963 -439.9628 -0.711421
14 2355.963 -1680.963 -2.718123
15 2355.963 1280.037 2.069825
16 2355.963 868.0372 1.403619
17 3078.574 -783.5744 -1.267043
33
觀察值 預測為 Bars 殘差
標準化殘差
18 3078.574 -348.5744 -0.563646
19 3078.574 -460.5744 -0.744751
20 3078.574 1342.426 2.170707
21 3801.186 311.814 0.504204
22 3801.186 -55.18601 -0.089236
23 3801.186 -269.186 -0.435275
24 3801.186 23.81399 0.038507
25 1291.616 -195.6161 -0.316312
26 1291.616 -530.6161 -0.858008
27 1291.616 796.3839 1.287756
28 1291.616 -471.6161 -0.762605
29 2014.228 99.77232 0.161332
30 2014.228 -132.2277 -0.213813
31 2014.228 144.7723 0.234097
32 2014.228 -412.2277 -0.666574
33 2736.839 617.1607 0.997951
34 2736.839 190.1607 0.307491
殘差 vs. promotion
殘差
應用統計系
Promotion 殘差圖
1500
1000
500
0
-500 0
-1000
-1500
-2000
34
100
200
300
400
Promotion
500
600
700
殘差 vs. price
應用統計系
Price 殘差圖
2000
殘差
1000
0
-1000
-2000
35
0
20
40
60
Price
80
100
120
殘差 vs.預測值
應用統計系
殘差 vs.預測值
1500
1000
500
0
-500 0
-1000
-1500
-2000
36
1000
2000
3000
4000
5000
6000
殘差
常態機率圖
應用統計系
Bars
常態機率圖
10000
0
0
20
40
60
80
樣本百分比
表示殘差很有可能為常態
37
或沒有不為常態的證據
100
120
評估複迴模式之步驟
應用統計系
1. 檢視變異測量(決定係數coefficient of
determination及模型估計的標準誤)
2. 殘差分析(residual analysis)
3. 檢定參數顯著性

整個模式

個別係數
部分模式

38
檢定整體模式之顯著性
應用統計系
1. 檢定所有X變數對Y變數的效果
2. 使用F 檢定統計量(test statistic)
3. 假設

H0: 1 = 2 = ... = k = 0


Ha: 至少有一個j不為 0 j=1…k

39
所有X變數均不影響Y
至少有一個X影響Y
變異數分析ANOVA表
應用統計系
變異數分析表(ANOVA Table)
ANOVA變異數分析表
df
Regression k
SS
MS
F
SSR
MSR
=SSR/k
P-value of
MSR/MSE
the F Test
MSE
=SSE/(n-k-1)
Residuals
n-k-1
SSE
Total
n-1
SST
40
Significance F
範例二的ANOVA TABLE
應用統計系
ANOVA
自由度
迴歸
SS
MS
2 39472731 19736365 48.47713
殘差
31 12620947 407127.3
總和
33 52093677
K=2 X變數的個數
41
F
n-k-1
顯著值
2.86E-10
P值
範例二整體模型的檢定
應用統計系
H 0:  1 =  2 = 0
H1: At least one i  0
 = .05
df = 2 and 31
Test statistic:
F 
48.477
(Excel Output)
Decision:
Reject at  = 0.05
Critical Value(s):
Conclusion:
 = 0.05
0
3.32
42
F
There is evidence that
at least one independent
variable affects Y
評估複迴模式之步驟
應用統計系
1. 檢視變異測量(決定係數coefficient of
determination及模型估計的標準誤)
2. 殘差分析(residual analysis)
3. 檢定參數顯著性

整個模式

個別係數

部分模式
43
檢定個別變數
應用統計系
1. 檢定個別變數 Xi 對 Y的效果,嚴格說來,為
其他變數已在模型中時, Xi對 Y的邊際效果
2. 使用t 檢定統計量(test statistic)
3. Hypotheses:


44
H0: i  0 (Xi 不影響Y)
H1: i  0 (Xi 對Y有影響)
t Test Statistic
Excel Output: Example
應用統計系
t Test Statistic for X1
(price)
係數
標準誤
t 統計
P-值
截距
5837.521 628.1502 9.293192 1.79E-10
Price
-53.2173 6.852221 -7.76644 9.2E-09
Promotion 3.613058 0.685222 5.272828 9.82E-06
t
bi
S bi
45
t Test Statistic for X2
(promotion)
t Test : Example Solution
應用統計系
 = 0.05,促銷經費不變下,價格是否對銷售量有影響?
H0: 1 = 0
Test Statistic:
H1: 1  0
t Test Statistic = -7.7664
Decision:
Reject H0 at  = 0.05
df = 31
Critical Value(s):
Reject H0
Reject H0
.025
.025
-2.0395
46
0 2.0395
t
Conclusion:
There is evidence of a
significant effect of
price on sales.
t Test : Example Solution
應用統計系
 = 0.05,價格不變下,促銷經費是否對銷售量有影響?
H0: 2 = 0
Test Statistic:
H1: 2  0
t Test Statistic =5.273
Decision:
Reject H0 at  = 0.05
df = 31
Critical Value(s):
Reject H0
Reject H0
.025
.025
-2.0395
47
0 2.0395
t
Conclusion:
There is evidence of a
significant effect of
promotion on sales.
應用統計系
Confidence Interval
Estimate
for the Slope
i係數的信賴區間:
bi  t n  k  1 S bi
1係數的信賴區間
b1  t n  k  1 S b1
係數
標準誤 下限 95% 上限 95%
截距
5837.521 628.1502 4556.399 7118.642
Price
-53.2173 6.852221 -67.1925 -39.2421
Promotion 3.613058 0.685222 2.215538 5.010578
-67.1925  1  -39.2421
在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售
次數(Y), 在95%的信心水準下,可期望(平均)增加39.2次
48
至67.2次
應用統計系
Confidence Interval
Estimate
for the Slope
i係數的信賴區間:
2係數的信賴區間
截距
Price
Promotion
bi  t n  k  1 S bi
b2  t n  k  1 S b2
係數
標準誤
下限 95%
5837.520759 628.150225 4556.399214
-53.21733631 6.852220559 -67.19254007
3.613058036 0.685222056 2.215537659
上限 95%
7118.642304
-39.24213255
5.010578412
2.216  2  5.5011
在店內售價不變情形下,促銷經費(X2) 每增加一百元,銷
售次數(Y), 在95%的信心水準下,可期望(平均)增加221.6
49
次至501次
一組獨立變數的貢獻
應用統計系
Let Xs(Xk-m+1,Xk-m+2,…,Xk) be the subset
of independent variables of interest
考慮兩個模式如下:
完整模式(Full Model)
E(Yi )   0  1 X 1i   2 X 2i    k m X k mi     k X ki
簡化模式(Reduce Model)
E (Yi )   0   1 X 1i   2 X 2i     k m X k  mi
50
一組獨立變數的貢獻
應用統計系
Let Xs be the subset of independent variables of
interest
SSR  X s | all others except X s 
 SSR  all   SSR  all others except X s 
 SSR ( F )  SSR ( R )
 SSE ( R )  SSE ( F )
Measures the contribution of the subset xs in
explaining SST
51
一組獨立變數的貢獻:
Example
應用統計系
Let Xs be X1 and X3
SSR  X 1 and X 3 | X 2 
 SSR  X 1 , X 2 and X 3   SSR  X 2 
From ANOVA section of
regression for
Yˆi  b 0  b1 X 1 i  b 2 X 2 i  b3 X 3 i
52
From ANOVA
section of
regression for
Yˆi  b 0  b 2 X 2 i
檢定部分模式
應用統計系
檢驗一組獨立變數Xs
在模式中對y的貢獻
Null hypothesis:

當其他變數已在模式中,加入該組變數
並未有效改善模式
Alternative hypothesis:

53
當其他變數已在模式中, 加入該組變數
其中至少有一個可顯著改善模式
檢定部分模式
應用統計系
(continued)
1. 計算F統計量
2. 比較兩個迴歸模式


54
One regression includes everything
—完整模式
Another regression includes everything
except the portion to be tested
—簡化模式
偏F檢定(Partial F Test)
應用統計系
Hypotheses:
 H0 :
E (Yi )   0   1 X 1i   2 X 2i     k  m X k  mi
亦即,
 k  m 1   k  m  2     k  0

H1 :
E (Yi )   0   1 X 1i   2 X 2i    k  m X k  mi     k X ki
亦即,至少有一i0, i =k-m+1,…,k
55
偏F檢定(Partial F Test)
應用統計系
Test Statistic:

F 


56
SSR  X s | all others  / m
M SE  all 
with df = m and (n-k-1)
m = # of variables in the subset Xs
個別變數
Xk
的貢獻
應用統計系
Let Xk be the independent variable of
interest
完整模式(Full Model)
E (Yi )   0  1 X 1i   2 X 2i     k X ki
簡化模式(Reduce Model)
E(Yi )   0  1 X 1i   2 X 2i     k 1 X k 1i
57
個別變數
Xk
的貢獻
應用統計系
Let Xk be the independent variable of
interest
SSR(Xk|all others except Xk)
=SSR(all)-SSR(all others except Xk)

58
Measures the contribution of Xk in explaining the
total variation in Y (SST)
個別變數
Xk
的貢獻
應用統計系
SSR  X 1 | X 2 and X 3 
 SSR  X 1 , X 2 and X 3   SSR  X 2 and X 3 
From ANOVA section of
regression for
Yˆi  b 0  b1 X 1 i  b 2 X 2 i  b3 X 3 i
From ANOVA section
of regression for
Yˆi  b 0  b 2 X 2 i  b3 X 3 i
Measures the contribution of X 1 in explaining SST
59
Coefficient of Partial
Determination of X k
應用統計系
2
Yk  all others
r

SSR ( X k | all others )
SST  SSR ( all )  SSR ( X k | all others )
偏判定係數
當其他變數不變的情形下,反應變數的變異
可由Xk解釋的百分比
60
Coefficient of Partial
Determination for X k
應用統計系
(continued)
Example: Two Independent Variable Model
2
Y 2 1
r

61
SSR ( X 2 | X 1 )
SST  SSR ( X 1 , X 2 )  SSR ( X 2 | X 1 )
Venn Diagrams and
Coefficient of Partial
Xk
Determination for
應用統計系
rY 2 1 
2
SSR ( X 2 | X 1 )
SSR ( X 2 | X 1 )
Bars
SST  SSR ( X 1 , X 2 )  SSR ( X 2 | X 1 )
=
promotion
62
Price
應用統計系
Partial F Test For
Contribution of A Single X k
Hypotheses:


H0 :當其他變數已在模式中,
加入該變數並未有效改善模式
H1 :當其他變數已在模式中,
加入該變數可顯著改善模式
亦即
63

H0: k  0 (Xk 不影響Y)

H1: k  0 (Xk對Y有影響)
偏F檢定(Partial F Test)
應用統計系
Test Statistic:
F 
SSR ( X k | all others )
MSE ( all )


Note:
64
With df = 1 and (n-k-1)
m = 1 here
F1 ,  t
2
檢定整體模式之顯著性
應用統計系
1. 檢定所有X變數對Y變數的效果
2. 使用F 檢定統計量(test statistic)
3. 假設

H0: 1 = 2 = ... = k = 0

所有X變數均不影響Y
E (Yi )   0

Ha: 至少有一個j不為 0 j=1…k

至少有一個X影響Y
E (Yi )   0   1 X 1i   2 X 2i    k  m X k  mi     k X ki
65
偏F檢定(Partial F Test)
應用統計系
Test Statistic:

F 

SSR  X s | all others  / m
M SE  all 
( SSE ( R )  SSE ( F )) / k
MSE ( F )

( SST  SSE ) / k
MSE


66

MSR
MSE
with df = k and (n-k-1)
k = # of variables in the subset Xs(all variables)
Testing Portions of
Model: 範例二
應用統計系
H0: X2 (promotion) does
not improve model with X1
(price) included
 = .05, df = 1 and 31
Critical Value = 4.17
H1: X2 does improve model
(For X1 and X2)
(For X1)
ANOVA
ANOVA
自由度
迴歸
SS
MS
2 39472731 19736365
殘差
31 12620947
總和
33 52093677
F 
SSR ( X 2 X 1 )
407127.3

F
48.47713
迴歸
顯著值
自由度
SS
MS
2.86E-101 28153486 28153486 37.
殘差
32 23940191
總和
33 52093677
( 39472731  28153486 )
748131
 27 . 803
MSE ( X 1 , X 2 )
407127 . 3
Conclusion: Reject H0; X2 does improve model
67
t Test : Example Solution
應用統計系
 = 0.05,價格不變下,促銷經費是否對銷售量有影響?
t2=27.8
H0: 2 = 0
Test Statistic:
H1: 2  0
t Test Statistic =5.273
Decision:
Reject H0 at  = 0.05
df = 31
Critical Value(s):
Reject H0
Reject H0
.025
.025
-2.0395
68
0 2.0395
t
Conclusion:
There is evidence of a
significant effect of
price on sales.
Coefficient of Partial
Determination for X k
應用統計系
(continued)
Example: Two Independent Variable Model
2
Y 21
r



69
SSR( X 2 | X 1 )
SST  SSR( X 1 , X 2 )  SSR( X 2 | X 1 )
SSR( X 1 , X 2 )  SSR( X 1 )
SST  SSR( X 1 , X 2 )  SSR( X 1 , X 2 )  SSR( X 1 )
39472731  28153486
52093677  28153486
 0.4728
範例四
應用統計系
研究房子坪數受收入,人口數及教育程度的
影響,隨機抽取10戶資料如下:
房 子 坪 數 (坪 )y 收 入 (萬 元 )x 1 人 數 (人 )x 2 教 育 程 度 (年 )x 3
70
32
66
2
10
34
78
2
14
52
135
3
13
48
111
4
6
44
84
4
8
42
150
3
16
64
168
6
14
36
102
3
14
60
180
5
8
40
120
3
12
範例四-估計複迴歸模型
應用統計系
考慮模型如下:
Yi   0  1 X 1i   2 X 2i   3 X 3i   i
X 1i
X 3i
71
表收入
X 2i
表教育程度
表人數
參數估計電腦報表
應用統計系
Yˆ  17.144  0.129 X 1  4.676 X 2  0.326 X 3
b0
係數
標準誤
t 統計
P -值
截距
17.14425 7.109544 2.411442 0.052471
收 入 (萬 元 )x1
0.129252 0.058466 2.210711 0.069076
人 數 (人 )x2
4.676217 1.815582 2.575602 0.042017
教 育 程 度 (年 )x3
-0.32554 0.488142
b1
b2
b3
72
-0.6669 0.529633
範例四-檢定整體模式
應用統計系
H0: 1 = 2 = 3 =0
H1: At least one i  0
ANOVA
自由度
SS
MS
F
顯著值
迴歸
3 950.1662 316.7221 19.11154 0.001792
殘差
6 99.43379
總和
9
F 
MSR
MSE

16.5723
1049.6
316 . 7221
16 . 5723
 19 . 1115
P值為0.0018,故在 = 0.05時,拒絕虛無假設
73
範例四-檢定個別變數
應用統計系
1. 檢定其他變數已在模型中時, Xk對是否還
需要放入模式?
2. Hypotheses:


H0: k  0 (Xk 不影響Y)
H1: k 0 (Xk對Y有影響)
3. 使用t 檢定統計量(test statistic)或偏F檢定
74
範例四-檢定個別變數
(t檢定)
應用統計系
係數
標準誤
t 統計
P -值
截距
17.14425 7.109544 2.411442 0.052471
收 入 (萬 元 )x1
0.129252 0.058466 2.210711 0.069076
人 數 (人 )x2
4.676217 1.815582 2.575602 0.042017
教 育 程 度 (年 )x3
-0.32554 0.488142
-0.6669 0.529633
在 = 0.05時,當X1和X3已 在模式內時,
X2仍應放入模式
在 = 0.1時,當X1和X3已在模式內時,
X2仍應放入模式&當X2和X3已在模式內時,
75
X1仍應放入模式
範例四-檢定個別變數
(偏F檢定)
應用統計系
Yi   0   1 X 1i   2 X 2i   i
係數
截距
13.47916
收入(萬元)x1 0.109902
人數(人)x2
5.31388
標準誤
t 統計
P-值
4.327704 3.114621 0.016971
0.048704 2.25654 0.05863
1.480926 3.588214 0.008878
ANOVA
自由度
迴歸
殘差
總和
F
SS
MS
F
顯著值
2 942.7956 471.3978 30.89559 0.000336
7 106.8044 15.25777
9
1049.6
950.1662  942.7956
16.5723
76
 0.44475  t  (0.6669)
2
2
範例四-檢定部分模式
應用統計系
1. 檢定X1變數已在模型中時, X2 ,X3是否還需
要放入模式?
2. Hypotheses:
H0: 2 = 3= 0
H1: At least one j  0
3. 使用偏F檢定
77
範例四-檢定部分模式
(偏F檢定)
應用統計系
Yi   0   1 X 1i   i
係數
標準誤
t 統計
P-值
截距
17.02793 6.640818 2.564131 0.033431
收入(萬元)x10.235947 0.053174 4.437245 0.002176
ANOVA
自由度
迴歸
殘差
總和
F
SS
MS
F
顯著值
1 746.3476 746.3476 19.68914 0.002176
8 303.2524 37.90655
9
1049.6
(950.1662  746.3476) / 2
16.5723
78
 6.1494
範例四-檢定部分模式
(偏F檢定)
應用統計系
檢定統計量值
F  6.1494
臨界值為
F0 .05 , 2 , 9  4 . 2565
F0 .1 , 2 , 9  3 . 0065
故不論 = 0.05或 = 0.1均拒絕虛無假設
表示X1變數已在模型中時, 加入X2或X3可改善
模式
79
範例四-檢定部分模式
應用統計系
1. 檢定X2變數已在模型中時, X1 ,X3是否還需
要放入模式?
2. Hypotheses:
H0: 1 = 3= 0
H1: At least one i  0
3. 使用偏F檢定
80
範例四-檢定部分模式
(偏F檢定)
應用統計系
Yi   0   2 X 2i   i
截距
人數(人)x2
係數
標準誤
t 統計
P-值
18.16552 4.667942 3.891548 0.004599
7.724138 1.261145 6.124701 0.000282
ANOVA
自由度
迴歸
殘差
總和
F
SS
MS
F
顯著值
1 865.1034 865.1034 37.51196 0.000282
8 184.4966 23.06207
9
1049.6
(950.1662  865.1034) / 2
16.5723
81
 2.5663
範例四-檢定部分模式
(偏F檢定)
應用統計系
檢定統計量值
F  2.5663
臨界值為
F0 .05 , 2 , 9  4 . 2565
F0 .1 , 2 , 9  3 . 0065
故不論 = 0.05或 = 0.1均不拒絕虛無假設
表示X2變數已在模型中時, 加入X1或X3無法顯
著改善模式
82
主要模型的比較
應用統計系
Y對x1,x2 ,x3作迴歸
R 平方
0.905265
調整的 R 平方
0.857898
標準誤
4.070909
R 平方
Y對x1 ,x2作迴歸
Y對x2作迴歸
83
0.898243
調 整 的 R 平 方 0.869169
標準誤
3.906119
R 平方
0.824222
調整的 R 平方
標準誤
0.80225
4.802298
Y對x1 ,x2作迴歸的殘差
應用統計系
觀 察 值 預 測 為 房 子 坪 數 (坪 )y
殘差
標準化殘差
1
31.36042921 0.639571 0.18565871
2
32.67924965
3
44.25752663 7.742473 2.24753484
4
46.93376563 1.066234 0.30951335
5
43.96641964
6
45.90605218
7
63.82592249 0.174078 0.05053234
8
40.63077042
9
59.83086305 0.169137 0.04909816
10
84
42.60900108
1.32075 0.38339588
0.03358 0.00974792
-3.90605
-4.63077
-2.609
-1.1338739
-1.3442497
-0.7573576
殘差較大
Y對x1 ,x2作迴歸的殘差
應用統計系
收入(萬元)x1 殘差圖
2
5
1
0
0
0
50
100
150
200
-1 0
10
20
30
40
-2
-10
房子坪數
收入(萬元)x1
人數(人)x2 殘差圖
10
5
殘差
殘差
10
-5
標準化殘差
3
0
-5 0
2
4
-10
人數(人)x2
85
6
8
50
60
70
範例五
應用統計系
收集某公司12位員工的年齡和工作年資及
薪資,資料如下: 薪 資 y(萬 元 ) 年 齡 x 1(年 ) 年 資 x 2(年 )
86
104
47
22
70
46
20
90
37
13
56
24
2
84
43
17
120
54
29
62
35
7
76
39
14
66
31
6
96
49
26
70
45
19
114
51
24
範例五
應用統計系
Y對x1,x2作迴歸
係數
截距
69.31501
年齡x1(年) -0.79575
年資x2(年) 2.888907
標準誤
t 統計
P-值
58.82926 1.17824 0.268914
2.355119 -0.33788 0.743199
2.460333 1.174193 0.270451
ANOVA
自由度
迴歸
殘差
總和
87
SS
MS
F
顯著值
2 3370.807 1685.403 10.43814 0.00452
9 1453.193 161.4659
11
4824
範例五
應用統計系
Y對x1,x2作迴歸
1. F=10.438, p值=0.0045, 整體模式顯
著
t=-0.3379, p值=0.7432, 1不顯著
t=1.1742, p值=0.2705, 2不顯著
2. b1=-0.7958,和常理不合
b2=2.8889
88
範例五
應用統計系
Y對x1作迴歸
係數
標準誤
t 統計
P-值
截距
3.7577 18.88677 0.198959 0.846281
年齡x1(年) 1.921971 0.443434 4.334289 0.00148
ANOVA
自由度
迴歸
89
SS
MS
F
1 3148.189 3148.189 18.78606
殘差
10 1675.811 167.5811
總和
11
4824
顯著值
0.00148
範例五
應用統計系
Y對x2作迴歸
係數
標準誤
t 統計
P-值
截距
49.64059 8.005513 6.200801 0.000101
年資x2(年) 2.071924 0.434107 4.772845 0.000754
ANOVA
自由度
迴歸
殘差
總和
90
SS
MS
F
顯著值
1 3352.373 3352.373 22.78005 0.000754
10 1471.627 147.1627
11
4824
範例五
應用統計系
Y對x1,x2作迴歸
R 平方
0.698758
調整的 R 平方
0.631815
Y對x1作迴歸
R 平方
0.65261
調整的 R 平方 0.617871
r=0.8078
Y對x2作迴歸
R 平方
0.694936
調整的 R 平方 0.66443
r=0.8336
x1,x2相關係數
91
r=0.98277
範例五
應用統計系
共線性(Multicollineararity)
模式中獨立變數之間相關性太高,造
成一些不合理的現象,故變數的選取要非
常小心
92
使用迴歸模型
Using Regression Models
應用統計系
1. 在特 定x值時,使用的種類


點估計﹕平均Y值、個別y值
平均Y值的區間估計、個別y值的區間預測
2. 估計或預測些什麼?
在特定xp值時,Y的期望平均 =E(Yp|xp)
即在母體迴歸線上的某特定點xp下,Yp的平均反應
在特定xp值時,預期出現的個別Y
93
預測的示意圖
What Is Predicted
應用統計系
Yindividual
Y
YIndividual
Yˆi  b0  b1 X i
根據樣本所建立的模型
| Mean
Yp ,Y,
E(Y
| Xp
p
Mean
E(Y)
|
^ 0 +
^ 1X
^
=
)Y i
E(Y) =  0 +  1X
^
prediction Yˆp Y
Prediction,
XP
94
E Y
  0
 1 X i
X
母體的真實關係
E(Yp|Xp) 的信賴區間
應用統計系
Confidence Interval Estimate of Mean Yp
Yˆp  t n  2, / 2  SYˆ  E (Yp | X p )  Yˆp  t n  2, / 2  SYˆ
p
p
其中
SYˆ  S e
p
1
n

X
p
n
 X
i 1
95
 X
2
 X
2
i
, Se 
MSE
個別特定點估計的預測區間
Prediction Interval of Individual Response
應用統計系
Yˆp  t n  2, / 2  SY Yˆ   YP  Yˆp  t n 2, / 2  S Y Yˆ 
p
p
其中
S Y Yˆ   S e 1 
p
1
n

X
P
n
 X
i 1
注意!多出了1
96
 X
2
 X
2
i
影響信賴區間寬度的因素
Factors Affecting Interval Width
應用統計系
1. 信賴水準的選擇Level of confidence (1 - )

信賴水準增加則信賴區間寬度也隨之變寬
2. 資料距離迴歸線的散布情形 (Se)

Se加大,信賴區間寬度也隨之增加
3. 樣本數Sample size

樣本數減少則信賴區間寬度會隨之增加
4. 特定點Xp至自變數平均數 X的距離

距離越遠則信賴區間寬度將隨之增加
5. 獨立變數X的變異程度

n
 X
i 1
97
i
X
 越大則信賴區間寬度將隨之減少
2
全域信賴區間估計形成之信賴帶
Hyperbolic Interval Bands
應用統計系
Y
Xi
b
1
+
b
0
^Y i=
_
X
98
X
XP
範例二-估計和預測
應用統計系
Yˆ  5837.52  53.22 X 1  3.61 X 2
例如:當x1=79,x2=400時, 為
Yˆ  5837.52  53.22  79  3.61  400  3078.574
For Average Predicted Y (Yhat)
Interval Half Width
224.5031
Confidence Interval Lower Limit
2854.071
Confidence Interval Upper Limit
3303.077
For Individual Response Y
Interval Half Width
1320.567
Prediction Interval Lower Limit
1758.008
Prediction Interval Upper Limit
4399.141
99
平均值E(Y)的估計區間
個別值 Y的預
測區間
想一想
應用統計系
若有一家超市其x1=39且x2=800,可預
測其銷售量嗎?
100
例二 資料
應用統計系
101
B a rs P ric e P ro m o tio n
4141
59
200
3842
59
200
3056
59
200
3519
59
200
4226
59
400
4630
59
400
3507
59
400
3754
59
400
5000
59
600
5120
59
600
4011
59
600
5015
59
600
1916
79
200
675
79
200
3636
79
200
3224
79
200
2295
79
400
B a rs
2730
2618
4421
4113
3746
3532
3825
1096
761
2088
820
2114
1882
2159
1602
3354
2927
P ric e
79
79
79
79
79
79
79
99
99
99
99
99
99
99
99
99
99
P ro m o tio n
400
400
400
600
600
600
600
200
200
200
200
400
400
400
400
600
600
你答對了嗎?
應用統計系
A:不可以
所給定的變數值,已經超過原先資料觀察
的範圍,模式可能已經不適用
102
資料標準化後的迴歸
應用統計系
薪 資 y(萬 元 ) 年 齡 x 1(年 ) 年 資 x 2(年 )
103
104
47
22
70
46
20
90
37
13
56
24
2
x1
84
43
17
x2
120
54
29
62
35
7
76
39
14
66
31
6
96
49
26
70
45
19
114
51
24
平均數
y
標準差
84 20.94148
41.75 8.802118
16.58333
8.4257
標 準化的資料
應用統計系
y1
z1
z2
0.955042 0.596447 0.642874
-0.66853 0.482838 0.405505
0.286513
-0.53964
-0.42529
-1.33706
-2.01656
-1.73082
0 0.142011 0.049452
1.719076 1.391711 1.473666
-1.05055
-0.76686
-1.13739
-0.38202
-0.31242
-0.3066
-0.85954
-1.2213
-1.25608
0.573025 0.823665 1.117612
-0.66853 0.369229 0.286821
1.432564 1.050883 0.880243
104
y1 
z1 
z2 
y y
sy
x1  x1
s x1
x2  x2
s x2
Y對x1,y對z1的迴歸
應用統計系
迴歸統計
迴歸統計
R 的倍數
R 平方
R 的倍數
0.807843
R 平方
0.65261
0.65261
調 整 的 R 平 方 0.617871
調 整 的 R 平 方 0.617871
標準誤
標準誤
12.94531
觀察值個數
0.618166
觀察值個數
12
平均數
0.807843
12
84 20.94148
y
41.75 8.802118
x1
16.58333
x2
自由度
迴歸
SS
MS
自由度
F
1 3148.189 3148.189 18.78606
迴歸
SS
MS
10 1675.811 167.5811
殘差
10 3.821294 0.382129
總和
11
總和
11
係數
4824
標準誤
t 統計
3.7577 18.88677 0.198959 0.846281
1.921971 0.443434 4.334289
Y=3.7577+1.922x1
105
係數
P -值
0.00148
F
1 7.178706 7.178706 18.78606
殘差
年 齡 x1(年 )
8.4257
ANOVA
ANOVA
截距
標準差
11
標準誤
t 統計
P -值
截距
-1.1E -17 0.178449
-6.4E -17
1
z1
0.807843 0.186384 4.334289
0.00148
y=o.808z1
r  b1 
s x1
sy
Y對x2,y對z2的迴歸
應用統計系
迴歸統計
迴歸統計
R 的倍數
0.833628
R 的倍數
0.833628
R 平方
0.694936
R 平方
0.694936
調整的 R 平方
標準誤
調整的 R 平方
0.66443
標準誤
12.13106
觀察值個數
0.66443
y
0.579284
x1
12
x2
觀察值個數
12
平均數
標準差
84 20.94148
41.75 8.802118
16.58333
8.4257
ANOVA
ANOVA
自由度
迴歸
SS
MS
自由度
F
1 3352.373 3352.373 22.78005
SS
MS
7.6443 22.78005
迴歸
1
7.6443
殘差
10 1471.627 147.1627
殘差
10
3.3557
總和
11
總和
11
11
係數
4824
標準誤
t 統計
係數
P -值
標準誤
F
0.33557
t 統計
P -值
截距
49.64059 8.005513 6.200801 0.000101
截距
-8.9E -17 0.167225
年 資 x2(年 )
2.071924 0.434107 4.772845 0.000754
z2
0.833628 0.174661 4.772845 0.000754
Y=49.641+2.072x1
y=o.833z1
106
-5.4E -16
r  b2 
1
s x2
sy
Y對x1 x2,y對z1 z2 的迴歸
應用統計系
迴歸統計
迴歸統計
R 的倍數
0.835917
R 的倍數
0.835917
R 平方
0.698758
R 平方
0.698758
平均數
調 整 的 R 平 方 0.631815
調 整 的 R 平0.631815
方
y
標準誤
標準誤
x1
12.70692
觀察值個數
0.606783
觀察值個數
12
12
自由度
SS
MS
自由度
F
84 20.94148
41.75 8.802118
16.58333
x2
ANOVA
ANOVA
標準差
SS
MS
8.4257
F
迴歸
2 3370.807 1685.403 10.43814
迴歸
2 7.686334 3.843167 10.43814
殘差
9 1453.193 161.4659
殘差
9 3.313666 0.368185
總和
11
係數
總和
4824
標準誤
t 統計
11
係數
P-值
11
標準誤
t 統計
P -值
截距
-1.2E -16 0.175163
-6.8E -16
-0.33788 0.743199
z1
-0.33447 0.989903
-0.33788 0.743199
2.888907 2.460333 1.174193 0.270451
z2
1.162337 0.989903 1.174193 0.270451
截距
69.31501 58.82926
1.17824 0.268914
年 齡 x1(年 )
-0.79575 2.355119
年 資 x2(年 )
*
b1  b1 
bi
107
s x1
sy
*
b2  b2 
s x2
sy
bi*
1
結論
應用統計系
1. 偏F檢定為檢驗模型的一般化程序
2. 變數選取的問題 –注意共線性
3. 使用模型的注意事項
4. 資料標準化前後,迴歸模式的解釋
5. 關於各種模式的意義及如何進一步選擇
的問題-後續討論
108