殘差分析圖

Download Report

Transcript 殘差分析圖

應用統計京
複迴歸分析-1
Multiple Regression
1
學習主題
應用統計京
1.
2.
3.
4.
5.
6.
7.
解釋複迴歸模式
複習簡單迴歸的重要觀念
殘差分析
檢定整個模型的顯著性
檢定個別變數的影響
檢定部分模型
電腦報表使用及詮釋
2
今日重點
應用統計京
1.
2.
3.
4.
5.
解釋複迴歸模式
複習簡單迴歸的重要觀念
殘差分析
檢定整個模型的顯著性
檢定個別變數的影響
6. 檢定部分模型
7. 電腦報表使用及詮釋
3
迴歸模式之種類
應用統計京
1 Explanatory
Variable
Regression
Models
2+ Explanatory
Variables
Multiple
Simple
Linear
4
NonLinear
Linear
NonLinear
建立線性複迴歸模式之步驟
應用統計京
1. 設立迴歸模式中確定之部分(期望值)
2. 估計模式參數(X變數係數及截距)
3. 誤差項的機率分配

進入統計推論的前提
4. 評估模式
5. 利用模式做預測及估計
5
建立所使用的模型
應用統計京
1. 定義模型中所包含的兩個變數

獨立變數(可自主變動不受其他因素的影響而改
變其值)

反應變數(受到獨立變數的影響而改變其值者)
2. 根據變數間的關係建立假設之方程式


6
預期的影響 (諸如:正或負相關,係數為何)
函數形式 (線性linear或非線性non-linear)
一般線性複迴歸模式
應用統計京
1. 某個變數和其它變數之間的線性關係
Population
Y-intercept
Population
slopes
隨機誤差
(Random error)
Yi   0   1X 1i   2 X 2i   k X ki   i
相依或反應變數
(response variable )
7
獨立或預測變數
(predictor variables)
一般線性複迴歸模式
應用統計京
母體真實關係
E(Yi )   0  1 X1i   2 X 2i     k X ki
 i 代表獨立變數 X i 的貢獻
X1, X 2 ,, X k
例如:
8
可為其他變數的函數
X 2  X , X 4  X1 X 3 
2
1
動動腦想一想
應用統計京
Q:若X和Y的關係式為
Y   0e
 1 x2
可否經轉換而成線性模式?
9
你答對了嗎?
應用統計京
A:可以,

Y  ln Y ,  0  ln  0,     1 , x  x


1

y
則

Y  0   x

10
 
1
2
動動腦想一想
應用統計京
Q:若X和Y的關係式為
Y   0e
 1 x2
可否經轉換而成線性模式?
11
你答對了嗎?
應用統計京
A:可以,

Y  ln Y ,  0  ln  0,     1 , x  x


1

y
則

Y  0   x

12
 
1
2
母體複迴歸模式
應用統計京
觀測值
Bivariate model
Y
Response
Plane
X1
13
Yi = 0 +1X1i +2X2i +i
(Observed Y)
0
i
X2
(X1i,X2i)
E(Y) = 0 +1X1i +2X2i
期望值
樣本複迴歸模式
應用統計京
Bivariate model
Response
Plane
X1
Yi =b0 +b1X1i +b2X2i +ei
Y
(Observed Y)
b0
ej
(X1i,X2i)
^
Yi =b0 +b1X1i +b2X2i
14
X2
建立線性複迴歸模式之步驟
應用統計京
1. 設立迴歸模式中確定之部分(期望值)
2. 估計模式參數(X變數係數及截距)
3. 誤差項的機率分配

進入統計推論的前提
4. 評估模式
5. 利用模式做預測及估計
15
學習主題
應用統計京
1. 解釋複迴歸模式
2. 複習簡單迴歸的重要觀念
3.
4.
5.
6.
7.
殘差分析
檢定整個模型的顯著性
檢定個別變數的影響
檢定部分模型
電腦報表使用及詮釋
16
最小平方法的圖形表達
應用統計京
Least Squares Method Graphically
n
LS即為使得
e
i 1
2
i
e e e e
2
1
2
2
2
3
2
4
最小
Y2  b0  b1 X 2  e2
Y
e4
e2
e1
e3
Yˆi  b0  b1 X i
X
17
最小平方法
Least Squares Method
應用統計京
1. ‘最適切’ 表示觀察值與預估值間的差
異為最小


但是差異有正有負會互相抵消
因此選擇誤差的平方和作為依據較佳
 Y
n
i 1
i
ˆ
Y
i

2

n
e
2
i
i 1
2. 最小平方法即為使得誤差平方和(SSE)
為最小
18
最小平方法
應用統計京
選擇估計模式
Yˆi  b0  b1 X1i  b2 X 2i    bk X ki
使得誤差平方和
n

SSE=  Yi  Yˆi
i 1
為最小
19

2

n
e
2
i
i 1
最小平方法的求解過程1
應用統計京
如何使得變異量平方最小呢?
 Y
n
i
i 1

ˆ
Y
i

2

n
 Yi
i 1
 b0  b1 x1  b2 x2 
n
 ei
2
i 1
可以使用偏微分,分別讓方程式對 b0
及 b , b 取偏微分,並使結果為0
1
2
20
2
最小平方法的求解過程2
應用統計京

b0
n
e
2
i
i 1


b0
n
  yi
i 1
 b0  b1 x1i  b2 x2 i
2
n
 2  yi  b0  b1 x1i  b2 x2 i   0
i 1
讓方程式對 b0 取偏微分,並使結果為
0,簡化後得到:
nb0
n
n
n
n
  y    b   b   x   b   x 
i 1
i
21
i 1
0
1
i 1
1
2
i 1
2
最小平方法的求解過程3
應用統計京

b1

2
ei 

b1
i 1
n
n
  yi
i 1
 b0  b1 x1i  b2 x2 i 
2
n
 2  yi  b0  b1 x1i  b2 x2 i  x1i  0
i 1
讓方程式對 b1 取偏微分,並使結果為
0,簡化後得到:
 x
n
i 1
1i
22
 
yi   b0  x1i   b1  x1i  b2   x1i  x2i 
n
n
i 1
i 1
2
n
i 1
最小平方法的求解過程4
應用統計京

b2

2
ei 

b2
i 1
n
n
  yi
i 1
 b0  b1 x1i  b2 x2 i 
2
n
 2  yi  b0  b1 x1i  b2 x2 i  x2 i  0
i 1
讓方程式對 b2 取偏微分,並使結果為
0,簡化後得到:
 x y   b  x   b   x
n
n
i 1
23
2i i
0
i 1
n
2i
1
i 1
1i
n
 
 x2i   b2  x2i
i 1
2
最小平方法的求解過程5
應用統計京
求解聯立方程式並解得 b0 及 b1 b2
n
n
n
n
  yi    b0   b1   x1   b2   x2 
i 1
i 1
 x
n
1i
i 1
 x
yi   b0  x1i
n
i 1
n
i 1
24
i 1
2i
i 1
  b  x  b  x
n
1
i 1
n
2
1i
2
i 1
1i
 x2 i 
 
yi   b0  x2 i   b1   x1i  x2i   b2  x2 i
n
n
n
i 1
i 1
i 1
2
計算係數常用的表
Computation Table
應用統計京
2
2
X1i X2i Yi X1iYi X2iYi X1i X2i X1iX2i
X11 X21 Y1 X11Y1 X21Y1 X112 X212 X11X21
X12 X22 Y2 X12Y2 X22Y2 X122 X222 X12X22
:
: :
:
:
:
:
:
2
2
X1n X2n Yn X1nYn X2nYn X1n X2n X1nX2n
X1iX2iYiX1iYiX2iYiX1i2X2i2X1iX2i
25
估計係數之詮釋
應用統計京
1. 第k個斜率係數(slope, bk)

在所有其它X變數固定下, Xk改變一個單位
時, Y平均改變bk的量
2. Y-截距(b0)

26
在所有Xk = 0時, 平均之Y值
例一
參數估計
應用統計京
你在New York Times的廣
告部門工作. 你想找出廣告
大小(平方公分) 和報紙流通
量(circulation, 單位千次)
對讀者回應次數的效應(單
位百次).
27
你所收集資料如下:
回應 廣告大小 流通
1
1
2
4
8
8
1
3
1
3
5
7
2
6
4
4
10
6
例 一的模型
應用統計京
考慮模型如下:
Yi =  0 +  1 X1 i +  2 X2 i +  i
E (Yi )   0  1 X 1i   2 X 2i
28
X 1i
表廣告大小
X 2i
表流通量
計算係數常用的表
Computation Table
應用統計京
X1i
1
8
3
5
6
10

X2i
2
8
1
7
4
6

29
Yi
1
4
1
3
2
4

X1iYi X2iYi
1
2
32
32
3
1
15
21
12
8
40
24
 
X1i2
1
64
9
25
36
100

X2i2 X1iX2i
4
2
64
64
1
3
49
35
16
24
36
60
 
最小平方法的求解
應用統計京
求解聯立方程式並解得b0及b1,b2
15 = 6b0 + 33b1 + 28b2
103 = 33b0 + 235b1 + 188b2
88 = 28b0 + 188b1 + 170b2
b0=0.0640, b1=0.2049, b2=0.2805
30
參數估計電腦報表
應用統計京
bi
Parameter
Variable DF Estimate
INTERCEP 1
0.0640
ADSIZE
1
0.2049
CIRC
1
0.2805
Parameter Estimates
Standard T for H0:
Error Param=0 Prob>|T|
0.2599 0.246
0.8214
0.0588 3.656
0.0399
0.0686 4.089
0.0264
b0
b1
31
b2
係數之詮釋
應用統計京
1. 斜率 (b1)

在流通量不變情形下, 廣告大小(X1) 每增加一平
方公分,回應次數(Y), 可期望(平均)增加20.49次,
2. 斜率 (b2)

在廣告大小不變情形下, 流通量(X2)每增加 仟份
的回應次數(Y), 可期望(平均)增加28.05次,
3. 截距 (b0)

32
在廣告大小(X1) 且每仟份流通量(X2)均為0下,
回應次數(Y), 可期望(平均)增加6.4次,上述說法
實為不合理, 故b0無具體意義,
線性複迴歸方程式
應用統計京
Too
complicated
by hand!
33
Ouch!
例二 參數估計
應用統計京
你是大型連鎖超商的行銷經理,認為活力棒(
高能量補充品)為有潛力的產品,想找出
產品價格(cent分)和店內促銷(元)對活力
棒銷售量(次數/週)的影響,分別在34家連
鎖店收集資料如下:
34
例二 資料
應用統計京
35
Bars Price Promotion
4141
59
200
3842
59
200
3056
59
200
3519
59
200
4226
59
400
4630
59
400
3507
59
400
3754
59
400
5000
59
600
5120
59
600
4011
59
600
5015
59
600
1916
79
200
675
79
200
3636
79
200
3224
79
200
2295
79
400
Bars
2730
2618
4421
4113
3746
3532
3825
1096
761
2088
820
2114
1882
2159
1602
3354
2927
Price Promotion
79
400
79
400
79
400
79
600
79
600
79
600
79
600
99
200
99
200
99
200
99
200
99
400
99
400
99
400
99
400
99
600
99
600
例二的模型
應用統計京
考慮模型如下:
Yi =  0 +  1 X1 i +  2 X2 i +  i
E (Yi )   0  1 X 1i   2 X 2i
36
X 1i
表price
X 2i
表promotion
參數估計電腦報表
應用統計京
b0
Yˆ  5837.52  53.22 X 1  3.61 X 2
係數
標準誤
t 統計
P-值
截距
5837.521 628.1502 9.293192 1.79E-10
Price
-53.2173 6.852221 -7.76644 9.2E-09
Promotion 3.613058 0.685222 5.272828 9.82E-06
b1
37
b2
係數之詮釋
應用統計京
1. 斜率 (b1)

在店內促銷經費不變情形下, 售價(X1) 每降低一
分,銷售次數(Y), 可期望(平均)增加53.2次,
2. 斜率 (b2)

在售價不變情形下,店內促銷經費(X2)每增加 百
元的銷售次數(Y), 可期望(平均)增加361.3次,
3. 截距 (b0)

38
b0亦無具體意義,
參數估計電腦報表
應用統計京
b0
Yˆ  5837.52  53.22 X 1  3.61 X 2
係數
標準誤
t 統計
P-值
截距
5837.521 628.1502 9.293192 1.79E-10
Price
-53.2173 6.852221 -7.76644 9.2E-09
Promotion 3.613058 0.685222 5.272828 9.82E-06
b1
39
b2
係數之詮釋
應用統計京
1. 斜率 (b1)

在店內促銷經費不變情形下, 售價(X1) 每降低一
分,銷售次數(Y), 可期望(平均)增加53.2次,
2. 斜率 (b2)

在售價不變情形下,店內促銷經費(X2)每增加 百
元的銷售次數(Y), 可期望(平均)增加361.3次,
3. 截距 (b0)

40
b0亦無具體意義,
參數估計電腦報表
應用統計京
b0
Yˆ  5837.52  53.22 X 1  3.61 X 2
係數
標準誤
t 統計
P-值
截距
5837.521 628.1502 9.293192 1.79E-10
Price
-53.2173 6.852221 -7.76644 9.2E-09
Promotion 3.613058 0.685222 5.272828 9.82E-06
b1
41
b2
係數之詮釋
應用統計京
1. 斜率 (b1)

在店內促銷經費不變情形下, 售價(X1) 每降低一
分,銷售次數(Y), 可期望(平均)增加53.2次,
2. 斜率 (b2)

在售價不變情形下,店內促銷經費(X2)每增加 百
元的銷售次數(Y), 可期望(平均)增加361.3次,
3. 截距 (b0)

42
b0亦無具體意義,
比較不同模型的估計值
應用統計京
E (Yi )   0  1 X 1i
係數
截距
Price
43
標準誤
表price
t 統計
7512.348 734.6189 10.22618
-56.71384 9.245104 -6.134473
E (Yi )   0  1 X 2i
截距
Promotion
X 1i
X 2i
P-值
1.31E-11
7.36E-07
表promotion
係數
標準誤
t 統計
P-值
1496.016 483.9789 3.091077 0.004111
4.128065
1.1521 3.583078 0.001111
參數估計電腦報表
應用統計京
b0
Yˆ  5837.52  53.22 X 1  3.61 X 2
係數
標準誤
t 統計
P-值
截距
5837.521 628.1502 9.293192 1.79E-10
Price
-53.2173 6.852221 -7.76644 9.2E-09
Promotion 3.613058 0.685222 5.272828 9.82E-06
b1
44
b2
比較不同模型的估計值
應用統計京
E (Yi )   0  1 X 1i
係數
截距
Price
45
標準誤
表price
t 統計
7512.348 734.6189 10.22618
-56.71384 9.245104 -6.134473
E (Yi )   0  1 X 2i
截距
Promotion
X 1i
X 2i
P-值
1.31E-11
7.36E-07
表promotion
係數
標準誤
t 統計
P-值
1496.016 483.9789 3.091077 0.004111
4.128065
1.1521 3.583078 0.001111
建立線性複迴歸模式之步驟
應用統計京
1. 設立迴歸模式中確定之部分(期望值)
2. 估計模式參數(X變數係數及截距)
3. 誤差項的機率分配

進入統計推論的前提
4. 評估模式
5. 利用模式做預測及估計
46
迴歸模型適用前滿足之假設
應用統計京
Linear Regression Model Assumptions
1. 隨機誤差機率分配的平均數為0
2. 隨機誤差機率分配的變異數為固定常數s2
3. 隨機誤差機率分配為常態分配
4. 任何隨機誤差間均相互獨立
 i 
 N (0, s )
i .i .d .
i.i.d:獨立且為完全相同之分配
47
隨機誤差機率分配示意圖
Error Probability Distribution
應用統計京
f( )
Y
X2
X
48
X1
建立線性複迴歸模式之步驟
應用統計京
1. 設立迴歸模式中確定之部分(期望值)
2. 估計模式參數(X變數係數及截距)
3. 誤差項的機率分配

進入統計推論的前提
4. 評估模式
5. 利用模式做預測及估計
49
評估複迴模式之步驟
應用統計京
1. 檢視變異測量(決定係數coefficient of
determination及模型估計的標準誤)
2. 殘差分析(residual analysis)
3. 檢定參數顯著性



50
整個模式
個別係數
部分模式
隨機誤差變異量
Random Error Variation
應用統計京
^
1. 真實的Y與預估的Y 間的差異變異情形
2. 根據迴歸模型所測得的標準誤

模型估計的標準誤
Se  MSE sˆ 2  MSE
3. 受到下列因素的影響


51
模型選定的正確性
各個參數估計的正確性
迴歸模型變異量的示意圖
Variation Measures
應用統計京
Y
Yi
未考慮迴歸前
的差異(Yi -Y)
模型未能解釋的差
^
異 (Yi - Yi)
Yi   0   1X i
^
模型已解釋的差異(Yi -Y)
Y
Xi
52
X
迴歸模型變異量的量測
Measures of Variation in Regression
應用統計京
1. 總變異量 (SST或SSy)  (Yi  Y )2

觀察值Yi與平均數Y差異的平方和
2. 經由模型可解釋的變異量 (SSR)

^
2
ˆ
(
Y

Y
)
 i
平均數Y與預估值Yi間差異的平方和
3. 模型仍未解釋之隨機變異量 (SSE)  (Yi  Yˆi ) 2


53
其他未能考慮到的因素所產生的變異量
^
觀察值Yi與預估值Yi間差異的平方和
判定係數
(Coefficient of
Multiple Determination)
應用統計京
1. Y 變異量被所有X變數同時解釋到之比例
R2 = 解釋到的變異 = SSR
總變異量
SST
2. 模式中的X變數增多則R2增大


54
僅以 Y 值計算 SST,SST不變但SSE變小
比較不同模式時, 利用R2值有缺點(Xs共相關)
調整的判定係數
(Adjusted Coefficient of Multiple
Determination)
應用統計京
考慮自變數的個數和樣本數大小調整後的判
定係數


55
比 R2 為小
比較不同模型時較為有用
範例二的判定係數
應用統計京
R2=0.7577
迴歸統計
R 的倍數
0.87047455
R 平方
0.75772594
調整的 R 平方
0.74209536
標準誤
638.065288
觀察值個數
銷售量的總變異有
75.77%可由售價和促銷經
費所解釋
2
=0.7421
radj
比 R2 為小
34
模型估計的標準誤=Se= 638.07
56
由ANOVA
TABLE計算
2
2
radj S e
R
應用統計京
自由度
SS
MS
F
顯著值
2 39472731 19736365 48.47713 2.86E-10
31 12620947 407127.3
33 52093677
迴歸
殘差
總和
R2
SSR 39472731


 0.7577
SST 52093677
33
407127.3
 1  (1  0.7577) *  1 
 0.742
52093677
31
33
57
Se  MSE  407127.3  638.07
其他模型的變異測量
應用統計京
E (Yi )   0  1 X 1i
ANOVA
自由度
SS
MS
F
顯著值
1 28153486 28153486 37.63176 7.36E-07
32 23940191
748131
33 52093677
迴歸
殘差
總和
E (Yi )   0  1 X 2i
SST不變
ANOVA
自由度
SS
MS
F
顯著值
1 14915814 14915814 12.83845 0.001111
32 37177863 1161808
33 52093677
迴歸
殘差
總和
58
其他模型的判定係數
應用統計京
E (Yi )   0  1 X 1i
E (Yi )   0  1 X 2i
迴歸統計
R 的倍數
0.735146
R 平方
0.54044
調整的 R 平方 0.526078
標準誤
864.9457
觀察值個數
34
迴歸統計
R 的倍數
0.5350951
R 平方
0.2863268
調整的 R 平方 0.2640245
標準誤
1077.8721
觀察值個數
34
R2較小
59
評估複迴模式之步驟
應用統計京
1. 檢視變異測量(決定係數coefficient of
determination及模型估計的標準誤)
2. 殘差分析(residual analysis)
3. 檢定參數顯著性



60
整個模式
個別係數
部分模式
殘差分析
Residual Analysis
應用統計京
目的



檢驗預測變數Xi與所對應的反應變數Y是否為線性
關係,亦即檢測模式的適切性(pattern)
評估是否合乎線性迴歸成立的假設
偵測離群值或影響點
進階問題
使用殘差的繪圖分析



61
殘差 e  ˆ  Y  Yˆ
繪製殘差圖
殘差的直方圖,莖葉圖或常態機率圖
Studentized 殘差 (SR)
應用統計京
X  X 
 X  X 
2
SRi 
SYX
ei
1  hi
where
1
hi  
n
i
n
i 1




62
2
i
加入了自變數之間的差異考量
也考量了自變數與因變數的差異
調整了 殘差的大小,反應出樣本點在迴歸
線附近的變動
可以用來驗證齊一性 -----『變異數是否一
致』
殘差圖
應用統計京
1. 以殘差或Studentized 殘差 vs.

Yˆ
May need to transform Y variable
2. 以殘差或Studentized 殘差 vs. X
X1
以殘差或Studentized vs. X
2
May need to transform X variable
2

3.
1
variable
May need to transform

4. 以殘差或Studentized vs. 時間

.
63
May have autocorrelation
殘差分析 (檢驗線性結構)
應用統計京
64
Residual Plot
for Functional Form
應用統計京
Add X2 Term
Correct Specification
e
e
X
圖中資料呈現出二項形式
65
X
圖中無pattern,顯示
資料符合誤差項條件
範例三
應用統計京
溫度
146
147
147
147
148
148
149
149
149
150
66
製造成本 溫度
51
49
50
51
49
50
48
49
50
48
150
150
151
151
152
152
153
153
154
154
製造成本
49
50
49
50
50
51
50
51
52
53
殘差圖
應用統計京
E (Yi )   0   1 X
殘差
溫度 殘差圖
4
2
0
-2 144
-4
146
148
150
溫度
67
152
154
156
殘差圖
應用統計京
E (Yi )   0   1 X   2 X
68
2
殘差圖
應用統計京
E (Yi )   0   1 X
殘差
溫度 殘差圖
4
2
0
-2 144
-4
146
148
150
溫度
69
152
154
156
殘差圖
應用統計京
E (Yi )   0   1 X   2 X
70
2
殘差分析 (檢驗齊一性)
應用統計京
不
71
Residual Plot
for Independence
應用統計京
Not Independent
Correct Specification
SR
SR
X
Plots reflect sequence data were collected.
72
X
殘差分析圖 (檢驗獨立性)
應用統計京

誤差項沒有相互獨立
e
誤差項相互獨立
e
Time
73
Time
Residual Analysis
Computer Output
應用統計京
Dep Var Predict
Student
Obs SALES
Value Residual Residual -2-1-0 1 2
1 1.0000 0.6000
0.4000
1.044 |
|**
2 1.0000 1.3000 -0.3000
-0.592 |
*|
3 2.0000 2.0000
0
0.000 |
|
4 2.0000 2.7000 -0.7000
-1.382 |
**|
5 4.0000 3.4000
0.6000
1.567 |
|***
Plot of standardized
(student) residuals
74
|
|
|
|
|
範例二的殘差分析
應用統計京
Yˆ  5837.52  53.22 X 1  3.61 X 2
當 X1  59, X 2  200
Yˆ  5837.52  53.22(59)  3.61(200)  3420.31
1
e1  Y1  Yˆ1  4141  3420.31  720.69
75
所有殘差值
應用統計京
標準化殘差
觀察值 預測為 Bars 殘差
1 3420.31 720.6905 1.165359
2 3420.31 421.6905 0.681875
3 3420.31 -364.3095 -0.58909
4 3420.31 98.69048 0.159583
5 4142.921 83.07887 0.134339
6 4142.921 487.0789 0.787608
7 4142.921 -635.9211 -1.028287
8 4142.921 -388.9211 -0.628887
9 4865.533 134.4673 0.217434
10 4865.533 254.4673 0.411474
11 4865.533 -854.5327 -1.381783
12 4865.533 149.4673 0.241689
13 2355.963 -439.9628 -0.711421
14 2355.963 -1680.963 -2.718123
15 2355.963 1280.037 2.069825
16 2355.963 868.0372 1.403619
17 3078.574 -783.5744 -1.267043
76
標準化殘差
觀察值 預測為 Bars 殘差
18 3078.574 -348.5744 -0.563646
19 3078.574 -460.5744 -0.744751
20 3078.574 1342.426 2.170707
21 3801.186 311.814 0.504204
22 3801.186 -55.18601 -0.089236
23 3801.186 -269.186 -0.435275
24 3801.186 23.81399 0.038507
25 1291.616 -195.6161 -0.316312
26 1291.616 -530.6161 -0.858008
27 1291.616 796.3839 1.287756
28 1291.616 -471.6161 -0.762605
29 2014.228 99.77232 0.161332
30 2014.228 -132.2277 -0.213813
31 2014.228 144.7723 0.234097
32 2014.228 -412.2277 -0.666574
33 2736.839 617.1607 0.997951
34 2736.839 190.1607 0.307491
殘差 vs. promotion
殘差
應用統計京
Promotion 殘差圖
1500
1000
500
0
-500 0
-1000
-1500
-2000
77
100
200
300
400
Promotion
500
600
700
殘差 vs. price
應用統計京
Price 殘差圖
2000
殘差
1000
0
-1000
-2000
78
0
20
40
60
Price
80
100
120
殘差 vs.預測值
應用統計京
殘差 vs.預測值
1500
1000
500
0
-500 0
-1000
-1500
-2000
79
1000
2000
3000
4000
5000
6000
殘差
常態機率圖
應用統計京
Bars
常態機率圖
10000
0
0
20
40
60
80
樣本百分比
表示殘差很有可能為常態
80
或沒有不為常態的證據
100
120
評估複迴模式之步驟
應用統計京
1. 檢視變異測量(決定係數coefficient of
determination及模型估計的標準誤)
2. 殘差分析(residual analysis)
3. 檢定參數顯著性

整個模式

個別係數
部分模式

81
檢定整體模式之顯著性
應用統計京
1. 檢定所有X變數對Y變數的效果
2. 使用F 檢定統計量(test statistic)
3. 假設

H0: 1 = 2 = ... = k = 0


Ha: 至少有一個i不為 0 i=1…k

82
所有X變數均不影響Y
至少有一個X影響Y
變異數分析ANOVA表
應用統計京
變異數分析表(ANOVA Table)
ANOVA變異數分析表
df
Regression k
SS
MS
F
SSR
MSR
=SSR/k
P-value of
MSR/MSE
the F Test
MSE
=SSE/(n-k-1)
Residuals
n-k-1
SSE
Total
n-1
SST
83
Significance F
範例二的ANOVA TABLE
應用統計京
ANOVA
自由度
迴歸
殘差
總和
SS
MS
F
顯著值
2 39472731 19736365 48.47713 2.86E-10
31 12620947 407127.3
33 52093677
K=2 X變數的個數
84
n-k-1
P值
範例二整體模型的檢定
應用統計京
H 0:  1 =  2 = 0
H1: At least one i  0
 = .05
df = 2 and 31
Test statistic:
F 
48.477
(Excel Output)
Decision:
Reject at  = 0.05
Critical Value(s):
Conclusion:
 = 0.05
0
3.32
85
F
There is evidence that
at least one independent
variable affects Y
評估複迴模式之步驟
應用統計京
1. 檢視變異測量(決定係數coefficient of
determination及模型估計的標準誤)
2. 殘差分析(residual analysis)
3. 檢定參數顯著性

整個模式

個別係數

部分模式
86
檢定個別變數
應用統計京
1. 檢定個別變數 Xi 對 Y的效果,嚴格說來,為
其他變數已在模型中時, Xi對 Y的邊際效果
2. 使用t 檢定統計量(test statistic)
3. Hypotheses:


87
H0: i  0 (Xi 不影響Y)
H1: i  0 (Xi 對Y有影響)
t Test Statistic
Excel Output: Example
應用統計京
t Test Statistic for X1
(price)
係數
標準誤
t 統計
P-值
截距
5837.521 628.1502 9.293192 1.79E-10
Price
-53.2173 6.852221 -7.76644 9.2E-09
Promotion 3.613058 0.685222 5.272828 9.82E-06
bi
t
Sbi
88
t Test Statistic for X2
(promotion)
t Test : Example Solution
應用統計京
 = 0.05,促銷經費不變下,價格是否對銷售量有影響?
H0: 1 = 0
Test Statistic:
H1: 1  0
t Test Statistic = -7.7664
Decision:
Reject H0 at  = 0.05
df = 31
Critical Value(s):
Reject H0
Reject H0
.025
.025
-2.0395
89
0 2.0395
t
Conclusion:
There is evidence of a
significant effect of
price on sales.
t Test : Example Solution
應用統計京
 = 0.05,價格不變下,促銷經費是否對銷售量有影響?
H0: 2 = 0
Test Statistic:
H1: 2  0
t Test Statistic =5.273
Decision:
Reject H0 at  = 0.05
df = 31
Critical Value(s):
Reject H0
Reject H0
.025
.025
-2.0395
90
0 2.0395
t
Conclusion:
There is evidence of a
significant effect of
price on sales.
應用統計京
Confidence Interval
Estimate
for the Slope
i係數的信賴區間:
1係數的信賴區間
bi  tnk 1Sbi
b1  tnk 1Sb1
係數
標準誤 下限 95% 上限 95%
截距
5837.521 628.1502 4556.399 7118.642
Price
-53.2173 6.852221 -67.1925 -39.2421
Promotion 3.613058 0.685222 2.215538 5.010578
-67.1925  1  -39.2421
在店內促銷經費不變情形下, 售價(X1) 每降低一分,銷售
次數(Y), 在95%的信心水準下,可期望(平均)增加39.2次
91
至67.2次
應用統計京
Confidence Interval
Estimate
for the Slope
i係數的信賴區間:
2係數的信賴區間
bi  tnk 1Sbi
b2  tnk 1Sb2
係數
標準誤 下限 95% 上限 95%
截距
5837.521 628.1502 4556.399 7118.642
Price
-53.2173 6.852221 -67.1925 -39.2421
Promotion 3.613058 0.685222 2.215538 5.010578
2.216  2  5.011
在店內售價不變情形下,促銷經費(X2) 每增加一百元,銷
售次數(Y), 在95%的信心水準下,可期望(平均)增加221.6
92
次至501次
今日重點複習
應用統計京
1.
2.
3.
4.
5.
解釋複迴歸模式
複習簡單迴歸的重要觀念
殘差分析
檢定整個模型的顯著性
檢定個別變數的影響
6. 檢定部分模型
7. 電腦報表使用及詮釋
93