Document

Transcript Document

中級社會統計
第十三講
複迴歸分析
©Ming-chi Chen
社會統計
Page.1
複迴歸分析
• 前面我們學到只有一個自變項的簡單迴歸分析
• 我們知道一個地區的人均病床數會影響到該地區的
平均餘命
• 我們也知道一個地區的人均教育支出會影響該地區
的平均餘命
• 但是如果教育支出相等的條件下，醫療資源的多寡
會不會影響平均壽命？兩者孰輕孰重？
• 控制的概念（在其他條件不變的情況下）
©Ming-chi Chen
社會統計
Page.2
複迴歸分析
• 研究兩個或兩個以上的IV對DV的影響的分析方式，
稱為複迴歸分析（multiple regression analysis）
• 又稱多元迴歸分析
• 迴歸方程式
Yi     1 x1i   2 x 2 i     k x ki   i
 其中  為截距，  1 ,  ,  k 為迴歸係數。
©Ming-chi Chen
社會統計
Page.3
多元迴歸Multiple Regression Models
• 統計成績與努力（所花時間）的關係如下：
y成績 x1努力
45
100
60
300
50
300
70
400
65
500
65
600
80
700
45
200
75
500
©Ming-chi Chen
90
80
70
60
50
40
30
0
100 200 300 400 500 600 700 800
社會統計
Page.4
觀
念
多元迴歸Multiple Regression Models
• 兩者的迴歸線：
90
yˆ i  38 . 33  0 . 058 x i
80
(5.07)
(.012)
70
60
50
Y
y成績 x1努力
45
100
60
300
50
300
70
400
65
500
65
600
80
700
45
200
75
500
40
0
100
200
300
社會統計
©Ming-chi Chen
X1
400
500
600
700
800
Page.5
觀
念
多元迴歸Multiple Regression Models
• 將學生對於數理科目的興趣納入考量發現：
y成績 x1努力 x2興趣
45
100
10
60
300
20
50
300
10
70
400
30
65
500
20
65
600
20
80
700
30
45
200
10
75
500
30
©Ming-chi Chen
90
x2=30
80
70
x2=20
60
50
x2=10
40
30
0
100 200 300 400 500 600 700 800
社會統計
Page.6
觀
念
多元迴歸Multiple Regression Models
90
80
70
60
X2
30.00
50
20.00
Y
• 如果我們針對
具有相同興趣
水準的學生來
考量努力與成
績的關係，則
可以分別用三
個迴歸線來表
達：
10.00
40
0
©Ming-chi Chen
觀
念
100
200
X1 社會統計
300
400
500
600
700
800
Page.7
多元迴歸Multiple Regression Models
90
80
70
X2
60
30.00
20.00
50
10.00
Y
這三條線的斜率
似乎沒有原本迴
歸線來得大，表
示努力與成績的
關係有一部份是
受到興趣的干擾
(confounding):
有興趣的學生通
常花比較多的時
間
Total
40
0
100
200
300
400
500
600
700
800
X1
©Ming-chi Chen
觀
念
社會統計
Page.8
多元迴歸Multiple Regression Models
90
yˆ i  31 . 66  0 . 025 x i  1 . 0 x 2
(1.30)
(.004)
觀
念
(.088)
此時利用多元迴歸
比簡單迴歸可以算
出三條簡單迴歸的
「平均斜率」。
80
70
X2
60
30.00
20.00
50
Y
10.00
Total
40
0
100
200
300
400
500
600
700
800
X1
©Ming-chi Chen
社會統計
Page.9
多元迴歸Multiple Regression Models
90
80
70
X2
60
30.00
20.00
50
10.00
Y
多元迴歸用來分析
一個以上自變數對
於依變數的影響，
可以看出「其他變
數不變（常數）」
的條件下，某一個
變數對於依變數產
生的「淨」影響為
何？
觀
念
Total
40
0
100
200
300
400
500
600
700
800
X1
©Ming-chi Chen
社會統計
Page.10
Partial Derivative偏微分觀念
觀
念
• 經濟學說我們對於某商品的需求量與價格及
所得有關：
x1  商品價格
y  f ( x1 , x 2 )
x 2  所得水準
y  B 0  B1 x1  B 2 x 2
• 在所得不變的條件下，商品價格x1變動，
對於需求量y有何影響?
©Ming-chi Chen
社會統計
Page.11
Partial Derivative偏微分觀念
觀
念
• 假設所得固定為100，
 x1  商品價格變動
因為價格變動所造成的商
 y  商品需求變動
品需求變動可以表為：
 y  f ( x 1   x 1 ,100 )  f ( x 1 ,100 )
帶入原來的函數：
y  B 0  B1 x1  B 2 x 2
 y  B 0  B1 x1  B1  x1  B 2 (100 )  ( B 0  B1 x1  B 2 (100 ))
 y  B 1  x1 
©Ming-chi Chen
y
 xi
 B1
社會統計
Page.12
Partial Derivative偏微分觀念
觀
念
• 如果我們將x1切割成很小的單位，則每
個極小單為的變動所造成的q變動為：
y
 x1
 lim (
 x1  0
y
 xi
)  lim
f ( x1   x1 , x 2  100 )  f ( x1 , x 2  100 )
y  B 0  B1 x1  B 2 x 2
©Ming-chi Chen
 x1
 x1  0
 B1
在x2不變（保持恆定）
的情況下，x1的變動所
造成y的變動
社會統計
Page.13
Partial Derivative偏微分觀念
觀
念
y  B 0  B1 x1  B 2 x 2  e 二個自變數的多元
迴歸分析在於設法
找出最合適資料分
e  y  yˆ
佈的一個平面。
y
需
求
yˆ  B 0  B1 x1  B1 x 2
三個以上的自變數在
三度空間上無法表達。
X2所得
©Ming-chi Chen
X1價格
社會統計
Page.14
多元迴歸的參數推估
Y
8
4
21
49
26
33
84
55
X1
10
9
20
17
11
18
18
17
X2
3
5
6
8
11
14
15
18
求多元迴歸x1與x2的係數？
我們可以將所有的觀察值y視為
x1與x2的線性函數加上誤差值e
y  a  b1 x 1  b 2 x 2  e
多元迴歸的預測值可以表為：
yˆ  a  b1 x 1  b 2 x 2
©Ming-chi Chen
社會統計
Page.15
The Normal Equation
觀
念
y  a  b1 x 1  b 2 x 2  e
y
需
求
e  y  yˆ
求使e2最小的平面
yˆ  a  b1 x 1  b 2 x 2
X2所得
©Ming-chi Chen
X1價格
社會統計
Page.16
The Normal Equation
觀
念
y  a  b1 x 1  b 2 x 2  e


求 Minimum Q?
SSE 
e 
2
2
( y  yˆ ) 

( y  a  b1 x1  b 2 x 2 )  (1)
2
將(1)式分別對a, b1, b2做偏
微分，再將所得之方程式設
為零，然後求解聯立方程式
即可求得最小值。
©Ming-chi Chen
社會統計
  SSE
0

 a
  SSE
0

  b1
  SSE
0

  b2
Page.17
The Normal Equation
SSE 

e 
2

2
( y  yˆ ) 

觀
念
( y  a  b1 x1  b 2 x 2 )  (1)
2
  SSE
 0   ( y  a  b1 x1  b2 x 2 )   ( y  yˆ )   e  0

 a
e總和為零
  SSE
 0   ( y  a  b1 x1  b2 x 2 ) x1   ( y  yˆ ) x1   e x1  0

  b1
e與x1及x2不相關(uncorrelated)
  SSE
 0   ( y  a  b1 x1  b2 x 2 ) x 2   ( y  yˆ ) x 2   e x 2  0

  b2
©Ming-chi Chen
社會統計
Page.18
Basic Rules for Differentiation
• Rule 8: the chain rule
( f  g )' : x  g ' ( x )  f ' [ g ( x )]
©Ming-chi Chen
社會統計
Page.19
複
習
Example of chain rule
f ( x)  ( x  2)
2
複
習
3
我們可以把 f ( x ) 看成由下列兩函數合成
：
g ( y)  y ; y  h( x)  x  2
3
2
f ' ( x )  ( g  h )' : x  h ' ( x ) g ' [ h ( x )]
h'( x)  2 x
g '( y)  3 y
2
f ' ( x )  2 x  3( x  2 )  6 x ( x  2 )
2
©Ming-chi Chen
2
社會統計
2
2
Page.20
微分求迴歸係數
SSE 
e
2

 ( y  yˆ )
2

 (y  a  b x
1 1
 b2 x 2 )
2
 ( y 1  a  b1 x11  b 2 x 21 )  ( y 2  a  b1 x12  b 2 x 22 ) 
2
  ( y n  a  b1 x1 n  b 2 x 2 n )
2
2
令 g ( z )  z , z  h ( x )  ( y  a  b1 x1  b 2 x 2 )
2
 g ' ( z )  2 z , h ' ( x )   1, ( f  g )' : x  g ' ( x )  f ' [ g ( x )]
 SSE
a

 g ' ( z )  h ' ( x ) 求最小
 SSE
a
 2 ( y 1  a  b1 x11  b 2 x 21 )(  1)  2 ( y 2  a  b1 x12  b 2 x 22 )(  1)    2 ( y n  a  b1 x1 n  b 2 x 2 n )(  1)
 2  ( y  a  b1 x1  b 2 x 2 )(  1)  0
 (y  a  b x
1 1
 b2 x 2 )  0
©Ming-chi Chen
社會統計
Page.21
同理，
 SSE
 b1
 SSE
 b2
0
 (y  a  b x
1
 b 2 x 2 ) ( x1 )  0
0
 (y  a  b x
1
 b2 x 2 ) ( x 2 )  0
©Ming-chi Chen
1
1
社會統計
Page.22
The Normal Equation
SSE 

e 
2

2
( y  yˆ ) 
 (y  a  b x
1
1

( y  a  b1 x1  b 2 x 2 )  (1)
2
 b2 x 2 )  0 


( y  a  b1 x1  b 2 x 2 ) x 1  0 

( y  a  b1 x1  b 2 x 2 ) x 2  0 
©Ming-chi Chen
觀
念
y  na  b1  x 1  b 2  x 2

x 1 y  a  x 1  b1  x 1  b 2  x 1 x 2

x 2 y  a  x 2  b1  x 1 x 2  b 2  x 2
社會統計
2
2
Page.23
The Normal Equation
Y
8
4
21
49
26
33
84
55
280
35
X1
10
9
20
17
11
18
18
17
120
15
©Ming-chi Chen
X2
3
5
6
8
11
14
15
18
80
10
觀
念

y  na  b1  x 1  b 2  x 2

x 1 y  a  x 1  b1  x 1  b 2  x 1 x 2

2
x 2 y  a  x 2  b1  x 1 x 2  b 2  x 2
2

x
x

Sum
y  14768 ,
2
2
1
 1928 ,
2
2
 1000
 x x  1280 ,
 x y  4696 ,
 x y  3560
1
2
1
2
Average
社會統計
Page.24
The Normal Equation
Y
8
4
21
49
26
33
84
55
280
35
X1
10
9
20
17
11
18
18
17
120
15
©Ming-chi Chen
X2
3
5
6
8
11
14
15
18
80
10

x
x
y  14768 ,
2
2
1
 1928 ,
2
2
 1000
觀
念
 x x  1280 ,
 x y  4696 ,
 x y  3560
1
2
1
2
280  8 a  120 b1  80 b 2
4696  120 a  1928 b1  1280 b 2
3560  80 a  1280 b1  1000 b 2
a   25 , b1  2 , b 2  3
Sum
Average
yˆ   25  2 x 1  3 x 2
社會統計
Page.25
The Normal Equation

y  na  b1  x 1  b 2  x 2


n


y
 a  b1
x
n
1
觀
念
 b2
x
2
n
x 1 y  a  x 1  b1  x 1  b 2  x 1 x 2
2
x 2 y  a  x 2  b1  x 1 x 2  b 2  x 2
y  a  b1 x 1  b 2 x 2
2
迴歸平面通過中心點:
( y , x1 , x 2 )
©Ming-chi Chen
社會統計
Page.26
Normal Equations in Reduced Form
觀
念
若將所有變數都以「離均值」來表示
 y  a  b1 x1  b 2 x 2
( yˆ  y )  b1 ( x1  x1 )  b 2 ( x 2  x 2 )
yˆ  a  b1 x1  b 2 x 2
Yˆ  b1 X 1  b 2 X 2
SSE 
令


e 
 SSE
 b1
 (Y
 (Y
2
 0,
ˆ)2 
(
Y

Y

 SSE
 b2
求b1, b2等於：

(Y  b1 X 1  b 2 X 2 )
2
0
 b1 X 1  b 2 X 2 ) X 1  0
 b1  X 1  b 2  X 1 X 2 
X
 b1 X 1  b 2 X 2 ) X 2  0
 b1  X 1 X 2  b 2  X 2 

©Ming-chi Chen
2
2
社會統計
Y
1
X 2Y
Page.27
Normal Equations in Reduced Form
解聯立方程式：
b1  X 1  b 2  X 1 X 2 
2
b1  X 1 X 2  b 2  X 2
2

X X
X 2  X 1Y 
2
1
 X
X X
2
2
2
b2 
1
1
2
Y
2
2
1
2
2
2
2
2
1
1
1
2
2
1
1
社會統計

2
X X XY
 X X  X X
Y 
X1
©Ming-chi Chen
Y
1
X X XY
 X X  X X
2
b1 
X
  X
2

SS 22 SS 1 y  SS 12 SS 2 y
SS 11 SS 22  SS 12
2
SS 11 SS 2 y  SS 12 SS 1 y
SS 11 SS 22  SS 12
2
Page.28
觀
念
Normal Equations in Reduced Form
解聯立方
程式：
SS
yy

b1 
Y
2

X
2
SS 1 y 
X
1
SS 2 y 
X
SS 12 
X
SS 11 
SS 22
SS 22 SS 1 y  SS 12 SS 2 y

SS 11 SS 22  SS

2
 ( x2  x2 )
Y 
 (x
Y 
 (x
2
1

2
X2 
©Ming-chi Chen

 ( x1  x1 ) 
2
X1 
2
( y  y) 
2
y  ny
2

x
2
2
 (x
x
 x 2 )( y  y ) 
2
1
社會統計
1
x
 x 1 )( x 2  x 2 ) 
SS 11 SS 22  SS 12
2
2
 nx2
2
SS 11 SS 2 y  SS 12 SS 1 y
2
x1  n x1
 x 1 )( y  y ) 
1
b2 
2
12
觀
念
2
y  n x1 y
2
y  nx2 y
xx
1
2
 n x1 x 2
Page.29
Y
8
4
21
49
26
33
84
55
280
35
X1
10
9
20
17
11
18
18
17
120
15
X2
3
5
6
8
11
14
15
18
80
10

x
x
2
2
1
 1928 ,
2
2
 1000
b1 
SS 1 y
SS 12
2
觀
念
1
2
SS 11 SS 22  SS 12
2

  x y  n x y  4696  8 (15 )( 35 )  496
  x x  n x x  1280  8 (15 )( 10 )  80
  x y  n x y  3560  8 (10 )( 35 )  760
SS 11 
2
2
x 2  n x 2  1000  8 (100 )  200
1
1
1
2
1
2

2
2
2
2
x1  n x1  1928  8 (15 )  128
( 200 )( 4696 )  ( 80 )( 760 )
128
©Ming-chi Chen
1
SS 22 SS 1 y  SS 12 SS 2 y
SS 22 
SS 2 y
b1 
 x x  1280 ,
 x y  4696 ,
 x y  3560
y  14768 ,

99200  60800
( 200 )  80 ( 80 )社會統計 25600  6400
2
2
Page.30
一般化迴歸模型的假設條件
Y i  B 0  B1 x i 1  B 2 x i 2    B k x ik  ei
• 依變數Yi為隨機變數，自變數（Xi,i=1,…,k）
為預先選定的變數。
• Zero Mean: E(ei)=0
• Homoscedasticity: e2 is the same for all
value of independent variable.
• Normality: ei為常態分配
• No serial correlation: E(eiej) =0, i  j
• Independent of ei and xij: E(eixij)=0
©Ming-chi Chen
社會統計
Page.31
一般化迴歸模型的假設條件
• No perfect multicollinearity: it is not possible to find
a set of numbers c0, c1, …ck such that
c 0  c1 x i 1  c 2 x i 2    c k x ik  0 , for every i  1, 2 ,..., n
‧樣本數n>k+1，在複迴歸模型若有k個自變數，則有
k+1（包括截距α）個迴歸參數，此時利用樣本來估
計迴歸參數時，樣本數必須大於k+1個。
©Ming-chi Chen
社會統計
Page.32
The General Multiple Regression Model
Yi   0   1 x i1   2 x i 2     k x ik  e i 母體迴歸線
yˆ i  b0  b1 x i 1  b2 x i 2    bk x ik 樣本迴歸線
• b0, b1, …bk are the least-squares estimates of β0,
β1, …βk that minimize the residual sum of squares:
SSE 

2
eˆ 

2
( y i  yˆ i ) 

( y i  b0  b1 x i 1  b 2 x i 2   b k x ik )
2
• The Gauss-Markov Theorem: If the basic assumptions
hold:
• b0, b1, …bk are the unbiased estimates ofβ0, β1, …,βk
• b0, b1, …bk have the minimum variances among the
class of linear unbiased estimators
©Ming-chi Chen
社會統計
Page.33
Estimated Standard Error of Regression
• 如同在簡單迴歸中，為了要做假設檢定，
我們必須要估計e2 。
• 在簡單迴歸中，我們知道S2e=SSE/(n-2)為
e2 的不偏估計式。
• 同理，在複迴歸中， S2e=SSE/(n-(K+1))為
e2 的不偏估計式。其中n為樣本數，(K+1)
為所欲估計的未知數（即K個自變數加上一
個常數項）。
©Ming-chi Chen
社會統計
Page.34
Estimated Standard Error of Regression
• SSE的一般性公式：
SSE 
SSE 


2
eˆ 

2
( y i  yˆ i ) 

( y i  b0  b1 x i 1  b 2 x i 2   b k x ik )
2
y i  b 0  y i  b1  x i1 y i  b 2  x i 2 y i   b k  x ik y i
2
©Ming-chi Chen
社會統計
Page.35
Partition of Total Sum of Squares
觀
念
多元迴歸中，SST = SSR + SSE仍然成立
( y  y )  ( y  yˆ )  ( yˆ  y )

( y  y) 
2
 [( y 





2
2
yˆ )  ( yˆ  y )  2 ( y  yˆ )( yˆ  y )]
2
( y  yˆ ) 
 (y 


2
ˆ
ˆ
[(
y

y
)

(
y

y
)]


 ( yˆ 
2
yˆ ) 
2
( y  yˆ ) 
 ( y  yˆ )
©Ming-chi Chen
2

e0
2
( yˆ  y )  2  ( y  yˆ )( yˆ  y )

2
y )  2  ( y  yˆ ) yˆ  2 y  ( y  yˆ )
2
( yˆ  y )  2  ( y  yˆ )( a  b1 x 1  b 2 x 2 )
 ( yˆ  y )
2
 2 [ a  e  b1  ex  b2  ex ]
1
社會統計
2
e與x1及x2
不相關
Page.36
Partition of Total Sum of Squares
Y
8
4
21
49
26
33
84
55
280
X1
10
9
20
17
11
18
18
17
120
X2
3
5
6
8
11
14
15
18
80
y-hat
4
8
33
33
30
53
56
63
(y-ybar)2 (y-yhat)2 (yhat-ybar)2
729
16
961
961
16
729
196
144
4
196
256
4
81
16
25
4
400
324
2401
784
441
400
64
784
4968
1696
3272
SST= SSE
©Ming-chi Chen
觀
念
社會統計
+ SSR
Page.37
Sum of Square due to Regression
y  a  b1 x1  b 2 x 2  a  y  b1 x1  b 2 x 2
觀
念
代入
yˆ  a  b1 x 1  b 2 x 2
yˆ  y  b1 x 1  b 2 x 2  b1 x 1  b 2 x 2
yˆ  y  b1 ( x 1  x 1 )  b 2 ( x 2  x 2 )
Yˆ  b1 X 1  b2 X 2
SSR 
2
ˆ
(
y

y
)


©Ming-chi Chen
以大寫字母來表示
與平均值間的差異。
2
2
2
ˆ 2  b2
Y
X

b
X
 2 b1b2  X 1 X 2

1 
1
2 
2
社會統計
Page.38
Sum of Square due to Regression
SSR 
Y
8
4
21
49
26
33
84
55
280
35
X1
10
9
20
17
11
18
18
17
120
15
 ( yˆ  y )
2

 Yˆ
2
 b1
2
X
2
1
觀
念
 b2  X 2  2 b1b2  X 1 X 2
2
2
2
X2
y
 14768 ,
x1 x 2  1280 ,


3
2
x
5
 1  1928 ,
 x1 y  4696 ,
6
2
x 2 y  3560
x
 1000


2
8
2
2
2
2
11
X

(
x

x
)

x

n
x
 1928  1800  128
 1  1 1
 1
1
14
15  X 1 X 2   ( x1  x1 )( x 2  x 2 )   x1 x 2  n x1 x 2  1280  1200  80
18
2
2
2
2
X

(
x

x
)

x

n
x
 1000  800  200
 2
2
2
80  2  2
2
2
10 SSR 
( yˆ  y ) 
Yˆ  4 (128 )  12 ( 80 )  9 ( 200 )
©Ming-chi Chen


社會統計
Page.39
Coefficient of Determination R2
• 判定係數
R 
2
SSR
 1
SST
SSR 
SSE
SST
 ( yˆ  y ) 
2

  eˆ
SST 
( y  y)
2


SSE
2
2
2
ˆ 2  b2
Y
X

b
X
 2 b1b2  X 1 X 2

1 
1
2 
2
2
2
( y i  yˆ i )
• 用來衡量迴歸方程式的配合度或解釋力
©Ming-chi Chen
社會統計
Page.40
Adjusted R square
• 如果樣本數小或自變項個數增加，會使自由度變小，
因此判定係數R2 會高估。
• 亦即在複迴歸模型中若不斷加入與模型無關的解釋變
數時， R2會提高一些，不能代表迴歸模型的解釋能
力。
• 需要調整複判定係數（adjusted coefficient of
multiple determination）
• 主要調整的是自由度
n
R
2
 1

2
( y i  yˆ ) /( n  k  1)
i 1
 1
n

( y i  y ) /( n  1)
2
SSE /( n  k  1)
SST /( n  1)
i 1
©Ming-chi Chen
社會統計
Page.41
Adjusted R square
R
2
 1
SSE /( n  k  1)
 1
SST /( n  1)
n 1
n  k 1
s  SSE /( n  k  1)
2
e
2
2
R
2
 1
Se
S
s  SST /( n  1)
2
y
©Ming-chi Chen
(1  R )
社會統計
2
y
Page.42
Adjusted R square
n 1
n  k 1
 1, R
2
 R
2
2
當我們增加 IV ， R 可能會增加、不變或減
少。
2
如果增加一個具有顯著
解釋能力的新的
如果加入沒有解釋能力
的 IV ，則會受到懲罰，
增加 IV ，在 n 不變的情況下，
如果新增的 IV 使 

IV ，則 R 會增加。
2
R 會降低。
2
(Yˆ  Y ) 會變大，但是
2
(Yˆ  Y ) 增加不大，則經過
n 1
n  k 1
n 1
n  k 1
也會變大。
的懲罰，可能反使
2
R 減小。
2
相對地，
R Chen
則只會增大或不變，不
©Ming-chi
會減少。
社會統計
Page.43
Adjusted R square
2
2
R 的範圍不是在（
0,1）之間， R 可能為負，但仍小於

當
y
時， R 會出現負值
e
2
2

n  k 1
©Ming-chi Chen
n 1
1。
2
社會統計
Page.44
Measuring Goodness of fit
• 在複迴歸中，可利用Ｆ檢定迴歸方程式中所
有的自變數對於依變數Y是否有聯合的解釋能
力：
H0：迴歸方程式無解釋能力
β0 = β1 = β2=…=βK = 0
H1：迴歸方程式有解釋能力（β不全為零）
©Ming-chi Chen
社會統計
Page.45
Measuring Goodness of fit
平方和SS 自由度d.f 平均平方和MS F
SSR
k
MSR=SSR/k
F=MSR/MSE
SSE
n-k-1
MSE=SSE/(n-k-1)
SST
n-1
F 

( yˆ  y ) / k
 ( y  yˆ )
©Ming-chi Chen
2
2
/( n  k  1)
 F , k , ( n  k 1 )
社會統計
Reject
Page.46
©Ming-chi Chen
社會統計
Page.47
部分迴歸係數的F檢定
• 檢定新增的IV對DV是否有影響
• 設原複迴歸模型有k個IV，新增Q個IV，欲檢定新增
的Q個IV是否對DV有影響，
• H0：βk+1= βk+2=…= βk+Q=0
• H1：H0不為真
(  yˆ
  yˆ ) / Q
F 
~ F
 e /( n  k  Q  1)
2
k Q
2
k
Q , n  k  Q 1
2
k Q
( SSR k  Q  SSR k ) / Q
上式 F 
SSE
k Q
©Ming-chi Chen
2
/( n  k  Q  1)
S tata 沒有提供相關數據，必
( R k  Q  R k )Q

2
(1  R k  Q ) /( n  k  Q  1)
2
須自行計算。
社會統計
Page.48
個別迴歸參數的檢定
• 由樣本估計出來的迴歸係數必須接受統計檢
定，以了解母體參數的真實性質（從樣本得
到這樣的係數，是否意味著母體參數不為
零）。
• 若母體迴歸變異數σ2已知，則利用Z分配進行
檢定或區間估計。
• 但如果σ2未知，用樣本變異數S2Y|XZ（也就是
Se2 ）來代替，進行t檢定。
©Ming-chi Chen
社會統計
Page.49
樣本誤差值變異數Se2
S


2
e

SSE
n  k 1
1

n  k 1
1
n  k 1


2
eˆ
n  k 1


2
( y i  yˆ i )
n  k 1
( y i  b 0  b1 x i1  b 2 x i 2   b k x ik )
2
(  y i  b 0  y i  b1  x i1 y i  b 2  x i 2 y i   b k  x ik y i )
©Ming-chi Chen
2
社會統計
Page.50
二元迴歸係數的變異數
Yˆ  a  b1 X 1  b 2 X 2
S
S
2
b1
2
b2



X

X
2
2
 ( X 1 X 2 )


2
X1
2
S (
2
a
2
1

2
X2
X1

©Ming-chi Chen

X
2
1
2
X2  X2

2
X
2
1

S
2
X 2  ( X 1 X 2 )
2
2
2
e

X
2
Se
X1  2 X1X 2 X1X 2
2
2
2
 ( X 1 X 2 )
社會統計
2

1
n
)S
2
e
Page.51
假設檢定
• 迴歸係數檢定所要檢定的假設
H 0 : 0  0

 H 1 :  0  0，這是雙尾檢定
 H 0 : 1  0

 H 1 :  1  0，這是雙尾檢定
H 0 : 2  0

 H 1 :  2  0，這是雙尾檢定
©Ming-chi Chen
社會統計
Page.52
迴歸係數的t檢定
ta 
t b1 
t b2 
a0
Sa
b1  0
S b1
b2  0
S b2
©Ming-chi Chen
社會統計
Page.53
Stata複迴歸結果
/
/
/
©Ming-chi Chen
=
=
=
社會統計
Page.54
Confidence Intervals and tests of
hypotheses
• 每一個β之95% 信賴區間：
 i  bi  t .025 S b
t
bi   i
S bi
i
d. f  n  k 1
自變數個數
©Ming-chi Chen
社會統計
Page.55
Stata複迴歸結果
©Ming-chi Chen
社會統計
Page.56
複迴歸分析的統計預測：預測母體依
變項的平均值信賴區間
Yˆ  a  b1 X 1  b 2 X ，
2
母體預測平均值
E (Y 0 )的1   % 信賴區間（ confidence
interval ）
Yˆ0  t n  3 , / 2 S Yˆ
o
式中：
2
S
2
Yˆ
o
 S [
2
e
X1

©Ming-chi Chen
X2  X2
2

2
X
2
1


X
X1  2 X1X 2 X1X 2
2
2
2
 ( X 1 X 2 )
社會統計
2

1
]
n
Page.57
複迴歸分析的統計預測：預測母體依
變項的信賴區間
Yˆ  a  b1 X 1  b 2 X ，
2
母體預測值 Y 0的1   % 信賴區間（ prediction
interval ）
Yˆ0  t n  3 , / 2 S e o
式中：
2
S
2
eo
 S [
2
e
X1

X2  X2
2
2

X
2
1
相關計算相當複雜，一
©Ming-chi Chen


X
X1  2 X1X 2 X1X 2
2
2
2
 ( X 1 X 2 )
2
般用軟體來解決，請參
社會統計

1
 1]
n
照 Stata 講義
Page.58
Stata求預測值
©Ming-chi Chen
社會統計
Page.59
Stata求預測值
©Ming-chi Chen
社會統計
Page.60
預測母體依變項平均值的信賴區間
2
S
2
Yˆ
o
 S [
2
e
X1

X2  X2
2

2
X
2
1


X
X1  2 X1X 2 X1X 2
2
2
2
 ( X 1 X 2 )
2

1
]
n
• 在Stata裡用predict 新變數名稱,
stdp這個指令來求對應數值。
• predict stderr, stdp
©Ming-chi Chen
社會統計
Page.61
母體預測值平均E(Y|X)或μy的95％
信賴區間
• 先求出t值，要知道自由度在31-3＝28下，
α=0.05的t值。
• 在Stata中，用invttail(28, .05/2)
• generate yhatll=yhat-stderr*invttail(28, .05/2)
這是信賴下界
• generate yhatul=yhat+stderr*invttail(28, .05/2)
這是信賴上界
©Ming-chi Chen
社會統計
Page.62
Stata中求對應特定Xp預測母體值
的標準差
2
S
2
eo
 S [
2
e
X1

X2  X2
2

2
X
2
1


X
X1  2 X1X 2 X1X 2
2
2
2
 ( X 1 X 2 )
2

1
 1]
n
• 在Stata裡用predict 新變數名稱, stdf這
個指令來求對應數值。這裡和前面略有不同。
• predict stderrf, stdf
©Ming-chi Chen
社會統計
Page.63
母體預測值Y-hat的95％信賴區間
• 先求出t值，要知道自由度在31-3＝28下，
α=0.05的t值。
• 在Stata中，用invttail(28, .05/2)
• generate yhatllf=yhat-stderrf*invttail(28, .05/2)這是
信賴下界
• Generate yhatulf=yhat+stderrf*invttail(28, .05/2)這
是信賴上界
©Ming-chi Chen
社會統計
Page.64
複迴歸模型中解釋變數的相對重要性
• 複迴歸模型中，各個IV的相對重要性
• 國家在教育上的投入（ 0.0045 ）還是人口數
目（ 0.00049 ）對中國各省市的平均餘命的
影響比較重要？
• 迴歸係數不能直接比較。
• 因為單位不同。
©Ming-chi Chen
社會統計
Page.65
複迴歸模型中解釋辨識的相對重要性
• 我們可以用標準差來把迴歸係數化成同樣單位
• 標準化的迴歸係數又稱為beta-coefficients
• IV變動一個標準差，DV變動的標準差數。
標準化係數   bˆi
©Ming-chi Chen
社會統計
S Xi
SY
Page.66
Stata求標準化迴歸係數
©Ming-chi Chen
社會統計
Page.67
Stata求標準化迴歸係數
©Ming-chi Chen
社會統計
哪一個IV
影響比較
大？ Page.68
虛擬變數Dummy Variables
觀
念
• 在迴歸方程式中，我們假設所有的變數皆
為連續變數。如果遇到名目尺度變數，我
們可以用虛擬變數來進行分析。
• 虛擬變數(D)又稱為類別變數(categorical
variables)，通常以(0,1)來區別類別。
• 如男性D=1，女性D=0
©Ming-chi Chen
社會統計
Page.69
虛擬變數Dummy Variables
觀
念
• 虛擬變數可以用來比較下列效果：
• Temporal effect時間效果：戰時vs.平時，顛峰
vs.非顛峰，假日vs.週間
• Spatial effects地區效果：都市vs.鄉村
• Qaulitative variables質性變數：已婚vs.未婚，
男性vs.女性，白人vs.非白人
• Broad groupings of qualitative variables化約變
數。
©Ming-chi Chen
社會統計
Page.70
虛擬變數Dummy Variables
觀
念
• Base case比較基底（或reference group
參考組）
• 當虛擬變數為0時的所有觀察值。因此虛
擬變數的迴歸係數衡量比較基底與非比較
基底兩群樣本之間的差異。
©Ming-chi Chen
社會統計
Page.71
虛擬變數Dummy Variables
觀
念
E (Y i | X i , D i )   0   1 X i   2 D i
Y  分擔家務工作時數
X  教育年數
1 若樣本為女
D  性別 
 0 若樣本為男
©Ming-chi Chen
社會統計
Page.72
虛擬變數Dummy Variables
觀
念
E (Y i | X i , D i )   0   1 X i   2 D i
當D=0時，
E (Y i | X i , D i  0 )   0   1 x i   2 ( 0 )   0   1 x i
當D=1時，
E (Yi | X i , D i  1)   0   1 X i   2 (1)   0   2   1 x i
©Ming-chi Chen
社會統計
Page.73
虛擬變數Dummy Variables
Y
家
務
時
數
E (Yi | X i , D i  1)  (  0   2 )   1 x i
1
E (Y i | X i , D i  0 )   0   1 x i
0  2
0
教育年數
©Ming-chi Chen
社會統計
X
Page.74
Stata與虛擬變數
• 打開85q1-family.dta
• 依變項為j2，注意缺失值定義和每週家務工作168小時的轉換
（＝112小時）
• 在Stata裡產生虛擬變數
• 以a1受訪者的性別為例
• tab a1, gen(sex)
• 這裡逗點之後的gen就是要求Stata從a1來產生一個名叫sex1
（原本是a1=1男生）和sex2這兩個虛擬變數
• 當然我們只需要用到sex1，而把女生當作對照組
• 還有用婚姻狀態a5產生wed1（未婚）這個虛擬變數（把
a5=3定義為缺失）
• 我另外用eduy這個關於教育年數（小學及以下為6，初中9，
高中12，大專及以上16）的連續變數。
• 作法是generate eduy=6 if b1==1…
©Ming-chi Chen
社會統計
Page.75
Stata與虛擬變數
sex1=1為男生， sex1=0是對照組女生
©Ming-chi Chen
社會統計
Page.76
Stata與虛擬變數
家務時數  23 . 92  0 . 56（教育年數）  11 . 85（男性）
©Ming-chi Chen
社會統計
Page.77
虛擬變數的推論統計
包括男性這個虛擬變數在內的所有變數的迴歸係數都顯著，可
以拒絕虛無假設（係數等於零）
©Ming-chi Chen
社會統計
Page.78
虛擬變數Dummy Variables
觀
念
E (Yi | X i , D i )  23 . 92  0 . 56 教育年數  11 . 85男性
當男性=0時(女性)
E (Yi | X i ,男性  0 )  23.92 - 0.56 教育年數
當男性=1時(男性)
E (Yi | X i ,男性  1)  ( 23.92 - 11.85 (1)) - 0.56 教育年數
©Ming-chi Chen
社會統計
Page.79
虛擬變數Dummy Variables
©Ming-chi Chen
社會統計
Page.80
兩個虛擬變數的迴歸
家務時數
 23.16 - 0.398 ( 教育年數 ) - 11.90 (男性 ) - 5.54 (未婚 )
1
男性  
0
如果是男性
1
未婚  
0
如果未婚
©Ming-chi Chen
如果是女性
如果已婚
社會統計
Page.81
兩個虛擬變數的迴歸
家務時數
 23.16 - 0.398 ( 教育年數 ) - 11.90 (男性 ) - 5.54 (未婚 )
未婚男性
家務時數
 23.16 - 0.398 ( 教育年數 ) - 11.90 (1) - 5.54 (1)
未婚女性
家務時數
 23.16 - 0.398 ( 教育年數 ) - 11.90 ( 0 ) - 5.54 (1)
已婚男性
家務時數
 23.16 - 0.398 ( 教育年數 ) - 11.90 (1) - 5.54 ( 0 )
已婚女性
家務時數
 23.16 - 0.398 ( 教育年數 ) - 11.90 ( 0 ) - 5.54 ( 0 )
©Ming-chi Chen
社會統計
Page.82
兩個以上類別的虛擬變數
當所欲比較的類別超過兩個時，必須在迴歸方
程式中加入K-1個虛擬變數，K為類別數。
1 閩南

 2 客家
族群  
 3 大陸各省市
 4 原住民

©Ming-chi Chen
1
閩南  
0
如果受訪者是閩南人
1
客家  
0
如果受訪者是客家人
1
外省  
0
如果受訪者是外省人
社會統計
如果受訪者不是閩南人
如果受訪者不是客家人
如果受訪者不是外省人
Page.83
兩個以上類別的虛擬變數
家務時數
 14.57 - 0.75 ( 教育年數 )  4 . 89 (閩南 )  5 . 34 (客家 )  6.35 (外省 )  e
閩南：家務時數
 14.57 - 0.75 ( 教育年數 )  4 . 89 (1)  5 . 34 ( 0 )  6.35 ( 0 )  e
客家：家務時數
 14.57 - 0.75 ( 教育年數 )  4 . 89 ( 0 )  5 . 34 (1)  6.35 ( 0 )  e
外省：家務時數
 14.57 - 0.75 ( 教育年數 )  4 . 89 ( 0 )  5 . 34 ( 0 )  6.35 (1)  e
原住民：家務時數
 14.57 - 0.75 ( 教育年數 )  4 . 89 ( 0 )  5 . 34 ( 0 )  6.35 ( 0 )  e
當所有的類別虛擬變數為0時，為比較基底組（參考組）
的迴歸線。
©Ming-chi Chen
社會統計
Page.84
族群虛擬變數的推論統計
族群的虛擬變數都未達顯著水準，可見得對家務時數沒有影響。
©Ming-chi Chen
社會統計
Page.85
比較基底組的選擇
• 究竟哪一組當作比較基底最好沒有一定的答
案，一般的選擇原則為：
• (1) 最大人數組為基底。
• (2) 不要以「其他」類別為基底。
• (3) 人數過少的組別不要當基底。
• (4) 同質性最高的為基底，即標準差最小的組。
©Ming-chi Chen
社會統計
Page.86
Interaction with dummy
variable
• 另外一種常見的非線性關係稱為交互作用
(interaction)。
yˆ  B 0  B1 x1  B 2 x 2
• 在線性迴歸模型中，每一個自變數對
於依變數的影響為固定的，每單位X1
的變動，永遠造成B1單位Y的變動。
• 但有時候x在不同情況下，可能對Y的
影響大小並不同。
©Ming-chi Chen
社會統計
Page.87
Interaction with dummy
variable
• 所謂交互作用，指的是x1對y的影響，決
定於x2的數值。或者說在不同的x2水準
下，x1對Y有不同的影響。
• 現實世界中常有類似的交互作用出現：
• 例如學歷對於收入的影響決定與個人的
聰明才智（聰明人較能發揮學歷的效用）
• 年資對於薪資的影響在公務員、醫生、
農人等不同職業類別中並不相同。
©Ming-chi Chen
社會統計
Page.88
Interaction with dummy
variable
• 欲測試x1, x2是否存在交互作用，僅需將
x1及x2兩變數相乘後放入模型中即可。
y  B 0  B1 x1  B 2 x 2  B 3 x1 x 2  e
• 若x1, x2存在交互作用，則B3的統計檢定
會顯著不同於零。
©Ming-chi Chen
社會統計
Page.89
虛擬變數Dummy Variables + 交叉
E (Y i | X i , D i )   0   1 X i   2 D i   3 X i D i
當D=0時，
E (Y i | X i , D i  0 )   0   1 X i   2 ( 0 )   0   1 X i
當D=1時，
E (Yi | X i , D i  1)   0   1 X i   2 (1)   3 X i
  0   2  (1   3 ) X i
©Ming-chi Chen
社會統計
Page.90
觀
念
虛擬變數Dummy Variables + 交叉
產生交互作用項
到達顯著水準
©Ming-chi Chen
社會統計
Page.91
男女不同的教育效果
對於男性而言
家務時數
 ( 29 . 2  22 . 21 )  (1 . 09  1 . 00 ) 教育年數
對於女性而言
家務時數
 29 . 2  1 . 09 教育年數
 對於女性而言，教育在
©Ming-chi Chen
減少做家事上的效果比
較強。
社會統計
Page.92
男女不同的教育效果
斜
率
和
截
距
都
有
所
不
同
©Ming-chi Chen
社會統計
Page.93
Models involving polynomials
• 在迴歸方程式中，有時自變數以二次項
(parabola)或三次項(cubic polynomial)的型態出
現。
Y   0  1 X
收
入
Y   0  1 X   2 X
Y   0  1 X   2 X
©Ming-chi Chen
年資
2
 3X
2
3
X
社會統計
Page.94
Models involving polynomials
30
28
26
24
22
20
18
y   12 ,819 . 03  1, 658 . 05 x i  16 . 80 x i
2
16
(  5 . 65 )
14
(14.30)
(-12.19)
12
10
INCOME
8
6
4
2
0
20
AGE
©Ming-chi Chen
30
40
50
社會統計
60
70
Page.95

Document

Transcript Document

Directory