簡單迴歸模型係數的統計檢定

Download Report

Transcript 簡單迴歸模型係數的統計檢定

社會統計
第十二講
簡單迴歸模型的統計推論
©Ming-chi Chen
社會統計
Page.1
Population regression line
E( yi xi )    xi
F(Y)
我們假設在母體中,對於每一個xi值
而言,其相對應的yi值遵循某種機率
Y
分配,且期望值為
E(Y | X )  B0  B1 X
我們假設這些
分配有相同的
變異數σ2
0
©Ming-chi Chen
x1
x2
與x相對應的一
組y,其期望值
剛好落在一條直
線上
xn
社會統計
xi
Page.2
Population regression line
由於母體參數β0,β1為未知數,因此母體迴
歸線必須透過觀察到的樣本(xi, yi)來推估
F(Y)
從樣本中可以推估出
β0,β1的估計值,也可以
建構出樣本迴歸線
Y
E(Y | X )  B0  B1 X
yˆi  b0  b1 xi
0
©Ming-chi Chen
x1
x2
由於觀察到樣本點(xi, yi)不會剛好落
在母體迴歸線上,因此yi與E(yi|xi)會
有所差距。
X
xn
社會統計
Page.3
區分母體與樣本迴歸線
觀
念
• 由於我們是從樣本中來估計迴歸線,隨
著抽出樣本的不同,截距b0及斜率b1所
估計出來的也會有所差異。用來估計迴
歸線的截距b0及斜率b1 的估計式
(estimator) 為具有抽樣分配(sampling
distribution)的隨機變數。
yi  B0  B1xi  ε i 母體迴歸線
yi  b0  b1xi  ei
©Ming-chi Chen
樣本迴歸線
社會統計
Page.4
區分母體與樣本迴歸線
100
yi
90
 i  yi  E[ yi | xi ]
80
E ( yi | xi )  0  1 xi
母體迴歸線
ei  yi  yˆi
yˆ  b0  b1 xi
70
樣本迴歸線
60
50
E( yi )  0  1xi
40
20
200
®T¼Öªá¶O
30
400
600
yˆ  b0  b1 xi
800
1000
¦¬¤J
©Ming-chi Chen
社會統計
Page.5
區分母體與樣本迴歸線
100
yi
90
 i  實際值與母體
80
本迴歸線的差距
yˆ  b0  b1 xi
樣本迴歸線
70
60
E( yi )  0  1xi
40
20
200
®T¼Öªá¶O
30
400
600
母體迴歸線
ei  實際值與樣
迴歸預測值的差距
50
E ( yi | xi )  0  1 xi
yˆ  b0  b1 xi
800
1000
¦¬¤J
©Ming-chi Chen
社會統計
Page.6
區分母體與樣本迴歸線
• 因此每一個實際的觀察值可以表為母體迴歸
線的函數或是樣本迴歸線的函數
yi  0  1xi   i  b0  b1 xi  ei
i  yi  E( yi | xi )
E( yi | xi )  0  1xi
ei  yi  yˆi
yˆ  b0  b1 xi
• 我們經常用可觀察的殘差值ei (residual)
來推估未知的εi
©Ming-chi Chen
社會統計
Page.7
Estimation of σe2
在迴歸式中,SSE的自由度為樣本個數
減去估計係數的數目
SSE
S 
[n  ( K  1)]
2
e
Se為迴歸線的估計標準誤(estimated standard error
of the regression) ,代表每一個相對應於X值的Y,
分佈於迴歸線上的變異狀況。 Se愈小,表示Y的
散佈愈集中
©Ming-chi Chen
社會統計
Page.8
Estimation of σe2
SSE
S 
 MSE
[n  ( K  1)]
在簡單迴歸中:
2
e
SSE
Se 

n2
Se 
2
ˆ
e
i
n2

2
ˆ
(
y

y
)
 i i
n2
2
y
 i  b0  yi  b1  xi yi
©Ming-chi Chen
n2
社會統計
Page.9
Estimation of σe2
證明SSE   yi2  b0  yi  b1  xi yi
SSE  e  ei  ei  ei  ( yi  yˆi )
2
i
 ei  yi   yˆi  ei  ei  yi  (b0  b1xi )  ei
  ei  yi  bo  ei  b1  xi  ei
 ( yi  b0  b1xi )  yi
=0
  y  b0  yi  b1  xi yi
2
i
©Ming-chi Chen
社會統計
Page.10
Estimation of σe2
證明SSE  ( yi  y)2  b12 ( xi  x )2
SSE  ei2 ( yi  yˆ )2  ( yi  b0  b1xi )2
 ( yi  y  b1x  b1xi )
2
 [( yi  y)  b1( xi  x )]
2
 b0  y  b1x
 b1 
( x  x )( y  y )
( x  x ) 2
 ( yi  y)2  b12 ( xi  x )2  2b1 ( xi  x )( yi  y)
 ( yi  y)2  b12 ( xi  x )2  2b1b1 ( xi  x )2
 ( yi  y)2  b12 ( xi  x )2 SSE  SSyy  b12 SSxx
©Ming-chi Chen
社會統計
Page.11
Estimation of σe2
SSE  ( yi  y)2  b12 ( xi  x )2
( x  x )( y  y )

 ( y  y)  b
(x  x)

( x  x)
 ( y  y)  b ( x  x )( y  y)
i
2
i
i
1
2
2
i
i
2
i
1
i
i
SSE  SSyy  b1SSxy
©Ming-chi Chen
社會統計
Page.12
Estimation of σe2
stock
股利xi
1
2
3
4
5
6
7
8
9
10
13
4
12
5
6
8
3
4
5
7
股價yi 預測價格
115
45
100
50
55
85
40
50
45
70
112.7953
45.2305
105.2881
52.7377
60.2449
75.2593
37.7233
45.2305
52.7377
67.7521
654.9994
ei
e i2
2.2047
-0.2305
-5.2881
-2.7377
-5.2449
9.7407
2.2767
4.7695
-7.7377
2.2479
0.0006
4.8607
0.05313
27.964
7.495
27.509
94.8812
5.18336
22.7481
59.872
5.05305
255.62
Se 
2
ˆ
e
i
n2
255.6196
Se 
10  2
 31.952
yˆi  15.2017 7.5072xi
©Ming-chi Chen
社會統計
Page.13
Estimation of σe2
stock 股利xi 股價yi xi*yi
1
2
3
4
5
6
7
8
9
10
sum
13
4
12
5
6
8
3
4
5
7
67
115
45
100
50
55
85
40
50
45
70
655
1495
180
1200
250
330
680
120
200
225
490
5170
xi
2
yi
2
169 13225
16
2025
144 10000
25
2500
36
3025
64
7225
9
1600
16
2500
25
2025
49
4900
553 49025
yˆi  15.2017 7.5072xi
SSE   y  b0  yi  b1  xi yi
SSE  49025 (15.2017)(655)  (7.5072)(5170)
 255.663
2
i
©Ming-chi Chen
社會統計
Page.14
公式整理
SSyy   ( yi  y )   y  ny   y 
2
2
i
2
2
i
SSxx   ( xi  x )   x  nx   x 
2
2
i
2
2
i
(  yi )2
n
2
( xi )
SSxy  ( xi  x )( yi  y)   xi yi  nxy
  xi yi 
b1 
SSxy
SSxx
©Ming-chi Chen
n
( xi )( yi )
n
SSE   ( yi  yˆi )2  SSyy 
( SSxy )2
SSxx
SSE  SSyy  b1SSxy  SSyy  b12SSxx
社會統計
Page.15
迴歸的統計檢定
• 統計檢定包含兩部分:
• (1) 迴歸方程式的配適度
• (2) 對截距與斜率的檢定
©Ming-chi Chen
社會統計
Page.16
迴歸方程式的解釋力
• 當我們計算出迴歸線後,我們想進一步知道迴歸
曲線與資料間的適合度(goodness of fit)。
• 母體迴歸線告訴我們x與y有下列線性關係
Yi  b0  b1 xi  ei
• 上式告訴我們有兩個因素會影響Y值的變異:
• Y值會隨著xi值的改變而變:這一部份的變異為
被迴歸線解釋的變異。
• Y值會隨著ei值而變:這一部份為迴歸線無法解
釋的變異。
©Ming-chi Chen
社會統計
Page.17
簡單迴歸模型
100
yˆ  b0  b1xi迴歸線
未被解釋
的變異
90
80
( yi  yˆ )
70
y
( yi  y ) 總變異量
( yˆi  y )
60
50
40
20
200
®T¼Öªá¶O
30
¦¬¤J
©Ming-chi Chen
被解釋的變異
400
600
800
1000
( yi  y )  ( yi  yˆi )  ( yˆi  y )
社會統計
Page.18
變異數的分解
• 未被解釋的變異稱為殘差值residual,第i個
觀察值的殘差值定義為:
yi  yˆi  eˆi
eˆi  yi  yˆi
兩邊減 y  yi  y    yˆi  y   eˆi
或將( yi  y )改寫成
( yi  y )  ( yi  yˆi )  ( yˆi  y )
2
ˆ
ˆ
取平方和   yi  y   [ yi  y   ei ]
2
©Ming-chi Chen
社會統計
Page.19
變異數的分解
2
ˆ
ˆ




y

y

[
y

y

e
]
 i
 i
i
2
2
ˆ
ˆ
 [ yi  y   ei  2 yˆi  y eˆi ]
2
   yˆi  y    eˆi2  2  yˆi  y eˆi
2
   yˆ i  y eˆi   eˆi yˆ i  y  eˆi
  eˆi (b0  b1 xi )  y  eˆi
 b0  eˆi  b1  xi eˆi  y  eˆi  0
©Ming-chi Chen
社會統計
Page.20
變異數的分解
 y
i
 y     yˆi  y    eˆi
2
2
2
SST  SSR  SSE
總變異量
Sum of Square
Total
©Ming-chi Chen
解釋變異量
Regression
Sum of Square
社會統計
未解釋變異量
Sum of Square
Error
Page.21
變異數的分解
SST  SSR  SSE
SSR  SST  SSE
兩邊除SST
SSR
SSE
 1
SST
SST
判定係數為可解
釋變異量佔總變
異量的比例,表
示X對Y的變異之
解釋能力。
SSR
SSE
R 
 1
SST
SST
2
0  R2  1
©Ming-chi Chen
R2愈大,表示X對Y的解釋能
力愈強
社會統計
Page.22
變異數的分解
n
SST    yi  y   SSyy
2
i 1
n
SSE   eˆi  SSyy  b12 SSxx
2
i 1
SSR 
n
2
ˆ


y

y
 i
i 1
b
2
1
(x
©Ming-chi Chen
i
 x)
 SST  SSE  b12 SSxx
2
社會統計
Page.23
變異數的分解
SSR
SSE
R 
 1
SST
SST
2
SSE  (1  R2 )SST
SSE  (1  R )SSyy
2
SSR
2 SSxx
R 
 b1
SST
SSyy
2
©Ming-chi Chen
社會統計
Page.24
變異數的分解
以樣本變異數來計算
2
x
(x  x)  x



2
y
( y  y)  y



2
S
i
i
n 1
i
n 1
2
s
2
2 x
R  b1 2
sy
©Ming-chi Chen
 nx
2
n 1
2
S
2
i
2
 ny
2
n 1
S  0 S  0
2
x
2
y
 R2  0, if and onlyif b1  0
社會統計
Page.25
stock 股利xi 股價yi xi*yi
求R2?
yˆi  15.2017 7.5072xi
SST    yi  y    yi  ny
2
2
2
 49,025 10(65.5)2
 6,122.5
SSE   yi2  b0  yi 
b1  xi yi
1
2
3
4
5
6
7
8
9
10
sum
13
4
12
5
6
8
3
4
5
7
67
115
45
100
50
55
85
40
50
45
70
655
1495
180
1200
250
330
680
120
200
225
490
5170
xi
2
yi
2
169 13225
16
2025
144 10000
25
2500
36
3025
64
7225
9
1600
16
2500
25
2025
49
4900
553 49025
SSE  49025 (15.2017)(655)  (7.5072)(5170)
 255.663
SSE
255.6196
R  1
 1
 .9582
SST
6,122.5
2
©Ming-chi Chen
社會統計
Page.26
 xi  nx
2
S x2 
2
n 1
553 10(6.7)2

9
 11.567
S
2
y
y


i
2
 ny
2
n 1
49,025 10(65.5)2

9
 680.278
stock 股利xi 股價yi xi*yi
1
2
3
4
5
6
7
8
9
10
sum
13
4
12
5
6
8
3
4
5
7
67
115
45
100
50
55
85
40
50
45
70
655
1495
180
1200
250
330
680
120
200
225
490
5170
xi
2
yi
2
169 13225
16
2025
144 10000
25
2500
36
3025
64
7225
9
1600
16
2500
25
2025
49
4900
553 49025
2 

s
2  11.567 
2
2
x 

R  b1 2  7.5072 
  .9582
s 
 680.278
 y
©Ming-chi Chen
社會統計
Page.27
F-檢定
變異來源
迴歸
誤差
總和
平方和(SS)自由度(d.f) 平均平方和(MS)
SSR
1
MSR=SSR/1
SSE
n-2
MSE=SSE/(n-2)
SST
n-1
F
F=MSR/MSE
F檢定統計量可檢定下列兩個假設:
H0: 迴歸方程式無解釋能力(β1 =0)
H1: 迴歸方程式有解釋能力(β1 ≠0)
©Ming-chi Chen
社會統計
Page.28
Population regression line
E( yi xi )    xi
F(Y)
我們假設在母體中,對於每一個xi值
而言,其相對應的yi值遵循某種機率
Y
分配,且期望值為
E(Y | X )  B0  B1 X
我們假設這些
分配有相同的
變異數σ2
0
©Ming-chi Chen
x1
x2
與x相對應的一
組y,其期望值
剛好落在一條直
線上
xn
社會統計
xi
Page.29
Population regression line
由於母體參數β0,β1為未知數,因此母體迴
歸線必須透過觀察到的樣本(xi, yi)來推估
F(Y)
從樣本中可以推估出
β0,β1的估計值,也可以
建構出樣本迴歸線
Y
E(Y | X )  B0  B1 X
yˆi  b0  b1 xi
0
x1
x2
由於觀察到樣本點(xi, yi)不會剛好落
在母體迴歸線上,因此yi與E(yi|xi)會
有所差距。
X
xn
區分母體與樣本迴歸線
觀
念
• 由於我們是從樣本中來估計迴歸線,用
來估計迴歸線的截距b0及斜率b1 的估計
式(estimator) 為具有抽樣分配(sampling
distribution)的隨機變數。
yi  B0  B1xi  ε i 母體迴歸線
yi  b0  b1xi  ei
©Ming-chi Chen
樣本迴歸線
社會統計
Page.31
區分母體與樣本迴歸線
100
yi
90
 i  yi  E[ yi | xi ]
80
E ( yi | xi )  0  1 xi
母體迴歸線
ei  yi  yˆi
yˆ  b0  b1 xi
70
樣本迴歸線
60
50
E( yi )  0  1xi
40
20
200
¦¬¤J
®T¼Öªá¶O
30
400
600
yˆ  b0  b1 xi
800
1000
區分母體與樣本迴歸線
100
yi
90
 i  實際值與母體
80
本迴歸線的差距
yˆ  b0  b1 xi
樣本迴歸線
70
60
E( yi )  0  1xi
40
20
200
¦¬¤J
®T¼Öªá¶O
30
400
600
母體迴歸線
ei  實際值與樣
迴歸預測值的差距
50
E ( yi | xi )  0  1 xi
yˆ  b0  b1 xi
800
1000
區分母體與樣本迴歸線
• 因此每一個實際的觀察值可以表為母體迴歸
線的函數或是樣本迴歸線的函數
yi  0  1xi   i  b0  b1 xi  ei
i  yi  E( yi | xi )
E( yi | xi )  0  1xi
ei  yi  yˆi
yˆ  b0  b1 xi
• 我們經常用可觀察的殘差值ei (residual)
來推估未知的εi
©Ming-chi Chen
社會統計
Page.34
截距與斜率的抽樣分配
觀
念
• 我們想進一步知道從樣本中估計的截距b0及斜率b1 是
不是能夠正確的反映出母體的參數β0及β1。雖然每一
次從樣本中估計出來的迴歸線都不同,但我們如果我
們知道估計式的抽樣分配,則可以用統計檢定的方式
來對我們的母體參數進行統計的推估。
• 因此我們第一步需要知道為截距b0及斜率b1 的抽樣分
配為何?也就是說他們的期望值及標準差為何?
©Ming-chi Chen
社會統計
Page.35
截距與斜率的抽樣分配
觀
念
yi  0  1xi   i
• 其中截距β0及斜率β1 為參數,xi為已知常數,
2
且
 ~ N (0, σ )
i
• 由於yi為常態分配的線性組合(εi為常態分配),
故yi亦為一常態分配
©Ming-chi Chen
社會統計
Page.36
斜率b1的抽樣分配
觀
念
• b1分配的型態為何?E(b1) =? Var(b1)=?
( x  x )( y  y )  ( x  x ) y   ( x  x ) y

b 

(x  x)
(x  x)
=0
(
x

x
)
y

y
(
x

x
)



由於x 為已知常數,因
(
x

x
)

此b 的分配為常態分
i
i
1
i
i
i
2
2
i
i
i
i
i
2
i
i
( xi  x ) yi

2
( xi  x )
©Ming-chi Chen
1
配yi的線性組合,故b1
為常態分配
社會統計
Page.37
斜率b1的抽樣分配先求E(b1) =?
( xi  x )( y i  y )
[(xi  x ) y i ( xi  x ) y ]
b1  

2
( xi  x )
( xi  x ) 2
(x  x) y  y (x  x)  (x  x) y



 (x  x)
 (x  x)
i
i
i
i
2
i
2
i
i
 yi  0  1xi  i
( xi  x )( 0  1 xi   i )

( xi  x ) 2

 0  ( xi  x )
2
(
x

x
)
 i
©Ming-chi Chen

1  ( xi  x ) xi
2
(
x

x
)
 i
社會統計
( x  x )


 (x  x)
i
i
2
i
Page.38
觀
念
斜率b1的抽樣分配
b1 
0  ( xi  x )
( x  x)
2

1  ( xi  x ) xi
( x  x)
i
樣本觀察
值與平均
數之差的
總合為零
 b1  1
2
i
觀
念
( x  x )


( x  x)
i
i
2
i
S xx   ( xi  x )( xi  x )
  ( xi  x ) xi   ( xi  x ) x
 ( xi  x ) xi  x ( xi  x )  ( xi  x ) xi
( x  x )


( x  x)
i
i
2
i
©Ming-chi Chen
社會統計
Page.39
斜率b1的抽樣分配
E (b1 )  1
觀
念
( x  x )

 E[
]
( x  x )
i
i
2
i
因為xi及x為已知常數
( xi  x )
E (b1 )  1  
E ( i )
2
( xi  x )
E (b1 )  1
等於零
∴b1為β1的不偏估計式unbiased
estimator
©Ming-chi Chen
社會統計
Page.40
斜率b1的抽樣分配
(x  x) y

Var(b )  Var[
]
(x  x)
i
觀
念
i
1
2
i
因為xi及x為已知常數
(x  x)

Var(b ) 
[ ( x  x ) ]
利用var(cy)  c2 var(y)
2
i
1
2 2
var(yi )
i ~ N (0, σ )
2
 var(yi )  var[o  1xi  i ]  Var(i )  
i
2
常數
var(yi ) var( i )  2
Var(b1 ) 


SSxx
SSxx
SSxx
©Ming-chi Chen
社會統計
Page.41
斜率b1的抽樣分配
Var(b1 )  E[b1  E(b1 )]2  E(b1  1 )2
( x  x )

b   
E (b   )
 (x  x)
1

E ( ( x  x ) )
( ( x  x ) )
i
1
i
2
1
1
1
i
2
觀
念
 E (b1 )  1
( x  x )

 E[
]
 (x  x)
i
i 2
2
i
2
2 2
i
i
i
1
2
2
2 2
2
2

E
[(
x

x
)


(
x

x
)



(
x

x
)

1
1
2
2
n
n
( ( xi  x ) 2 ) 2
 2( x1  x )(x2  x )1 2  ]
©Ming-chi Chen
社會統計
Page.42
斜率b1的抽樣分配
觀
念
1
2
2
2 2
2
2

E[(x1  x ) 1  ( x2  x )  2  ( xn  x )  n
2 2
( ( xi  x ) )
 2( x1  x )(x2  x )1 2  ]
 var( i )  E[( i  E( i ))2 ]  E( i2 )   2
 E( i j )  0, i  j
1
2 2
2 2
2 2

[(
x

x
)


(
x

x
)



(
x

x
)
  0  0]
1
2
n
2 2
( ( xi  x ) )

2
(
x

x
)
 i
( ( xi  x ) 2 )
©Ming-chi Chen
2


2
2
2
(
x

x
)
 i
社會統計
Var(b1 ) 

2
SSxx
Page.43
斜率b1的抽樣分配
觀
念
從以上的討論得知:
b1 ~ N ( 1,

2
SSxx
Z
)
b0 ~ N ( 0 ,
©Ming-chi Chen


2
~ N (0,1)
2
(
x

x
)
 i
b0的抽樣分配證明略
2
b1  1
x
2
i
n  ( xi  x )
未知數
2
社會統計
)
Page.44
Estimation of σe2
觀
念
• 令真正的變異數(true variance)可分別表
為σ2b0及σ2b1。
• 一般而言, σ2b0及σ2b1通常為未知數(因為σ2未
知),必須從樣本中估計求得,以符號S2b0及
S2b1來表示估計的變異數。同理,我們以σb0及
σb1來表示b0及b1的真正標準誤差,以Sb0及Sb1
來表示估計的標準誤差(estimated standard
error) 。
©Ming-chi Chen
社會統計
Page.45
Estimation of σe2
Var( i )  E[( i  E ( i )) ]  E[  2 i E ( i )  ( E ( i )) ]
2
2
i
2
 E ( i2 )   2
如何估計σ2?一個簡單的方法為利用Sum of
Square Error (SSE)來估算
E[ ]  E[     ]
2
i
2
1
2
2
2
n
 E[ ]  E[ ]  E[ ]
2
2
2
2
         n
2
1
©Ming-chi Chen
2
2
2
n
社會統計
E[
2

i
n
]
2
Page.46
Estimation of σe2
但實際上,因為我們不知道真正的母體迴
歸線,所以也就無法知道真正的εi。因此
我們必須以估計的殘差值ei來取代
ei  yi  yˆi  yi  (b0  b1xi )
但E[
2
e
i
n
©Ming-chi Chen
]
2
 E[
2
e
i
n2
社會統計
]
2
Page.47
Estimating standard error of b0 and b1
觀
念
• 截距b0及斜率b1的真正變異數的公式
n

Var(b0 )   b20 
Var(b1 )  
2
b1

x
i 1

2
i
 n 2
2
n  xi  nx 
 i 1

2
n
x
i 1
©Ming-chi Chen
2
2
i
 nx

2

2
x
 i
i 1
 n
2
n  ( xi  x ) 
 i 1

2
n
 x
i 1
社會統計
n
2
i
 x
2
Page.48
Estimating standard error of b0 and b1
觀
念
• 由於σ2未知
sb1 
sb0 
se
2
2
x

n
x
i
se

2


 xi  x
2
x
 i
n x  nx
SSE
Se 

n2
©Ming-chi Chen
se
2
i
2
e
2
i
n2



Estimated
standard error
of b1
se  xi2
n  xi  x 
2
Estimated
standard error
of b0
2
ˆ
 ( yi  yi )
社會統計
n2
Page.49
例題
• 求迴歸線yi=b0+b1xi+ei 的斜率與截距並計算R2及兩
個係數的估計標準誤差。
x
400
300
350
400
200
300
375
380
325
400
3430
y
350
250
325
370
180
270
330
350
300
360
3085
xy
x2
140000 160000
75000
90000
113750 122500
148000 160000
36000
40000
81000
90000
123750 140625
133000 144400
97500 105625
144000 160000
1092000 1213150
©Ming-chi Chen
y2
122500
62500
105625
136900
32400
72900
108900
122500
90000
129600
983825
社會統計
x  3430 / 10  343
y  3085/ 10  308.5
xi yi  10 xi yi

b1 
2
2
x

10
x
 i
1092000 10(343)(308.5)

3430 10(343) 2
 .9232
b0  y  b1x  8.162
Page.50
例題
• 畫出迴歸線:
expenditure
400
300
yˆ  8.16  0.92xi
200
200
©Ming-chi Chen
250
300
income
350
社會統計
400
Page.51
例題
x
y
xy
x2
y2
Σ 3430 3085 1092000 1213150 983825
10
10
SST    yi  y    yi2  10 y 2  32,102.50
2
i 1
i 1
SSE   yi2  b0  yi  b1  xi yi  856.367
SSE
s 
 107 .046
n2
2
e
se  10.346
SSE
R  1
 .9733
SST
2
©Ming-chi Chen
社會統計
Page.52
例題
x
y
xy
x2
y2
3430 3085 1092000 1213150 983825
sb1 
sb0 
se

2
2
x

n
x
i
se
2
x
i
n x  nx
©Ming-chi Chen
2
i
10.346
2

1213150 10(343)2

se  10.346
 .054
10.346 1213150
10[1213150 10(343) ]
2
社會統計
 18.8211
Page.53
Hypothesis Testing in the Linear
Regression Model
觀
念
• 知道b1的分配及標準誤差後,我們可以
進行統計推論
b 
Z
1
1

2
~ N (0,1)
2
(
x

x
)
 i
• 若以S2e來推估2,則
t
b1  1
2
~ t ( n  2)
Se
2
(
x

x
)
 i
©Ming-chi Chen
社會統計
Page.54
Hypothesis Testing in the Linear
觀
Regression Model
念
• 在迴歸的統計檢定中,我們想要知道自變數x
是否對於解釋y有用,也就是說x與y之間是否
具有線性關係?
E( yi | xi )  0  1xi
• 一般而言,如果x與y之間存在一線性
關係,則β1≠0
©Ming-chi Chen
社會統計
Page.55
Hypothesis Testing in the Linear
Regression Model
觀
念
• 我們要檢驗下列的虛擬假設:
H0 : 1  0 Two-side test 父母的收入與兒女
H1 : 1  0 的在校成績
H0 : 1  0 or H0 : 1  0
H1 : 1  0
One-side test 學歷與薪資的關係
H0 : 1  0 or H0 : 1  0
One-side test 私校學費與註冊人
H1 : 1  0
數之關係
©Ming-chi Chen
社會統計
Page.56
Hypothesis Testing in the Linear
Regression Model
觀
念
• 我們也可以檢驗斜率等於某特定值β*:
H0 : 1  2000 每增加一年的學歷薪水增加
H1 : 1  2000
©Ming-chi Chen
$2000
社會統計
Page.57
Hypothesis Testing in the Linear
Regression Model
觀
念
• 斜率的單邊假設檢定:
H0 : 1  1* or H0 : 1  1*
H1 : 1  1*
b1  
t
Sb1
*
1
如果t  t ,n2則reject H0
t ,n2為在t分配中的 criticalvalue使
P(t  t . n-2 )  
©Ming-chi Chen
社會統計
Page.58
Hypothesis Testing in the Linear
Regression Model
觀
念
• 斜率的單邊假設檢定:
H0 : 1  1* or H0 : 1  1*
H1 : 1  1*
b1  
t
Sb1
*
1
如果t  t ,n2則reject H0
t ,n2為在t分配中的 criticalvalue使
P(t  t . n-2 )  
©Ming-chi Chen
社會統計
Page.59
Hypothesis Testing in the Linear
Regression Model
觀
念
• 斜率的雙邊假設檢定:
H0 : 1  1*
H1 : 1  1*
b1  
t
Sb1
*
1
如果t  t
2
,n 2
如果t  t
2
©Ming-chi Chen
則reject H0
則reject H0
,n  2
社會統計
Page.60
例題
• 上例收入與支出的關係,以α=.01檢定H0: β1 =
0 vs. β1 > 0
2
yˆ  8.16  0.92xi
400
R  .9733
(18.82) (.054)
expenditure
t .01,8  2.896
300
t
b1  0 .9232

 17.10  t .01,8  2.896
Sb1
.054
200
200
250
©Ming-chi Chen
300
income
350
400
社會統計
Page.61
例題
• 上例收入與支出的關係,以α=.05檢定H0: β1
= .90 vs. β1 ≠.90
yˆ  8.16  0.9232xi
R2  .9733
(18.82) (.054)
t .025,8  2.306
b1  1* .9232 .90
t

 .4298 t .025,8  2.306
Sb1
.054
©Ming-chi Chen
社會統計
Page.62
截距的檢定例題
• 續上例,以α=.05檢定H0: β0 = 0 vs. β0 ≠0
yˆ  8.16  0.9232xi
R2  .9733
(18.82) (.054)
t .025,8  2.306  t .025,8  2.306
b0  0  8.162 0
t

 .433  t .025,8  2.306
Sb0
18.82
©Ming-chi Chen
社會統計
Page.63
15.7 Confidence Intervals for the
Regression Coefficients
b1  1 t依循自由度為(n-2)的t分配:
t
sb1
P t 2,v  t  t 2,v   1  


b


1
1
P  t 2,v 
 t 2,v   1  


s
b
1


Pb1  t 2,v sb1  1  b1  t 2,v sb1   1  
©Ming-chi Chen
社會統計
Page.64
15.7 Confidence Intervals for the
Regression Coefficients
Pb1  t 2,v sb1  1  b1  t 2,v sb1   1  
上述公式指出,如果我們重複抽樣來計算樣本迴
歸線的斜率,則β1的值有100(1-α)%的機率會落
於以下區間:
b  t
1
s , b1  t 2,v sb1 
 2,v b1
其中t值得自當自由度為υ = (n-2)時的t分配, 上述
的區間稱為β1的100(1-α)%信賴區間。
同理,我們可以找出截距的信賴區間:
b  t
0
©Ming-chi Chen
s , b0  t 2,v sb0
 2,v b0
社會統計

Page.65
例題
• 求下列迴歸線斜率的90%信賴區間,(n=10):
yˆ  8.16  0.9232xi
R2  .9733
(18.82) (.054)
  0.05, v  (n  2)  8, t.05,8  1.860
b  t
1
s , b1  t 2,v sb1  
 2,v b1
0.9232 1.860.054,
0.9232 1.860.054
 (0.82277, 1.02365)
©Ming-chi Chen
社會統計
Page.66
例題
• 1987年USA Today報導一研究發現懷孕時吸煙的母
親,其兒女在三歲時的IQ比不吸煙的母親平均少5分,
你想驗證上述的假設,記錄母親懷孕時每日的吸煙
根數(xi) 及兒女在三歲時的IQ(yi) ,你心中假設的模
型為:
E(Yi | xi )  β 0  1xi
• 抽取父母親IQ相當的20個樣本家庭,計算樣
本迴歸模型如下: yˆi  104  .60xi
R2  .17
請分析這個結果
©Ming-chi Chen
(1.2) (.15)
社會統計
Se  7.8
Page.67
例題
yˆi  104  .60xi
R2  .17
(1.2) (.15)
Se  7.8
斜率為-0.60如何解釋?
代表樣本中,母親每吸一根菸,baby的智商減少
0.60分
截距為104如何解釋?
代表不吸煙母親的子女的智商預測值為104
©Ming-chi Chen
社會統計
Page.68
例題
yˆi  104  .60xi
R2  .17
(1.2) (.15)
Se  7.8
可不可以將樣本所得的結果推論至母體(概化)?
必須檢定母親的吸煙對兒女智商無影響的假設,即
H0 : 1  0
H1 :   0
b1  .60
t

 4.00  t.05,18  1.734
Sb1
.15
RejectedH0 : 1  0
©Ming-chi Chen
社會統計
Page.69
例題
yˆi  104  .60xi
R2  .17
(1.2) (.15)
Se  7.8
The 95% confidence interval:
b1  t 2,v sb1 , b1  t 2,v sb1  
 .60  2.101.15,
 .60  2.101.15
 (.9152,  .2849)
表示在95%的信心水準下,我們可以說真正的1值
介於此區間中。
©Ming-chi Chen
社會統計
Page.70
例題
yˆi  104  .60xi
R2  .17
(1.2) (.15)
Se  7.8
• R2=0.17 說明母親的吸煙數量解釋了17%的兒女IQ
變異量。
• 或者說,尚有83%的IQ變異無法由抽煙與否來解釋。
©Ming-chi Chen
社會統計
Page.71
社會統計
12.2
利用簡單迴歸模型作預測
©Ming-chi Chen
社會統計
Page.72
15.8 Prediction using the
regression model
• 迴歸線可以用來估計在某一特定x值之下,Y
的預測值:
• 我們可以用迴歸線來估計在xi下的新觀察值Y
Yi    xi   i
• 我們也可以用迴歸線來估計在xi下的Y的期望值
(或平均值)
E(Yi | xi )    xi
©Ming-chi Chen
社會統計
Page.73
Prediction using the regression
model
• 由於我們不知道母體迴歸線,因此Yi及
E(Y|xi)最好的預測值為
yˆi  b  b1 xi
• 雖然特定Yi的預測值與預測的期望值E(Yi|xi)相同,
皆為b0+b1xi。但兩者的抽樣誤差不同,因為估計
Yi的期望值(平均值)不需要考慮隨機誤差項ei。
©Ming-chi Chen
社會統計
Page.74
Prediction using the regression
model
• Effects of Sampling Error:
E(Yi | xi )    xi
估計
yˆi  b  b1 xi
ˆ
 y不會剛好等於
E(Yi | xi )
• 預測Yi的期望值E(Yi|xi)會有來自於用樣本迴歸
線來估計母體迴歸線所造成的抽樣誤差。
©Ming-chi Chen
社會統計
Page.75
Prediction using the regression
model
• Effects of Sampling Error:
Yi    xi   i
yˆi  b  b1xi  0
估計
ˆ
 y不會剛好等於
Yi
• 預測單獨Yi的值會有來自於用樣本迴歸線來
估計母體迴歸線所造成的抽樣誤差+ 用0來
推估εi 的誤差。
©Ming-chi Chen
社會統計
Page.76
Confidence Interval for Predictions
我們希望知道樣本迴歸線的預測值(yhat)的抽樣分配,才能對E(Y|xi)從事統
F(Y) 計推論
Y
E(Y | X )  B0  B1 X
yˆi  b0  b1 xi
0
x1
x2
xn
X
區分母體與樣本迴歸線
100
特定yi
90
 i  yi  E[Yi | xi ]
80
母體迴歸線
ei  yi  yˆi
E (Yi | xi )
70
E ( yi | xi )  0  1 xi
yˆ  b0  b1 xi
樣本迴歸線
60
50
yˆ
E( yi )  0  1xi
40
20
200
¦¬¤J
®T¼Öªá¶O
30
400
600
yˆ  b0  b1 xi
800
1000
E(Y|xi)之估計與檢定
• X=某特定值xp時,Yp的期望值?
yˆ p  b0  b1x p
E( y p | x p )  E(b0  b1x p )
 E(b0 )  x p E(b1 )
 0  1x p
©Ming-chi Chen
社會統計
Page.79
E(Y|xi)之估計與檢定
• X=某特定值xp時,Yp的變異數=?
yˆ p  b0  b1x p y  b1x  b1x p  y  b1 ( x p  x )
Var( yˆ p )  Var(b0  b1x p )  Var[ y  b1 ( x p  x )]
y

 Var[
]  (x
i

e
n
n
2
 ( xp  x)
2
2

x
)
Var(b1 )
p
e
2
( x  x)
i
( x p  x )2
1
 e [ 
]
2
n  ( xi  x )
2
©Ming-chi Chen
2
yi
1
1
]  2 Var[yi ]  2 Var[ei ]
n
n
n
1
1
 2 Var[e1  e2  ]  2  2
n
n
Var[
社會統計
nσ2
Page.80
E(Y|xi)之估計與檢定
• 因此E(Yp|xp)的抽樣分配為
( xp  x)
1
])
E(Yp | x p ) ~ N (0  1x p ,  e [ 
2
n  ( xi  x )
2
2
• 以se來取代σe
(xp  x)2
1
])
E(Yp | x p ) ~ N (0  1x p , se [ 
2
n  ( xi  x )
2
©Ming-chi Chen
社會統計
Page.81
E(Y|xi)之估計與檢定
• 在一特定xp值下,其相對應的期望值E(Yp|xp)的(1-α)
的信賴區間為
Yˆp  t 2,v se
©Ming-chi Chen
(xp  x)
1

2
2
n  x  nx
2
社會統計
Page.82
E(Y|xi)之估計與檢定
• 在一特定xp值下,其相對應的預測值Yp的(1-α)的信
賴區間為
(
x

x
)
1
p
Yˆp  t 2,v se 1  
2
2
n  x  nx
2
Yp的信賴區間較E(Yp | x p )寬(課本269- 270頁)
©Ming-chi Chen
社會統計
Page.83
E(Y|xi)之估計與檢定
Yˆp  t 2,v se
(xp  x)
1

2
2
n  x  nx
2
• 其他條件不變,樣本數n愈大,預測
值的信賴區間愈小,我們對預測的信
心隨著樣本數的增加而增加。
©Ming-chi Chen
社會統計
Page.84
E(Y|xi)之估計與檢定
Yˆp  t 2,v se
(xp  x)
1

2
2
n  x  nx
2
• 其他條件不變,se愈大,預測值的信賴區
間愈大。 Se為σe的估計,代表依變項觀察
值Yi與及其期望值之間的差異, se愈大,
表示Yi愈不集中於母體迴歸線的週遭。
©Ming-chi Chen
社會統計
Page.85
E(Y|xi)之估計與檢定
Yˆp  t 2,v se
(xp  x)
1

2
2
n  x  nx
2
2
2
2
x

n
x

(
x

x
)

(
n

1
)
s
i
 i
x
• 其他條件不變,sx2 愈大,我們對x值
的分佈知道的愈廣,因而對Y的預測會
愈準。
©Ming-chi Chen
社會統計
Page.86
E(Y|xi)之估計與檢定
Yˆp  t 2,v se
(xp  x)
1

2
2
n  x  nx
2
2
2
2
x

n
x

(
x

x
)

(
n

1
)
s
i
 i
x
• 特定的xp值離x分佈的中心值愈遠,則
我們的預測越不準。
• CI最窄的部分出現在 x p  x
©Ming-chi Chen
社會統計
Page.87
例題
• 汽車保養費Yi與車齡xi呈線性關係,取15輛車來估計
迴歸線得
yˆi  50  25xi
假設se  30, x  50, ( x2  nx )  50
• 求當xp =1,2,3,4…9時,Yi期望值的95%信賴
區間
©Ming-chi Chen
社會統計
Page.88
例題
yˆi  50  25xi 假設se  30, x  50, ( x  nx )  50
2
  0.05, v  (n  2)  13 t.025,13  2.160
xp y-hat
1
75
2
100
3
125
4
150
5
175
6
200
7
225
8
250
9
275
©Ming-chi Chen
0.62
0.50
0.38
0.29
0.26
0.29
0.38
0.50
0.62
Lower
( 34.82
( 67.60
( 100.38
( 131.21
( 158.15
( 181.21
( 200.38
( 217.60
( 234.82
,
,
,
,
,
,
,
,
,
Upper
115.18
132.40
149.62
168.79
191.85
218.79
249.62
282.40
315.18
社會統計
)
)
)
)
)
)
)
)
)
Page.89
350
300
例題
• 特定的xp值離x分佈的中心
值愈遠,則我們的預測越不
準。
• CI最窄的部分出現在x-bar
250
200
150
100
50
0
©Ming-chi
Chen
0
2
4
社會統計
6
8
Page.90
10
相關係數與斜率
• 簡單迴歸的斜率:
b1
 x  x  y  y 


 x  x 
i
i
2
i
• 分子分母除以n-1:
b1
s XY
b1  2
sX
s XY
r
s X sY
©Ming-chi Chen
x  x  y  y  n  1


 x  x  n  1
i
i
2
i
sY
b1  r
sX
sX
r  b1
sY
社會統計
 sx  0, sy  0
r與b1的正負號相同
r=0 if and only if b1=0
Page.91
例題
求x與y的correlation?
i
1
2
3
4
5
6
xi
3
5
1
6
8
7
30
yi x-E(x) y-E(y) (x-E(x))(y-E(y)) (x-x)2 (y-y)2
6
-2
-4
8
4
16
12
0
2
0
0
4
3
-4
-7
28
16
49
13
1
3
3
1
9
14
3
4
12
9
16
12
2
2
4
4
4
60
55
34
98
s XY
55
r

 .953
s X sY
34 98
©Ming-chi Chen
社會統計
Page.92
例題
求x與y的簡單迴歸線斜率b1?
i
1
2
3
4
5
6
b1
xi
3
5
1
6
8
7
30
yi x-E(x) y-E(y) (x-E(x))(y-E(y)) (x-x)2 (y-y)2
6
-2
-4
8
4
16
12
0
2
0
0
4
3
-4
-7
28
16
49
13
1
3
3
1
9
14
3
4
12
9
16
12
2
2
4
4
4
60
55
34
98
 x  x  y  y 


 x  x 
i
i
2
i

55
 1.167
34
©Ming-chi Chen
sY
98
b1  r
 (.953)
 1.1679
sX
34
yˆi  1.912  1.6176xi
r 2  (.953)(.953)  .91
社會統計
Page.93
變異數的分解
n
SST    yi  y   SSyy
2
i 1
n
SSE   eˆi  SSyy  b12 SSxx
2
i 1
SSR 
n
2
ˆ


y

y
 i
i 1
b
2
1
(x
©Ming-chi Chen
i
 x)
 SST  SSE  b12 SSxx
2
社會統計
Page.94
變異數的分解
SSR
SSE
R 
 1
SST
SST
2
( xi  x )
( yi  y ) 2
2
SSE  (1  R2 )SST
( yi  y ) 2
SSE  (1  R )SSyy
2
n 1
n 1
sX
r  b1
sY
SSR
2 SSxx
R 
 b1
SST
SSyy
2
©Ming-chi Chen
( xi  x ) 2
社會統計
Page.95