Transcript Document

統計學導論
方世榮 著
Chapter 13
迴歸分析與相關分析
本 章
綱 要
13.1迴歸分析的基本概念
13.2迴歸係數β0與β1的估計
13.3估計的迴歸係數b0與b1之抽樣分配
13.4迴歸分析中重要的統計推論
13.5判定係數與顯著性檢定
13.6迴歸預測
Chapter 13
迴歸分析與相關分析
本 章
綱 要
13.7相關分析
13.8非線性關係的處理
13.9線性複迴歸
13.1 迴歸分析的基本概念
導論
簡單直線迴歸
簡單直線迴歸模型
統計學導論 Chapter 13 迴歸分析與相關分析
13-4
導論(1/2)
在迴歸分析中,必有一因變數(dependent variable)
又稱為被解釋變數(explained variable)或被預測變
數(regressand),一般以y表示;且可能有數個自
變數(independent variable),又稱為獨立變數或
預 測 變 數 (predictor) 或 解 釋 變 數 (explanatory
variable),一般以xi表示。
如 果 自 變 數 只 有 一 個 , 稱 為 簡 單 迴 歸 (simple
regression);若自變數有二個或二個以上者,則
稱為複迴歸(multiple regression)。
統計學導論 Chapter 13 迴歸分析與相關分析
13-5
導論(2/2)
若變數間具有統計關係,則進行迴歸分析目的在
找出一適當的數學方程式以表示其關係,此方程
式謂之迴歸方程式(regression equation)。
若迴歸方程式具線性特性者,則稱為直線迴歸
(linear regression) ; 否 則 稱 為 非 直 線 迴 歸
(nonlinear regression)。
統計學導論 Chapter 13 迴歸分析與相關分析
13-6
簡單直線迴歸(1/3)
表13-1 簡單迴歸的資料結構
自變數x
因變數y
x1
y1
x2
y2
x3
y3
…
…
xn
yn
統計學導論 Chapter 13 迴歸分析與相關分析
13-7
簡單直線迴歸(2/3)
表13-2 藥濟量(x)與解除症狀持續天數(y)
藥劑量x
3
3
4
5
6
6
7
8
8
9
統計學導論 Chapter 13 迴歸分析與相關分析
解除症狀的持天數y
9
5
12
9
14
16
22
18
24
22
13-8
簡單直線迴歸(3/3)
圖13-1 表13.2之散布圖
統計學導論 Chapter 13 迴歸分析與相關分析
13-9
簡單直線迴歸模型(1/4)
直線迴歸的統計模型
假設因變數y代表一隨機變數,而自變數x則視為
已知的固定常數;若y與x具有直線迴歸關係,則
其關係式為
yi=β0+β1xi+ei,i=1,2,…,n
(13-1)
式中
yi 表示進行第i次實驗時,對應於自變數xi 值的
反應。
統計學導論 Chapter 13 迴歸分析與相關分析
13-10
簡單直線迴歸模型(2/4)
e1,…,en為真實線性關係式的誤差項。這些值皆
為不可觀察的隨機變數,假設其為獨立且平均
數為0,變異數為未知的σ2 之常態分配;亦即
ei~N(0,σ)。
參數β0 與β1 ,表示此直線方程式的係數,亦稱
為迴歸係數(regression coefficient),且皆為未
知的。
統計學導論 Chapter 13 迴歸分析與相關分析
13-11
簡單直線迴歸模型(3/4)
E(yi)=β0+β1xi;
i=1,2,…,n
(13-2)
Var(yi)=σ2或Sd(yi)=σ
(13-3)
yi~N(β0+β1xi ,σ)
(13-4)
統計學導論 Chapter 13 迴歸分析與相關分析
13-12
簡單直線迴歸模型(4/4)
圖13.3 y為常態分配,其平均數位於直線E(y)=β0+β1x上
統計學導論 Chapter 13 迴歸分析與相關分析
13-13
13.2 迴歸系數β0與β1的估計
最小平方法
最大概似法
統計學導論 Chapter 13 迴歸分析與相關分析
13-14
最小平方法
圖13.4 觀察值與直線y=b0+b1x之離差
統計學導論 Chapter 13 迴歸分析與相關分析
13-15
最小平方原理(1/2)
求出迴歸係數的值,使得
n
D   ( yi  b0  b1 xi )2
i
最小化;此一方法稱為最小平方估計(least square
estimation)。
統計學導論 Chapter 13 迴歸分析與相關分析
13-16
最小平方原理(2/2)
1
1
b0   yi  b1  xi
n
n
x i yi  (  x i  yi ) / n

b1 
2
2
x

(
x
)
 i  i /n
統計學導論 Chapter 13 迴歸分析與相關分析
(13-9)
(13-10)
13-17
基本符號(1/2)
1
1
x   x i , y   yi
n
n
SSX   ( xi  x )   x 
2
2
i
SSY   ( yi  y )2   yi2 
(  xi )
2
n
(  yi ) 2
n
SSXY   ( xi  x )( yi  y )   xi yi 
統計學導論 Chapter 13 迴歸分析與相關分析
(  xi )(  yi )
n
13-18
基本符號(2/2)
式中SSX與SSY分別稱為X與Y的平方和(sum of
square for X and Y),SSXY稱為X、Y的交叉平方
和(sum of cross product for X,Y)。
統計學導論 Chapter 13 迴歸分析與相關分析
13-19
 0 最小平方估計值b0  y  b1 x
1之最小平方估計值b1  SSXY / SSX
eˆi  yi  yˆ i  yi  b0  b1 xi
 eˆ   ( y  yˆ )
 ( y  b  b x )  0
 eˆ   ( y  yˆ )  最小
i
2
i
0
i
i
2
i
,n
(13-12)
(13-13)
i
i
i
i  1, 2,
(13-11)
i
統計學導論 Chapter 13 迴歸分析與相關分析
(13-14)
(13-15)
13-20
最大概似估計法原理
利用函數式
L(Xi,X2,…,Xn;θ)=f(X1;θ)f(X2;θ)…f(Xn;θ)=L(θ)
( )
 2 L( )
ˆ之估計值。
使
 0且

0
,而求得

( )
 2
其:f(X1,…,Xn)為自母體中所抽出之ㄧ組隨機樣
本,θ代表母體參數。
統計學導論 Chapter 13 迴歸分析與相關分析
13-21
13.3 估計的迴歸係數b0與b1之抽樣
分配(1/2)
SSE
ˆ 
n2
SSE 63.6528
2
ˆ 
=
 7.96
n2
8
b1~N ( 1 ,  b1 )
2
2

b1
ˆ b2 
1
2
(x
i
 x)
2

(13-20)
(13-21)
2
SSX
(13-22)
ˆ 2
2
(
x

x
)
 i
統計學導論 Chapter 13 迴歸分析與相關分析
(13-23)
13-22
13.3 估計的迴歸係數b0與b1之
抽樣分配(1/2)
b1  1
b
 Z~N (0,1)
(13-24)
1
b1  1
~t ( n  2)
ˆ b1
b0~N (  0 ,  b0 )
2


1
x
2
2
ˆ b0    
2
 n  ( xi  x ) 
2


1
x
2
2
ˆ b 0  ˆ  
2
 n  ( xi  x ) 
統計學導論 Chapter 13 迴歸分析與相關分析
(13-25)
(13-26)
(13-27)
13-23
母體與樣本迴歸模型的關係
統計學導論 Chapter 13 迴歸分析與相關分析
13-24
13.4
迴歸分析中重要的
統計推論
檢定
H0:β1=β10
其檢定統計量為(其中β10 表示任何已知的參數值),
(b 1  10 )
t
d. f .  n  2
ˆ / SSX
統計學導論 Chapter 13 迴歸分析與相關分析
13-25
截距β0之推論
檢定統計量t 
b0  t / 2ˆ
b0
1
x2
ˆ

n SSX
df  n  2
(13-30)
2
1
x

n
n SSX
統計學導論 Chapter 13 迴歸分析與相關分析
(13-31)
13-26
13.5
判定係數與顯著性
檢定
樣本點
圖13.6 迴歸變異分析圖
統計學導論 Chapter 13 迴歸分析與相關分析
13-27
迴歸平方和之分割定理
總 變 異 (SST)= 無 法 解 釋 的 變 異 (SSE)+ 迴 歸 變 異
(SSR)
2
2
ˆ
(
y

y
)

(
y

y
)

(
y

y
)
 i
 i i  i
(13-32)
總變異(SST)=無法解釋的變異(SSE)+迴歸變異
(SSR)
2
SST   ( yi  y )   y i 
2
2
(  yi )
SSR   ( yˆ i  y )2  b1 SSXY
n
 SSY
SSE   ( yi  yˆ i )2  SST  b1  SSXY
統計學導論 Chapter 13 迴歸分析與相關分析
(13-33)
(13-34)
(13-35)
13-28
判定係數
判定係數(coefficient of determination),以R2表示
迴歸變異 SSR SST  SSE
SSE
R 


 1
總變異
SST
SST
SST
2
0  R2  1
統計學導論 Chapter 13 迴歸分析與相關分析
13-29
顯著性檢定
表13-4 迴歸變異數分析表
變異來源
平方和(SS)
自由度df
迴歸
 ( yˆ i  y )  SSR
k
誤差
 ( yi  yˆ i )  SSE
n–k–1
總變異
 ( yi  y )  SST
n–1
2
2
均方
SSR
k
SSE
MSE 
n  k 1
MSR 
F比值
F
MSR
~F ( k , n  k  1)
MSE
2
統計學導論 Chapter 13 迴歸分析與相關分析
13-30
F-檢定與t-檢定的區別
t-檢定用於個別迴歸係數之顯著性檢定,而F-檢定
則可用於整條迴歸模型之顯著性檢定。
t-檢定可對某一特定數值(不一定等於零)進行檢定,
但F-檢定只能對零值進行檢定。
在簡單直線迴歸模型下,t-檢定的假設為H0:β1=0;
H1:β1≠ 0 ,而F-檢定的假設亦可寫成 H0:β1=0 ;
H1:β1≠0。此時兩者的檢定統計量之關係為
t2 / 2 ( n  1)  F (1, n  1)
統計學導論 Chapter 13 迴歸分析與相關分析
(13-39)
13-31
13.6 迴歸預測(1/3)
特定x0值下平均反應值 E(y|x0) 之預測
yˆ 0  b0  b1 x
E ( yˆ 0 )   y0   y x0  b0  b1 x0
S  E ( yˆ 0 )   y 0
(13-40)
1 ( x0  x ) 2


n
SSX

1 ( x0  x ) 2
yˆ 0~N  b0  b1 x0 , 


n
SSX

1 ( x0  x ) 2
(b0  b1 x0 )  t / 2ˆ

n
SSX
統計學導論 Chapter 13 迴歸分析與相關分析
(13-41)




(13-42)
(13-43)
13-32
13.6 迴歸預測(2/3)
特定x0值下單一反應值y0之預測
E ( y0 )   y 0  E (eˆ0 )   y 0 (因為E (eˆ0 )  0)
Var ( y0 )  Var ( yˆ 0 )  Var (eˆ0 )
 Var ( yˆ 0 )   2
 1 ( x0  x ) 2  2
 1  

SSX 
 n

y0~N  0  1 x0 ,  1  1 / n  ( x0  x )2 / SSX
統計學導論 Chapter 13 迴歸分析與相關分析

13-33
13.6 迴歸預測(3/3)
y
ŷ
信賴區間的界限
預測區間的界限
x
x
圖13.7 信賴區間與預測區間之圖示
統計學導論 Chapter 13 迴歸分析與相關分析
13-34
迴歸分析的步驟(1/2)
建立迴歸模型:從散布圖觀察,若觀察值近似直
線分布,則可建立直線迴歸模型(方程式),包括
母體迴歸與樣本迴歸模型。
估計迴歸模型:利用最小平方法估計迴歸係數,
並瞭解迴歸係數估計量(如b0與b1)之抽樣分配。
統計學導論 Chapter 13 迴歸分析與相關分析
13-35
迴歸分析的步驟(2/2)
評判迴歸模型:評估此模型的品質,包括
(1)採t-檢定來測驗個別迴歸係數的顯著性。
(2)計算判定係數以分析迴歸解釋能力的高低。
(3)採F-檢定來測驗整體迴歸模型之配適度,亦
即檢定迴歸模型解釋能力之顯著性。
解釋迴歸模型:解釋迴歸係數的意涵,變動一單
位自變數,其對應變數的影響程度大小與
方向。
利 用 迴 歸 模 型 預 測 : E(y0|x0) 與 單 一 y0 之
預測。
統計學導論 Chapter 13 迴歸分析與相關分析
13-36
13.7 相關分析
相關的意義
樣本相關係數
母體相關係數
迴歸與相關的關係
統計學導論 Chapter 13 迴歸分析與相關分析
13-37
相關的意義
鏈結圖 13.8
相關分析的種類
統計學導論 Chapter 13 迴歸分析與相關分析
13-38
樣本相關係數(1/2)
假設有n組資料(x1,y1),(x2,y2),… ,(xn,yn),而(x,y)之
相關係數為r,則
r的值必介於–1與+1之間。
r的大小表示線性關係的強度,正、負符號表示
相關的方向。
r > 0,若(x,y)值的圖形為一帶狀且從左下方至
右上方。
r < 0,若(x,y)值的圖形為一帶狀且從左上方至
右下方。
統計學導論 Chapter 13 迴歸分析與相關分析
13-39
樣本相關係數(2/2)
r = +1,若所有(x,y)之值均剛好落於一直線上,
且具正斜率(完全線性正相關)。
r= –1,若所有(x,y)之值均剛好落於一直線上,
且具負斜率(完全線性負相關)。
|r|值愈大(亦即 r 愈接近+1或–1),則表示線性關
係之強度愈大。
r的值愈接近0,則意謂著線性相關很弱。
統計學導論 Chapter 13 迴歸分析與相關分析
13-40
樣本相關係數 r 定義和
內容(1/3)
樣本相關係數 r
r

 ( x  x )( y  y ) / n  1
SSX / n  1 SSY / n  1
SSXY
SSX
(13-46)
SSY
其中的符號可參考本章第2節的基本符號。
統計學導論 Chapter 13 迴歸分析與相關分析
13-41
樣本相關係數 r 定義和
內容(2/3)
鏈結圖 13.9
r值與散布圖形狀之間的對應關係
統計學導論 Chapter 13 迴歸分析與相關分析
13-42
樣本相關係數 r 定義和
內容(3/3)
圖13.10 以 x 與
統計學導論 Chapter 13 迴歸分析與相關分析
y 為準,分割為四個象限
13-43
母體相關係數(1/3)
母體相關係數 p
1

N
(x  
x
)( y   y )
 x  y
1

N
 x  x
 
x

 y  y
 
  y



(13-47)
統計學導論 Chapter 13 迴歸分析與相關分析
13-44
母體相關係數(2/3)
E(r)=ρ
(13-49)
Var(r)=1–r2/n–2
(13-50)
1 r2
r 
n2
(13-51)
n2
r
~t ( n  2)
2
2
1 r
(1  r ) /( n  2)
r
統計學導論 Chapter 13 迴歸分析與相關分析
(13-52)
13-45
母體相關係數(3/3)
1 1 r 
Z r  ln 
2  1  r 
(13-53)
1  1    
E ( Z r )  ln 

2  1    
(13-54)
1
Var ( Z r ) 
n3
 1  0  
n 3  1 r 
z
 ln 
ln 


2   1  r 
 1   0  
n  3  (1  r )(1  0 ) 

ln 

2
 (1  r )(1  0 ) 
統計學導論 Chapter 13 迴歸分析與相關分析
(13-55)
13-46
迴歸與相關的關係(1/2)
b1

r
SSX SSY

SSX
SSY / n  1
SSY
SSX
SY


Sx
SSX / n  1
SY
b1  r 
SX
統計學導論 Chapter 13 迴歸分析與相關分析
(13-56)
(13-57)
13-47
迴歸與相關的關係(2/2)
SSR
2
R 

SST
R2 
2
ˆ
(
y

y
)

2
(
y

y
)

b12  ( x  x )2
( y  y)
2
b12  SSX

SSY
(13-58)
2
S
2
2
2 SSY / n  1
2 SSY
Y
b1  r
r 
r
2
SX
SSX / n  1
SSX
SSY SSX
R r 

 r2
SSX SSY
2
2
統計學導論 Chapter 13 迴歸分析與相關分析
13-48
13.9 線性複迴歸
表13.8 含有二個自變數之複迴的資料結構
樣本組
自變數
因變數
n
1
2
x1
x11
x21
x2
x12
x22
y
y1
y2
3

x31

x32

y3

i

xi1

xi2

yi

n
xn1
xn2
yn
統計學導論 Chapter 13 迴歸分析與相關分析
13-49
複迴歸模型(1/3)
yi=β0+β1xi1+β2xi2+ei
i=1,2,…,n
(13-59)
式中
yi表示第 i 個因變數(反應變數)觀察值,其為隨
機變數;而xi1與xi2表示第 i 組自變數 x 的值,
且一般皆假設為給定的常數值。
誤差項ei呈獨立的常態分配,其平均數為0,變
異數為σ2,亦即 ei~N(0,σ)。
迴歸參數β0、β1與β2為未知,且σ2亦為未知。
統計學導論 Chapter 13 迴歸分析與相關分析
13-50
複迴歸模型(2/3)
n
Min ( yi  b0  b1 xi 1  b2 xi 2 )2  Min SSE
i 1
nb 0 (  xi 1 )b1  (  xi 2 )b2   yi


 x  b   x x  b   x  b   x
  x i1  b0 
i2
0
2
x
 i1 b1    xi1 xi 2  b2   xi1 y1
i1
i2
統計學導論 Chapter 13 迴歸分析與相關分析
1
2
i2
2
i2
(13-60)
yi
13-51
複迴歸模型(3/3)
鏈結表 13.11
某運輸公司迴歸問題利用MINITAB所得出電腦結果
鏈結表 13.13
MINITAB之主要輸出結果
統計學導論 Chapter 13 迴歸分析與相關分析
13-52