Transcript Document
統計學導論
方世榮 著
Chapter 13
迴歸分析與相關分析
本 章
綱 要
13.1迴歸分析的基本概念
13.2迴歸係數β0與β1的估計
13.3估計的迴歸係數b0與b1之抽樣分配
13.4迴歸分析中重要的統計推論
13.5判定係數與顯著性檢定
13.6迴歸預測
Chapter 13
迴歸分析與相關分析
本 章
綱 要
13.7相關分析
13.8非線性關係的處理
13.9線性複迴歸
13.1 迴歸分析的基本概念
導論
簡單直線迴歸
簡單直線迴歸模型
統計學導論 Chapter 13 迴歸分析與相關分析
13-4
導論(1/2)
在迴歸分析中,必有一因變數(dependent variable)
又稱為被解釋變數(explained variable)或被預測變
數(regressand),一般以y表示;且可能有數個自
變數(independent variable),又稱為獨立變數或
預 測 變 數 (predictor) 或 解 釋 變 數 (explanatory
variable),一般以xi表示。
如 果 自 變 數 只 有 一 個 , 稱 為 簡 單 迴 歸 (simple
regression);若自變數有二個或二個以上者,則
稱為複迴歸(multiple regression)。
統計學導論 Chapter 13 迴歸分析與相關分析
13-5
導論(2/2)
若變數間具有統計關係,則進行迴歸分析目的在
找出一適當的數學方程式以表示其關係,此方程
式謂之迴歸方程式(regression equation)。
若迴歸方程式具線性特性者,則稱為直線迴歸
(linear regression) ; 否 則 稱 為 非 直 線 迴 歸
(nonlinear regression)。
統計學導論 Chapter 13 迴歸分析與相關分析
13-6
簡單直線迴歸(1/3)
表13-1 簡單迴歸的資料結構
自變數x
因變數y
x1
y1
x2
y2
x3
y3
…
…
xn
yn
統計學導論 Chapter 13 迴歸分析與相關分析
13-7
簡單直線迴歸(2/3)
表13-2 藥濟量(x)與解除症狀持續天數(y)
藥劑量x
3
3
4
5
6
6
7
8
8
9
統計學導論 Chapter 13 迴歸分析與相關分析
解除症狀的持天數y
9
5
12
9
14
16
22
18
24
22
13-8
簡單直線迴歸(3/3)
圖13-1 表13.2之散布圖
統計學導論 Chapter 13 迴歸分析與相關分析
13-9
簡單直線迴歸模型(1/4)
直線迴歸的統計模型
假設因變數y代表一隨機變數,而自變數x則視為
已知的固定常數;若y與x具有直線迴歸關係,則
其關係式為
yi=β0+β1xi+ei,i=1,2,…,n
(13-1)
式中
yi 表示進行第i次實驗時,對應於自變數xi 值的
反應。
統計學導論 Chapter 13 迴歸分析與相關分析
13-10
簡單直線迴歸模型(2/4)
e1,…,en為真實線性關係式的誤差項。這些值皆
為不可觀察的隨機變數,假設其為獨立且平均
數為0,變異數為未知的σ2 之常態分配;亦即
ei~N(0,σ)。
參數β0 與β1 ,表示此直線方程式的係數,亦稱
為迴歸係數(regression coefficient),且皆為未
知的。
統計學導論 Chapter 13 迴歸分析與相關分析
13-11
簡單直線迴歸模型(3/4)
E(yi)=β0+β1xi;
i=1,2,…,n
(13-2)
Var(yi)=σ2或Sd(yi)=σ
(13-3)
yi~N(β0+β1xi ,σ)
(13-4)
統計學導論 Chapter 13 迴歸分析與相關分析
13-12
簡單直線迴歸模型(4/4)
圖13.3 y為常態分配,其平均數位於直線E(y)=β0+β1x上
統計學導論 Chapter 13 迴歸分析與相關分析
13-13
13.2 迴歸系數β0與β1的估計
最小平方法
最大概似法
統計學導論 Chapter 13 迴歸分析與相關分析
13-14
最小平方法
圖13.4 觀察值與直線y=b0+b1x之離差
統計學導論 Chapter 13 迴歸分析與相關分析
13-15
最小平方原理(1/2)
求出迴歸係數的值,使得
n
D ( yi b0 b1 xi )2
i
最小化;此一方法稱為最小平方估計(least square
estimation)。
統計學導論 Chapter 13 迴歸分析與相關分析
13-16
最小平方原理(2/2)
1
1
b0 yi b1 xi
n
n
x i yi ( x i yi ) / n
b1
2
2
x
(
x
)
i i /n
統計學導論 Chapter 13 迴歸分析與相關分析
(13-9)
(13-10)
13-17
基本符號(1/2)
1
1
x x i , y yi
n
n
SSX ( xi x ) x
2
2
i
SSY ( yi y )2 yi2
( xi )
2
n
( yi ) 2
n
SSXY ( xi x )( yi y ) xi yi
統計學導論 Chapter 13 迴歸分析與相關分析
( xi )( yi )
n
13-18
基本符號(2/2)
式中SSX與SSY分別稱為X與Y的平方和(sum of
square for X and Y),SSXY稱為X、Y的交叉平方
和(sum of cross product for X,Y)。
統計學導論 Chapter 13 迴歸分析與相關分析
13-19
0 最小平方估計值b0 y b1 x
1之最小平方估計值b1 SSXY / SSX
eˆi yi yˆ i yi b0 b1 xi
eˆ ( y yˆ )
( y b b x ) 0
eˆ ( y yˆ ) 最小
i
2
i
0
i
i
2
i
,n
(13-12)
(13-13)
i
i
i
i 1, 2,
(13-11)
i
統計學導論 Chapter 13 迴歸分析與相關分析
(13-14)
(13-15)
13-20
最大概似估計法原理
利用函數式
L(Xi,X2,…,Xn;θ)=f(X1;θ)f(X2;θ)…f(Xn;θ)=L(θ)
( )
2 L( )
ˆ之估計值。
使
0且
0
,而求得
( )
2
其:f(X1,…,Xn)為自母體中所抽出之ㄧ組隨機樣
本,θ代表母體參數。
統計學導論 Chapter 13 迴歸分析與相關分析
13-21
13.3 估計的迴歸係數b0與b1之抽樣
分配(1/2)
SSE
ˆ
n2
SSE 63.6528
2
ˆ
=
7.96
n2
8
b1~N ( 1 , b1 )
2
2
b1
ˆ b2
1
2
(x
i
x)
2
(13-20)
(13-21)
2
SSX
(13-22)
ˆ 2
2
(
x
x
)
i
統計學導論 Chapter 13 迴歸分析與相關分析
(13-23)
13-22
13.3 估計的迴歸係數b0與b1之
抽樣分配(1/2)
b1 1
b
Z~N (0,1)
(13-24)
1
b1 1
~t ( n 2)
ˆ b1
b0~N ( 0 , b0 )
2
1
x
2
2
ˆ b0
2
n ( xi x )
2
1
x
2
2
ˆ b 0 ˆ
2
n ( xi x )
統計學導論 Chapter 13 迴歸分析與相關分析
(13-25)
(13-26)
(13-27)
13-23
母體與樣本迴歸模型的關係
統計學導論 Chapter 13 迴歸分析與相關分析
13-24
13.4
迴歸分析中重要的
統計推論
檢定
H0:β1=β10
其檢定統計量為(其中β10 表示任何已知的參數值),
(b 1 10 )
t
d. f . n 2
ˆ / SSX
統計學導論 Chapter 13 迴歸分析與相關分析
13-25
截距β0之推論
檢定統計量t
b0 t / 2ˆ
b0
1
x2
ˆ
n SSX
df n 2
(13-30)
2
1
x
n
n SSX
統計學導論 Chapter 13 迴歸分析與相關分析
(13-31)
13-26
13.5
判定係數與顯著性
檢定
樣本點
圖13.6 迴歸變異分析圖
統計學導論 Chapter 13 迴歸分析與相關分析
13-27
迴歸平方和之分割定理
總 變 異 (SST)= 無 法 解 釋 的 變 異 (SSE)+ 迴 歸 變 異
(SSR)
2
2
ˆ
(
y
y
)
(
y
y
)
(
y
y
)
i
i i i
(13-32)
總變異(SST)=無法解釋的變異(SSE)+迴歸變異
(SSR)
2
SST ( yi y ) y i
2
2
( yi )
SSR ( yˆ i y )2 b1 SSXY
n
SSY
SSE ( yi yˆ i )2 SST b1 SSXY
統計學導論 Chapter 13 迴歸分析與相關分析
(13-33)
(13-34)
(13-35)
13-28
判定係數
判定係數(coefficient of determination),以R2表示
迴歸變異 SSR SST SSE
SSE
R
1
總變異
SST
SST
SST
2
0 R2 1
統計學導論 Chapter 13 迴歸分析與相關分析
13-29
顯著性檢定
表13-4 迴歸變異數分析表
變異來源
平方和(SS)
自由度df
迴歸
( yˆ i y ) SSR
k
誤差
( yi yˆ i ) SSE
n–k–1
總變異
( yi y ) SST
n–1
2
2
均方
SSR
k
SSE
MSE
n k 1
MSR
F比值
F
MSR
~F ( k , n k 1)
MSE
2
統計學導論 Chapter 13 迴歸分析與相關分析
13-30
F-檢定與t-檢定的區別
t-檢定用於個別迴歸係數之顯著性檢定,而F-檢定
則可用於整條迴歸模型之顯著性檢定。
t-檢定可對某一特定數值(不一定等於零)進行檢定,
但F-檢定只能對零值進行檢定。
在簡單直線迴歸模型下,t-檢定的假設為H0:β1=0;
H1:β1≠ 0 ,而F-檢定的假設亦可寫成 H0:β1=0 ;
H1:β1≠0。此時兩者的檢定統計量之關係為
t2 / 2 ( n 1) F (1, n 1)
統計學導論 Chapter 13 迴歸分析與相關分析
(13-39)
13-31
13.6 迴歸預測(1/3)
特定x0值下平均反應值 E(y|x0) 之預測
yˆ 0 b0 b1 x
E ( yˆ 0 ) y0 y x0 b0 b1 x0
S E ( yˆ 0 ) y 0
(13-40)
1 ( x0 x ) 2
n
SSX
1 ( x0 x ) 2
yˆ 0~N b0 b1 x0 ,
n
SSX
1 ( x0 x ) 2
(b0 b1 x0 ) t / 2ˆ
n
SSX
統計學導論 Chapter 13 迴歸分析與相關分析
(13-41)
(13-42)
(13-43)
13-32
13.6 迴歸預測(2/3)
特定x0值下單一反應值y0之預測
E ( y0 ) y 0 E (eˆ0 ) y 0 (因為E (eˆ0 ) 0)
Var ( y0 ) Var ( yˆ 0 ) Var (eˆ0 )
Var ( yˆ 0 ) 2
1 ( x0 x ) 2 2
1
SSX
n
y0~N 0 1 x0 , 1 1 / n ( x0 x )2 / SSX
統計學導論 Chapter 13 迴歸分析與相關分析
13-33
13.6 迴歸預測(3/3)
y
ŷ
信賴區間的界限
預測區間的界限
x
x
圖13.7 信賴區間與預測區間之圖示
統計學導論 Chapter 13 迴歸分析與相關分析
13-34
迴歸分析的步驟(1/2)
建立迴歸模型:從散布圖觀察,若觀察值近似直
線分布,則可建立直線迴歸模型(方程式),包括
母體迴歸與樣本迴歸模型。
估計迴歸模型:利用最小平方法估計迴歸係數,
並瞭解迴歸係數估計量(如b0與b1)之抽樣分配。
統計學導論 Chapter 13 迴歸分析與相關分析
13-35
迴歸分析的步驟(2/2)
評判迴歸模型:評估此模型的品質,包括
(1)採t-檢定來測驗個別迴歸係數的顯著性。
(2)計算判定係數以分析迴歸解釋能力的高低。
(3)採F-檢定來測驗整體迴歸模型之配適度,亦
即檢定迴歸模型解釋能力之顯著性。
解釋迴歸模型:解釋迴歸係數的意涵,變動一單
位自變數,其對應變數的影響程度大小與
方向。
利 用 迴 歸 模 型 預 測 : E(y0|x0) 與 單 一 y0 之
預測。
統計學導論 Chapter 13 迴歸分析與相關分析
13-36
13.7 相關分析
相關的意義
樣本相關係數
母體相關係數
迴歸與相關的關係
統計學導論 Chapter 13 迴歸分析與相關分析
13-37
相關的意義
鏈結圖 13.8
相關分析的種類
統計學導論 Chapter 13 迴歸分析與相關分析
13-38
樣本相關係數(1/2)
假設有n組資料(x1,y1),(x2,y2),… ,(xn,yn),而(x,y)之
相關係數為r,則
r的值必介於–1與+1之間。
r的大小表示線性關係的強度,正、負符號表示
相關的方向。
r > 0,若(x,y)值的圖形為一帶狀且從左下方至
右上方。
r < 0,若(x,y)值的圖形為一帶狀且從左上方至
右下方。
統計學導論 Chapter 13 迴歸分析與相關分析
13-39
樣本相關係數(2/2)
r = +1,若所有(x,y)之值均剛好落於一直線上,
且具正斜率(完全線性正相關)。
r= –1,若所有(x,y)之值均剛好落於一直線上,
且具負斜率(完全線性負相關)。
|r|值愈大(亦即 r 愈接近+1或–1),則表示線性關
係之強度愈大。
r的值愈接近0,則意謂著線性相關很弱。
統計學導論 Chapter 13 迴歸分析與相關分析
13-40
樣本相關係數 r 定義和
內容(1/3)
樣本相關係數 r
r
( x x )( y y ) / n 1
SSX / n 1 SSY / n 1
SSXY
SSX
(13-46)
SSY
其中的符號可參考本章第2節的基本符號。
統計學導論 Chapter 13 迴歸分析與相關分析
13-41
樣本相關係數 r 定義和
內容(2/3)
鏈結圖 13.9
r值與散布圖形狀之間的對應關係
統計學導論 Chapter 13 迴歸分析與相關分析
13-42
樣本相關係數 r 定義和
內容(3/3)
圖13.10 以 x 與
統計學導論 Chapter 13 迴歸分析與相關分析
y 為準,分割為四個象限
13-43
母體相關係數(1/3)
母體相關係數 p
1
N
(x
x
)( y y )
x y
1
N
x x
x
y y
y
(13-47)
統計學導論 Chapter 13 迴歸分析與相關分析
13-44
母體相關係數(2/3)
E(r)=ρ
(13-49)
Var(r)=1–r2/n–2
(13-50)
1 r2
r
n2
(13-51)
n2
r
~t ( n 2)
2
2
1 r
(1 r ) /( n 2)
r
統計學導論 Chapter 13 迴歸分析與相關分析
(13-52)
13-45
母體相關係數(3/3)
1 1 r
Z r ln
2 1 r
(13-53)
1 1
E ( Z r ) ln
2 1
(13-54)
1
Var ( Z r )
n3
1 0
n 3 1 r
z
ln
ln
2 1 r
1 0
n 3 (1 r )(1 0 )
ln
2
(1 r )(1 0 )
統計學導論 Chapter 13 迴歸分析與相關分析
(13-55)
13-46
迴歸與相關的關係(1/2)
b1
r
SSX SSY
SSX
SSY / n 1
SSY
SSX
SY
Sx
SSX / n 1
SY
b1 r
SX
統計學導論 Chapter 13 迴歸分析與相關分析
(13-56)
(13-57)
13-47
迴歸與相關的關係(2/2)
SSR
2
R
SST
R2
2
ˆ
(
y
y
)
2
(
y
y
)
b12 ( x x )2
( y y)
2
b12 SSX
SSY
(13-58)
2
S
2
2
2 SSY / n 1
2 SSY
Y
b1 r
r
r
2
SX
SSX / n 1
SSX
SSY SSX
R r
r2
SSX SSY
2
2
統計學導論 Chapter 13 迴歸分析與相關分析
13-48
13.9 線性複迴歸
表13.8 含有二個自變數之複迴的資料結構
樣本組
自變數
因變數
n
1
2
x1
x11
x21
x2
x12
x22
y
y1
y2
3
x31
x32
y3
i
xi1
xi2
yi
n
xn1
xn2
yn
統計學導論 Chapter 13 迴歸分析與相關分析
13-49
複迴歸模型(1/3)
yi=β0+β1xi1+β2xi2+ei
i=1,2,…,n
(13-59)
式中
yi表示第 i 個因變數(反應變數)觀察值,其為隨
機變數;而xi1與xi2表示第 i 組自變數 x 的值,
且一般皆假設為給定的常數值。
誤差項ei呈獨立的常態分配,其平均數為0,變
異數為σ2,亦即 ei~N(0,σ)。
迴歸參數β0、β1與β2為未知,且σ2亦為未知。
統計學導論 Chapter 13 迴歸分析與相關分析
13-50
複迴歸模型(2/3)
n
Min ( yi b0 b1 xi 1 b2 xi 2 )2 Min SSE
i 1
nb 0 ( xi 1 )b1 ( xi 2 )b2 yi
x b x x b x b x
x i1 b0
i2
0
2
x
i1 b1 xi1 xi 2 b2 xi1 y1
i1
i2
統計學導論 Chapter 13 迴歸分析與相關分析
1
2
i2
2
i2
(13-60)
yi
13-51
複迴歸模型(3/3)
鏈結表 13.11
某運輸公司迴歸問題利用MINITAB所得出電腦結果
鏈結表 13.13
MINITAB之主要輸出結果
統計學導論 Chapter 13 迴歸分析與相關分析
13-52