統計學CH16

Download Report

Transcript 統計學CH16

第 16 章
簡單線性迴歸
和相關分析
LOGO
16.1
迴歸分析
我們的問題目標是分析兩個區間變數的關係;迴歸分析
(regression analysis) 是我們將要學習的第一項工具。
迴歸分析是以其他變數[獨立變數(independent variables)]為
基礎以預測另一個變數的值[依變數(dependent variable)] 。
依變數:以Y表達。
獨立變數:以 X1, X2, …, Xk表達。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第616頁
16.2
相關分析
假如我們只對關係是否存在感興趣,我們採用相關
分析,一個我們已經介紹過的方法。
在本章中,我們將呈現決定兩個變數間的關係,有
時候稱為簡單線性迴歸。
描述這些關係的數學方程式也稱做模型,分為兩種
類型:確定性模型(deterministic model)或隨機性模
型(probabilistic model)。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第617-618頁
16.3
模型
確定性模型(deterministic model):是指一個方程式
或方程式集容許我們從獨立變數的數值充分地決定
依變數的數值。
相較於…
隨機性模型(probabilistic model):是一種能將隨機
性呈現出來的方法,這對現實生活的應用比較實際。
例如,相同大小的所有房屋(以平方呎計)是否都以完
全相同的售價賣出?
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第618頁
16.4
模型
要產生一個隨機模型,我們從一個確定性模型開始,
用以近似我們想要的關係模式。接著我們再加一個
隨機項,用以衡量確定性元素的誤差。
確定性模型:
蓋一棟新房子的成本大約是每平方呎$100 而且大部
分的土地售價約是$100,000。近似的銷售價格(y)將
是:
y = $100,000 + 100x
[x =房屋的大小( 以平方呎計)。]
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第619頁
16.5
模型
房屋大小(依變項)與房屋售價(獨立變項)之間關係
的模型如下:
房屋
售價
大部分的土地
售價為$100,000
房屋大小
這個模型中,房屋售價完全決定於房屋大小。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析
16.6
模型
然而在現實生活,房屋成本在相同的房屋大小中仍
將有所不同:
房屋
售價
較低 vs. 較高
的變異性
100K$
房屋售價= 100,000 + 100(大小) +
x
相同平方呎,但不同價格點
(如:裝潢的選擇, 改善隔間, 土地位置…)
Copyright ©2010 Cengage Learning
房屋大小
第16章 簡單線性迴歸和相關分析 第419頁
16.7
誤差變數
我們將使用隨機性模型表示房屋估計可賣的價格:
y = 100,000 + 100x + 
其中 ε ( 希臘字母epsilon) 表示隨機項[又稱誤差變數
(error variable)] ──實際銷售價格和依據房屋大小來
估計的價格之間的差異。甚至當 x 維持不變時,ε 的
值也將會隨著一筆筆不同的銷售而改變。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第619頁
16.8
簡單線性迴歸模型
含一個獨立變數的直線模型稱為一階線性模型(first
order linear model) ──有時也稱為簡單線性迴歸模
型(simple linear regression model)。
獨立變數
依變數
y-軸截距
Copyright ©2010 Cengage Learning
直線斜率
誤差變數
第16章 簡單線性迴歸和相關分析 第619-620頁
16.9
簡單線性迴歸模型
注意係數 0 和 1是母體參數,它們幾乎都是未知的。
因此,由資料估計而得。
y
高
長
=斜率 (=高/長)
=y-軸截距
x
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第620頁
16.10
迴歸係數的估計
如同我們以x為基礎估計µ的方式,我們以b0 估計 β0 且
以 b1 估計 β1,最小平方或迴歸線的y-截距及斜率如下:
(回想: 這是最小平法的應用且產生一條點與線間差異平
方和最小的直線。)
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析
16.11
範例16.1
六位員工的年度紅利 ($ l,000s) 與其服務年數被記錄
並如下所列。我們想要決定年度紅利與服務年數之
間的直線關係。
Xm16-01
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第622頁
16.12
最小平方線
範例 16.1
實際資料點與直線之間的
離差稱為殘差(residuals)
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第623頁 圖16.1
16.13
範例16.2
北美的汽車經銷商使用「藍皮書」以協助他們決定顧客於購
買新車時,所換購的二手車的價值。
這本每月出版的藍皮書列出所有基本車款的換購價值。
根據不同的汽車狀況與選用配備,藍皮書提供每一種車款各
種不同的價值。
而汽車價值的決定是根據最近二手車拍賣會中的平均成交價,
以及許多二手車經銷商所提供的資源。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第624頁
16.14
範例16.2
但是,藍皮書並沒有指出依據哩程表讀數所決定的價值,儘
管事實上對二手車買主而言,一部車已經被開過多少哩是一
個關鍵的因素。
為了檢視這項議題,一位二手車經銷商隨機選取100 輛在上
個月拍賣會中售出的車齡 3 年的Toyota Camry。
這位經銷商紀錄價格(以$1,000計) 與哩程表上的哩程數(以千
計)。(Xm16-02)
這位經銷商想找出迴歸線。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第624頁
16.15
範例16.2
點選Data、Data Analysis,與Regression。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第627頁
16.16
範例16.2
為我們計算出許多好的統計量,
但是現在我們只對這項感興趣
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第627頁
16.17
詮釋
範例16.2
你可能對二手車的期望是…
斜率係數b1 是- .0669,其意義是哩程表上每增加1 哩,價格
平均會降低$.0669 或6.69 美分。
截距是 b0 = 17,250。意思是當 x = 0 ( 亦即,車完全沒有被
開過),汽車售價為$17,250。然而我們的樣本並沒有任何哩
程表讀數為少於19,100 哩的汽車。這不是正確的估計。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第627頁
16.18
誤差變數的必要條件
為了使這些方法有效,以下四個與誤差變數(ε)之機
率分配有關的條件必須被滿足。
1.ε 的機率分配為常態。
2.機率分配的平均數為0;也就是,E( ε) = 0。
3.ε 的標準差為ε,無論 x 的值為何,它是一個常數。
4.與任何特定 y 值相關的 ε 值與任何其他 y 值相關的
ε 值是獨立的。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第631頁
16.19
評估模型
最小平方法產生一條最佳的直線。但是,事實上有
可能兩個變數之間沒有關係,或有非線性關係。
因此,除了決定最小平方線的係數,我們需要評估
線性模型對資料配適得有多好。我們將呈現這些計
算方法。這些方法都是立基於誤差的平方和(SSE)。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第633頁
16.20
誤差平方和
誤差平方和計算如下:
n
SSE 

2
( y i  yˆ i )
i 1
且使用在估計標準誤(standard error of estimate)的
計算上:
若sε 為 0,所有的點都落在迴歸線上。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第633頁
16.21
估計標準誤
若 很小,適配是優良的,且線性模型可以用於預測。若
很大,模型是不良的…
但什麼是小?什麼是大呢?
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第634頁
16.22
估計標準誤
藉由比較sε 與依變數 的樣本平均數,以判斷sε 數
值的大小。
在此範例中,sε = .3265 且
= 14.841
所以 (相對而言) 它顯示估計標準誤的數值是“小
的”,因此車子價格的線性迴歸模型如同哩程表的
函數是“良好的”。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第636頁
16.23
檢定斜率
若兩個變數間不存在線性關係,我們將預估迴歸線
是一條水平線,斜率為 0。
我們考慮是否有線性關係,如:我們考慮斜率(β1)是
否為零以外的數值。我們的研究假設變成:
H1: β1 ≠ 0
因此,虛無假設變成:
H0: β1 = 0
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第636頁
16.24
檢定斜率
我們可以執行這個檢定統計量以測試我們的假設:
是b1的標準誤,解釋為:
假設誤差變項( )是常態分布,檢定統計量是自由度為n–2的
學生t 分配。拒絕域的決定是根據我們是進行一項單尾或雙
尾的檢定(雙尾檢定最為典型)。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第637頁
16.25
範例16.4
檢定以決定在範例16.2 中是否有充分證據去推論對
所有3 年車齡的Toyota Camry 而言,拍賣價格與哩
程表讀數之間存有線性關係。使用5%的顯著水準。
我們檢定這些假設
H1: β1 ≠ 0
H0: β1 = 0
(如果虛無假設為真,表示沒有線性關係存在。)
拒絕域為:
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第638-639頁
16.26
計算
範例16.4
我們可以手算t 或用Excel輸出
p-值
計算
我們看到 對“哩程表”
的t 統計量(即,斜率 b1) 是 –13.49
其為小於 tCritical = –1.984. 我們同時注意到 p-值為0。
存在壓倒性的證據去推論哩程表與價格之間
存在線性關係
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第639頁
16.27
檢定斜率
如果我們想要假設檢定正或負的線性關係,我們執
行單尾檢定。我們會指定研究假設為
H1: β1< 0 (檢定負斜率)
或
H1: β1 >0 (檢定正斜率)
虛無假設仍為: H0: β1 = 0。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第640頁
16.28
判定係數
β1檢定僅強調是否有足夠的證據去推論線性關係存
在的問題。然而在許多情況下,測量線性關係的強
度也很有用,尤其是當我們想要比較數個不同的模
型時。執行這項功能的統計量是判定係數,標示為
R2。
或
判定係數是相關係數(r)的平方,因此 R2 = (r)2。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第640頁
16.29
判定係數
在這項方程式等號左邊的數量是依變數y 變異的測量。
方程式右邊的第一個數量是SSE,第二個是SSR,我
們可以重寫此一方程式為::
y的變異 = SSE + SSR
SSE(Sum of Squares Error) – 測量 y 的變異不能被解
釋的量(即,誤差)。
SSR(Sum of Squares Regression) – 測量 y 的變異能夠
被獨立變數 x 的變異所解釋的量。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第461-462頁
16.30
計算
判定係數
我們可以用手算或Excel得到:
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第643頁
16.31
詮釋
判定係數
我們得到R2等於.6483。這項統計量告訴我們拍賣價格變異的
64.83% 是被哩程表讀數的變異所解釋。剩餘的35.17% 是未
被解釋的。
不像一個檢定統計量的值,判定係數並沒有一個臨界值讓我
們去做結論。
一般而言,R2的值越高,模型配適資料的情況則越好
R2 = 1: 線與資料點之間的完美配適。
R2 = 0: x 與 y 之間沒有任何線性關係。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第644頁
16.32
電腦列印結果的其他部分
簡單線性迴歸模型ANOVA 表的一般格式:
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第627.644頁
16.33
相關係數
我們可以使用相關係數來檢定兩個變數之間的線性
關係。
回顧:
相關係數的範圍在 –1 與 +1之間。
• 若 r = –1 (負相關) 或 r = +1 (正相關) 每一個
點落在迴歸線上。
• 若 r = 0 不存在線性趨勢。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第645頁
16.34
相關係數
母體相關係數被標示為ρ ( 希臘字母rho)。
我們必須從樣本資料去估計它的值。樣本相關係數
的定義如下:
當兩個變數之間沒有線性關係,ρ = 0:
它服從自由度為v = n – 2的學生t分配。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第463-464頁
16.35
範例16.6
執行相關係數t- 檢定以決定在範例16.2中哩程表讀數
與拍賣價格是否線性相關。
要檢定的假設為:
H1: ρ≠ 0
H0: ρ = 0
(當兩個變數之間沒有線性關係,ρ = 0。)
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第646頁
16.36
計算
範例16.6
在範例16.2 與範例16.5 中,我們得到:
因此,相關係數是:
檢定統計量的值是:
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第646-647頁
16.37
計算
範例16.6
點選Add-Ins、Data Analysis Plus,與Correlation
(Pearson)
我們也可以執行單尾檢定。我們可以檢
定一個正或是負的線性關係。
p-值
比較
ρ 的t- 檢定與範例16.4 中1 的t- 檢定產生相同的結果。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第647-648頁
16.38
使用迴歸方程式
使用迴歸方程式,我們得到:
y = 17.250 – .0669x
估計一輛哩程表讀數有40 ( 千) 哩車齡3 年的Toyota Camry 之
售價

y = 17.25 – .0669x = 17.25 – .0669(40) = 14,574

我們稱此數值為點預測(point prediction) 並稱y 為當x = 40
時,y 的預測值或點估計(point estimate)。因此,這位交易商
將預測這部汽車應該能夠以$14,574 賣出。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第650頁
16.39
預測區間
我們提出的第一個信賴區間,是在獨立變數為一個
給定的 xg 值之下,每當我們想要對一個依變數的特
定值發生一次的狀況做預測。
(其中xg 是x 的給定值)
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第650-651頁
16.40
預測區間
一位二手車的交易商將要投標一輛3 年車齡的Toyota Camry,
該車具有全部的標準配備,並且哩程表讀數為40,000 (xg =
40) 哩。為了幫助他決定投標金額,他必須預測銷售價格。
預測區間的下限和上限分別是$13,922 和$15,226。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第652-653頁
16.41
信賴區間估計量
y 期望值的信賴區間估計量:
一位二手車的交易商有機會投標許多輛由一家租車
公司所提供的汽車。租車公司有250 部具有標準配
備的Toyota Camry。這一批汽車的哩程表讀數大約
是40,000 (xg = 40) 哩。這位交易商想要估計這一批
汽車的銷售價格。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第652頁
16.42
信賴區間估計量
平均價格的95%信賴區間估計量為:
期望值信賴區間估計值的下限與上限分別為$14,498 以及
$14,650。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第652-653頁
16.43
預測區間與信賴區間的不同
預測區間
信賴區間
1
沒有 1
是在獨立變數為一個給定的xg 值 是在獨立變數為一個給定的xg值
之下,對一個依變數的特定值發 之下,估計y的平均數或是y的長
生一次的狀況做預測。
期平均值。
y 期望值的信賴區間估計值將會比在相同的x 給定值與信賴水準下的預測區間更窄。
這是因為估計一個平均數的數值,相對於預測一個個別的數值,會有較少的誤差。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第651頁
16.44
運用Excel 計算區間…
計算
點選Add-Ins、Data Analysis Plus,與Prediction
Interval。
Point Prediction(點的預測)
Prediction Interval(預測區間)
Confidence Interval Estimator of the
mean price(平均價格的信賴區間估計值)
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第653-654頁
16.45
迴歸診斷
迴歸分析有效的必要條件:
 誤差變數必須服從常態分配
 誤差變數的變異數必須是常數
 誤差間必須彼此獨立。
我們如何診斷這些條件的違反行為?
 殘差分析, 也就是檢查各個實際資料點與那些使
用線性方程式所預測的點之間的差異…
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第655頁
16.46
殘差分析
 讓我們回顧,實際資料點與迴歸線之間的偏差稱
為殘差。 在Excel中,計算殘差是迴歸分析的一部
份。
 殘差分析讓我們可以決定誤差變數是否為常態、
誤差變異數是否為常數,以及誤差是否獨立。我
們從非常態開始討論。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第656-657頁
16.47
非常態性
我們以繪製殘差的直方圖來檢查常態性。
直方圖呈現鐘形,使我們相信誤差服從常態分配。 
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第657頁 圖16.9
16.48
異質性
 誤差變數的變異數 必須是常數。當這項條件被違反時,
則稱此情況為異質性(heteroscedasticity)。
 診斷異質性的一種方法適繪製殘差相對於y預測值的圖。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第657-658頁
16.49
異質性
 誤差變數的變異數 必須是常數。當這項條件被違反時,
則稱此情況為異質性(heteroscedasticity)。我們在繪有各點
的圖中尋找散佈狀況的改變:
沒有異質性的現象。 
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第657-658頁 圖16.12
16.50
誤差變數的非獨立性
 如果我們每星期觀察汽車的拍賣價格長達一年的
時間,則將構成一個時間序列。
 當資料為時間序列,誤差經常是相關的。跨時間
相關的誤差項目稱為自我相關(autocorrelated) 或
是序列相關(serially correlated)。
 我們通常可以藉由繪製殘差相對於時間點的圖來
偵測自我相關。如果出現某種型態,很可能獨立
性的條件是被違反的。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第659頁
16.51
離群值
 一個離群值是一個非常小或非常大的觀測值。
 為了說明,思考範例16.2,其中哩程表讀數的值域
是從19.1 到49.2( 千) 哩。如果我們觀察到一個
5,000 哩的數值,我們將會認定該點為一個離群值。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第660頁
16.52
離群值
我們必須調查幾種可能性:
1.
2.
3.
記錄該數值時發生了錯誤。
該點不應該被包括在樣本中。
觀測值單純的是一個非常大或小的數值,它是屬於樣本而且被適
當地記錄。

離群值可以從散佈圖被辨識出來。

標準化殘差也可以用來辨識離群值。大的標準化殘差絕
對值(> 2)應該被徹底的檢查。
它們必須被處理,因為它們對最小平方線的建立很可能
會有影響。

Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第660-661頁
16.53
迴歸診斷的程序
1. 發展一個具有理論基礎的模型
2. 蒐集兩個變數的資料。
3. 繪製散佈圖以決定線性模式是否適當。辨識可能
的離群值。
4. 決定迴歸方程式。
5. 計算殘差並且檢查必要的條件。
6. 評估模式的配適度。
7. 如果模型配適資料良好,則可使用迴歸方程式預
測依變數的一個特別的值和/ 或估計它的平均數。
Copyright ©2010 Cengage Learning
第16章 簡單線性迴歸和相關分析 第662頁
16.54