Transcript 統計學CH17
第 17 章
複迴歸分析
LOGO
17.1
導論
採用簡單線性迴歸模型去分析一個區間變數( 依變
數 y) 是如何相關於另一個區間變數( 獨立變數 x)。
複迴歸分析容許有任何數目的獨立變數。
我們期望發展出比簡單線性迴歸模型更能配適資料
的模型。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第670頁
17.2
模型
我們現在假設有 k 個可能與依變數相關的獨立變數。因此,
模型以下列方程式表示:
獨立變數
依變數
誤差變數
係數
當迴歸模型中存有一個以上的獨立變數時, 我們稱其方程
式的圖示為一反應曲面(response surface)。在具有一個變
數與二維的情況,我們畫一條迴歸線;此處我們畫出一反
應曲面(response surface)的圖示。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第671頁
17.3
誤差變數的必要條件
為了使這些回歸方法有效,誤差變數( ) 必須符合下
列四種條件:
1.誤差變數的機率分配為常態。
2.誤差變數的平均數為 0。
3.ε 的標準差ε為一個常數。
4.誤差之間是獨立的。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第672頁
17.4
估計係數與評估模型
樣本迴歸方程式:
我們將使用電腦輸出:
評估模型…
模型與資料配適的程度有多好
模型是否有用
是否違反任何必要條件?
使用模型…
詮釋係數
使用預測模型做各種預測?
估計依變數的期望值。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第672-673頁
17.5
迴歸分析的步驟
使用電腦與軟體產生係數和評估模型所需的統計
量。
診斷必要條件的違反。如果有問題存在,試圖修
正它們。
評估模型的配適
標準誤
判定係數
變異數分析的F- 檢定
如果,,以及是符合的,我們可以使用這
個模型去預測或估計依變數的期望值。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第672-673頁
17.6
範例17.1
La Quinta Motor Inns 是一個橫跨全美且價位適中的
連鎖汽車旅館。它的市場是經常商務旅行的客人。
這家連鎖業者最近發起一連串的活動,藉由建造新
的旅館以增加市場佔有率。這家連鎖旅館的管理階
層注意到為新旅館選擇地點的困難。況且,在沒有
充分資訊之下做決策經常導致不良的決策。
因此,連鎖店的管理人員取得100 家隨機選取的La
Quinta 旅館的資料。目的是預測哪些地點是比較有
利可圖的。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第673頁
17.7
範例17.1
為了測量收益性,La Quinta 使用營業邊際利潤
(operating margin),它是利潤、折舊與利息支出的總
和除以總收入的比率。
營業邊際利潤越高,旅館的經營就越成功。
La Quinta 定義有利潤的旅館為那些營業邊際利潤超
過50%者,而無利可圖的旅館為營業邊際利潤低於
30% 者。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第673頁
17.8
範例17.1
在與某些有經驗的經理人員討論之後,La Quinta 決
定從下列每一種類別中選擇一或兩個獨立變數:
競爭
市場警覺性
需求創造者
人口統計變數
實體的環境
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第673頁
17.9
範例17.1
為了衡量競爭的程度,他們計算在每一家La Quinta
旅館3 哩內的旅館與飯店的客房總數。
市場警覺性則是以到最近的競爭旅館之哩程數來衡
量。
選擇兩個代表顧客來源的變數。
辦公室空間大小以及周邊社區中大專院校的註冊人
數是需求創造者。這兩項都是經濟活動的測量值。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第673-674頁
17.10
範例17.1
用以描述社區的人口統計變數是中等家庭的收入。
最後,La Quinta 選擇旅館到市中心的距離做為地點
的實體品質測量。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第674頁
17.11
範例17.1 為La Quinta Inns 選擇地點
La Quinta應該要將新旅館設在哪些地點?影響利潤
的變數:
利潤
變
數
測
量
值
競爭
3 哩內的旅
館與飯店的
客房總數
市場警覺性
距離最近競
爭者的哩程
數
需求創造者
周邊社區中
的辦公室空
間、大專院
校的註冊人
數
人口統計變
數
實體的環境
中等家庭的
收入
到市中心的
距離
*這些必須是區間資料!
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第674頁
17.12
範例17.1 為La Quinta Inns 選擇地點
La Quinta應該要將旅館設在哪些地點?
這些資料以下列格式儲存:Xm17-01
y =營業邊際利潤,以百分比計
x1 =在La Quinta 旅館3 哩內的旅館與飯店的客房總數
x2 =距離最近競爭者的哩程數
x3 =在周邊社區中的辦公室空間,以千平方呎計
x4 =在鄰近社區中大專院校的註冊人數( 以千人計)
x5 =在周邊社區中等家庭的收入( 以千元計)
x6 =到市中心的距離( 以哩計)
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第674頁
17.13
轉換資料
我們可以轉換下列資料
為數學模型,如下所列:
營業邊際利潤
Copyright ©2010 Cengage Learning
競爭哩程
(如:3哩內的旅
館與飯店的
客房總數)
市場警覺性
(距離最近
競爭者的哩
程數)
第17章 複迴歸分析 第674頁
…
實體的環境
(到市中心
的距離
17.14
計算
範例17.1
點選Data、Data Analysis,與Regression
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第674-675頁
17.15
辨認方法
模型
雖然此模型目前尚未做任何推論,估計的迴歸模型
如下:
其顯示距離最近競爭者的哩程數、辦公室空間、學
生註冊人數與家庭收入等的增加將積極地影響營業
邊際利潤。
同樣地,近距離的公寓總數增加以及到市中心的距
離也將消極地影響營業邊際效應……
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第675頁
17.16
評估模型
我們以三種方法評估模型:
估計的標準誤
判定係數
變異數分析的F- 檢定
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第675頁
17.17
估計標準誤
在複迴歸中,估計標準誤的定義如下
其中 n 是樣本大小,而 k 是模型中獨立變數的個數。
我們比較估計標準誤和y 的平均數。
計算
顯示估計標準誤並不是特別地小。
我們將如何推論?
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第675-676頁
17.18
判定係數
回顧第16 章中判定係數的定義為
這表示營業邊際利潤總變異的52.51% 可以被6 個獨
立變數所解釋,而其餘的47.49% 並未被解釋。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第676頁
17.19
調整的判定係數
這是甚麼?
「調整的 R2」稱為:
自由度調整的判定係數(the
coefficient of determination adjusted for degrees of
freedom)。
是基於樣本大小 n 與獨立變數的個數 k,如下所示:
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第676頁
17.20
檢定模型的有效性
當存有複迴歸模型(一個以上的獨立變數)時,我們利
用變異數分析方法檢定迴歸模型的有效性,我們指
定下列的假設:
H0:
H1: 至少一個 不等於 0
如果虛無假設為真,沒有任何獨立變數x1, x2, ..., xk
與 y 是線性相關,則該模型是無效的。
如果至少有一個
有效性。
Copyright ©2010 Cengage Learning
不等於0,該模型在某種程度上具
第17章 複迴歸分析 第677頁
17.21
檢定模型的有效性
迴歸分析的變異數分析表
一個大的 F 值是指 y 中大多數的變異可以被迴歸方程式解釋,
並且該模型是有效的。一個小的 F 值是指 y 中大多數的變異是
不能被解釋的。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第678頁 表17.1
17.22
檢定模型的有效性
我們的拒絕域為:
由Excel計算 F 統計量,當F = 17.14以及FCritical = 2.17
(p- 值為 0),我們拒絕 H0 有利於 H1,即:
「有充分的證據可以推論這個模型是有效的」
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第678頁
17.23
結論
表17.2
如果我們對模型配適資料的程度是滿意的,並且必要條件被滿足,我
們可以詮釋與檢定個別的係數,並使用這個模型去預測與估計。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第679頁 表7.2
17.24
詮釋係數*
截距(b0) 38.14。這是當所有的獨立變數為 0 時,營業邊
際利潤的平均數值。詮釋這個數值是無意義的,尤其是如果
0 落在獨立變數的數值範圍之外。
旅館與飯店的客房數(b1) − .0076 。在 La Quinta 旅館 3 哩內
每增加一間客房,營業邊際利潤平均減少 .0076。改變單位
後,我們可以解釋 b1 為: 每增加1,000間客房,邊際利潤平
均減少7.6%。
到最近競爭者的距離(b2) 1.65 。對 La Quinta 旅館到最近競
爭者的距離而言,每增加一哩,平均營業邊際利潤增加
1.65%。
*對每一種狀況,我們假設其他的獨立變數不變
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第680頁
17.25
詮釋係數*
辦公室空間(b3 ) .020 。每增加100,000 平方呎的辦公室空間,
營業邊際利潤平均增加 2.0%。
大專院校註冊的人數(b4 ) .21。每增加1,000 位學生,則營業
邊際利潤平均增加 .21%。
中等家庭收入(b5 ) .41 所表示。當一個中等家庭每增加1,000
元收入,則營業邊際利潤平均增加 .41%。
到市中心的距離(b6 ) − .23 表示。到市中心的距離每增加一
哩,則營業邊際利潤平均減少 .23%。
*對每一種狀況,我們假設其他的獨立變數不變
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第680-681頁
17.26
檢定係數
對於每一個獨立的變數,我們可以檢定以決定: 對整
個母體而言,獨立變數與依變數之間是否有充分的
線性關係的證據
H0: = 0
H1: ≠ 0
(i = 1, 2, ..., k);檢定統計量為:
它服從自由度為 v = n – k – 1的學生t- 分配
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第681-682頁
17.27
詮釋
檢定係數
參考674與675頁並檢視範例17.1的電腦輸出結果。
有壓倒性的證據可以推論在La Quinta 旅館3 哩之內
的旅館與飯店客房數、最近的旅館的距離、旅館附
近的辦公室空間、中等家庭的收入與營業邊際利潤
皆是線性相關的。沒有足夠的證據推論在旅館附近
社區的學院註冊人數以及到市中心距離與La Quinta
旅館的營業邊際利潤之間存在著線性關係。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第674.682-683頁
17.28
使用迴歸方程式
如同在簡單線性迴歸一樣,我們可以對 y 的一個特
別值產生預測區間,
以及產生 y 期望值的信賴區間估計。
就像其他與複迴歸相關的計算,我們讓電腦做這份
工作。我們的角色是設定問題,了解以及詮釋各種
結果。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第685頁
17.29
使用迴歸方程式
假設在範例17.1 中,一位經理為一家La Quinta 旅館
調查有潛力的地點,並且發現下列的特色。
在3 哩之內有3,815 間客房。
最接近的其他旅館與飯店是在.9 哩之外。
辦公室空間的量是476,000 平方呎 。
在鄰近有一所學院與一所大學,其註冊人數為
24,500 位學生 。
從戶口調查,這位經理得知該區域的中等家庭收
入( 進位到最接近的千元) 是$35,000。
到市中心的距離是11.2 哩 。
xi
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第685頁
17.30
使用迴歸方程式
我們加入一列(提供的獨立變數的數值) 在資料集的下方:
然後點選 Add-Ins、 Data Analysis Plus,
與 Prediction Interval to crunch the
numbers…
Copyright ©2010 Cengage Learning
第17章 複迴歸分析
17.31
詮釋
預測區間
我們預測營業邊際利潤將會落在25.4 與48.8 之間。
假設管理人員定義一家有利潤的旅館是具有50% 以
上的營業邊際利潤,而一家無利潤的旅館的營業邊
際利潤是在30% 以下。因為整個預測區間是在50%
以下,La Quinta 的管理人員將會放棄這個地點。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第685.686頁
17.32
詮釋
信賴區間
估計所有地點的期望營業邊際利潤是在33.0 與 41.2
之間。
我們詮釋其意為: 如果我們在所有地點建立許多間
旅館,其符合所描述的類別。則平均營業邊際利潤
將落在33.0 與 41.2之間。也就是,一般的旅館也不
會有利潤。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析
17.33
迴歸診斷−Ⅱ
計算殘差並檢查下列的問題:
誤差變數是否為非常態?
繪製殘差的直方圖。
誤差變異數是否為常數?
繪製殘差相對於y 預測值的圖。
誤差是否獨立( 時間序列資料) ?
繪製殘差對時段的圖。
觀測值是否不正確或是不屬於目標母體?
重複檢查離群值和影響點的正確性。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第690頁
17.34
迴歸診斷−Ⅱ
多元共線性(multicollinearity) 僅發生在複迴歸模
型中。
多元共線性是指獨立變數高度相關的情況。
我們將以下列的範例來說明多元共線性的影響和
修正辦法。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第691頁
17.35
範例17.2
一位不動產經紀人想要發展一個模型,用來預測
房屋銷售的價格。這位經紀人相信決定房屋價格
的重要變數:
1. 房屋大小
2. 臥房數
3. 建築用地大小
提出的複迴歸模型為
房屋市場資料已經被蒐集且 Excel 是所選的分析
工具Xm17-02
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第691頁
17.36
範例17.2
執行: Data > Data Analysis > Regression
F- 檢定的結果指出整個模型是有效的。
這份迴歸分析輸出
顯示沒有一個獨立
變數與售價相關。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第692頁
17.37
範例17.2
在複迴歸模型中的 t- 檢定導出沒有一個獨
立變數是決定銷售價格因素的結論。但三
個相關係數的 t- 檢定則與此一結論相牴觸
。它們告訴我們臥房數、房屋大小,以及
建築用地大小都與價格呈線性相關。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第692-693頁
17.38
範例17.2
我們要如何解釋這項矛盾?
答案是這三個獨立變數間彼此相關。
很合理地我們會相信,較大的房子會有比較多的房間,並且座落在比較大的建築用地上,
而較小的房子會有比較少的房間,並且座落在比較小的建築用地上。
多元共線性會影響t- 檢定,以至於它們顯示沒有任何一個獨立變數與價格是線性關係的,
事實上它們是相關。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第693頁
17.39
迴歸診斷−Ⅲ (時間序列)
杜賓-華森檢定讓統計實作人員可以決定是否有
一階自我相關 (first-order autocorrelation) 存在的
證據──當連續的殘差 ei 與ei-1之間存在著關係的情
況,其中i 為時段指標。杜賓-華森統計量被定義
為
d 值的範圍是
0≤d≤4
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第695-696頁
17.40
杜賓-華森檢定
0
d
小的d 值(d < 2)意指存在一
個正的一階自我相關。
Copyright ©2010 Cengage Learning
4
大的d 值(d > 2)意指存在一
個負的一階自我相關。
第17章 複迴歸分析 第696頁
17.41
杜賓-華森檢定 (單尾檢定)
檢定正的一階自我相關的dL 與dU 值:
如果 d < dL ,我們結論有足夠的證據顯示正的一階自我相
關存在。
如果 d > dU,我們結論沒有足夠的證據可以顯示正的一階
自我相關存在。
如果dL ≤ d ≤ dU,則該檢定無法做結論。
附錄B表11的dL, dU
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第697.698頁 圖17.5
17.42
杜賓-華森檢定 (單尾檢定)
檢定負的一階自我相關:
如果 d > 4 – dL,我們結論存在負的一階自我相關。
如果d < 4 – dU ,我們結論沒有足夠的證據顯示存
在負的一階自我相關。
如果 4 – dU ≤ d ≤ 4 – dL,則該檢定沒有結論。
附錄B表11的dL, dU
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第697-698頁 圖17.5
17.43
杜賓-華森檢定 (兩個單尾檢定)
檢定一階自我相關:
如果 d < dL 或 d > 4 – dL,我們結論自我相關存在。
如果dL d 4-dU,我們結論沒有足夠的證據顯
示自我相關的存在。
如果dL d dU 或4 - dU d 4 - dL,檢定沒有
結論。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第698頁 圖17.5
17.44
範例17.3
我們能否建立一個模式來預測滑雪場的纜車票銷售
是建立在兩個氣候參數上?
變數:
y - 過去在耶誕節假期當週銷售滑雪纜車票數
x1 -以吋計的總降雪量
x2 - 以及以華氏計的平均溫度
這家滑雪場的經理蒐集過去20 年的資料。Xm17-03
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第698頁
17.45
範例17.3
判定係數與F- 檢定的p- 值
皆指出這項模型是不良的。
兩個變數都跟纜車票銷售
沒有線性相關…
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第699頁
17.46
範例17.3
範例17.3 中的殘差直方圖
直方圖顯示誤差可能服從常態分配。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第699頁 圖17.6
17.47
範例17.3
在預測值對殘差的圖中(檢定異質性) — 誤差變異
數似乎是不變的…
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第700頁 圖17.7
17.48
範例17.3 杜賓-華森檢定
應用 Data Analysis Plus 的 Durbin-Watson Statistic 到全
部的殘差清單。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第700頁
17.49
範例17.3
如果我們想要以 = .05 檢定正的一階自我相關,
我們在附錄B 中的表8(a) 可以找到
dL = 1.10 與 dU = 1.54
虛無與對立假設為
H0 : 無一階自我相關
H1 : 有正的一階自我相關
拒絕域是d < dL = 1.10。因為d = .59,我們拒絕虛
無假設並且結論有充分的證據去推論正的一階自
我相關存在。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第701頁
17.50
範例17.3
自我相關通常是指該模型必須包括一個對依變數
有時間順序影響的獨立變數。
最簡單的這種獨立變數為時段。為了示範說明,
我們包括第三個獨立變數,它記錄從資料被蒐集
的那一年起之年數。因此,x3 = 1, 2, ..., 20。新的
模型為
y = β0 + β1x1 + β2x2 + β3x3 + ε
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第701頁
17.51
範例17.3
高度的模型配適,
該模型是有效的…
新變數
Copyright ©2010 Cengage Learning
降雪量和時段與纜車票銷售有線性相關;
溫度則沒有…
第17章 複迴歸分析 第701頁
17.52
17.52
範例17.3
假設我們重跑杜賓-華森測量對比迴歸分析的殘
差,
我們結論沒有足夠的證據去推論出現正的一階自
我相關。 (讀者決定 dL 與 dU 是在左邊做為練習)
因此,這個模型有著戲劇性的改善!
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第703頁
17.53
範例17.3
注意,這個模型有著戲劇性的改善。
F- 檢定告訴我們該模型是有效的。t- 檢定告訴我們降雪量
和時段兩者皆與纜車票數有著顯著的線性關係。
這個資訊可以證明對滑雪場的行銷有用。例如,如果最近
降大雪,這個滑雪場可以在其廣告中強調。
如果沒有降雪,這個滑雪場可以強調它的造雪設備。
Copyright ©2010 Cengage Learning
第17章 複迴歸分析 第703頁
17.54