Transcript 統計學CH16
第 16 章 簡單線性迴歸 和相關分析 LOGO 16.1 迴歸分析 我們的問題目標是分析兩個區間變數的關係;迴歸分析 (regression analysis) 是我們將要學習的第一項工具。 迴歸分析是以其他變數[獨立變數(independent variables)]為 基礎以預測另一個變數的值[依變數(dependent variable)] 。 依變數:以Y表達。 獨立變數:以 X1, X2, …, Xk表達。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第616頁 16.2 相關分析 假如我們只對關係是否存在感興趣,我們採用相關 分析,一個我們已經介紹過的方法。 在本章中,我們將呈現決定兩個變數間的關係,有 時候稱為簡單線性迴歸。 描述這些關係的數學方程式也稱做模型,分為兩種 類型:確定性模型(deterministic model)或隨機性模 型(probabilistic model)。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第617-618頁 16.3 模型 確定性模型(deterministic model):是指一個方程式 或方程式集容許我們從獨立變數的數值充分地決定 依變數的數值。 相較於… 隨機性模型(probabilistic model):是一種能將隨機 性呈現出來的方法,這對現實生活的應用比較實際。 例如,相同大小的所有房屋(以平方呎計)是否都以完 全相同的售價賣出? Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第618頁 16.4 模型 要產生一個隨機模型,我們從一個確定性模型開始, 用以近似我們想要的關係模式。接著我們再加一個 隨機項,用以衡量確定性元素的誤差。 確定性模型: 蓋一棟新房子的成本大約是每平方呎$100 而且大部 分的土地售價約是$100,000。近似的銷售價格(y)將 是: y = $100,000 + 100x [x =房屋的大小( 以平方呎計)。] Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第619頁 16.5 模型 房屋大小(依變項)與房屋售價(獨立變項)之間關係 的模型如下: 房屋 售價 大部分的土地 售價為$100,000 房屋大小 這個模型中,房屋售價完全決定於房屋大小。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 16.6 模型 然而在現實生活,房屋成本在相同的房屋大小中仍 將有所不同: 房屋 售價 較低 vs. 較高 的變異性 100K$ 房屋售價= 100,000 + 100(大小) + x 相同平方呎,但不同價格點 (如:裝潢的選擇, 改善隔間, 土地位置…) Copyright ©2010 Cengage Learning 房屋大小 第16章 簡單線性迴歸和相關分析 第419頁 16.7 誤差變數 我們將使用隨機性模型表示房屋估計可賣的價格: y = 100,000 + 100x + 其中 ε ( 希臘字母epsilon) 表示隨機項[又稱誤差變數 (error variable)] ──實際銷售價格和依據房屋大小來 估計的價格之間的差異。甚至當 x 維持不變時,ε 的 值也將會隨著一筆筆不同的銷售而改變。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第619頁 16.8 簡單線性迴歸模型 含一個獨立變數的直線模型稱為一階線性模型(first order linear model) ──有時也稱為簡單線性迴歸模 型(simple linear regression model)。 獨立變數 依變數 y-軸截距 Copyright ©2010 Cengage Learning 直線斜率 誤差變數 第16章 簡單線性迴歸和相關分析 第619-620頁 16.9 簡單線性迴歸模型 注意係數 0 和 1是母體參數,它們幾乎都是未知的。 因此,由資料估計而得。 y 高 長 =斜率 (=高/長) =y-軸截距 x Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第620頁 16.10 迴歸係數的估計 如同我們以x為基礎估計µ的方式,我們以b0 估計 β0 且 以 b1 估計 β1,最小平方或迴歸線的y-截距及斜率如下: (回想: 這是最小平法的應用且產生一條點與線間差異平 方和最小的直線。) Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 16.11 範例16.1 六位員工的年度紅利 ($ l,000s) 與其服務年數被記錄 並如下所列。我們想要決定年度紅利與服務年數之 間的直線關係。 Xm16-01 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第622頁 16.12 最小平方線 範例 16.1 實際資料點與直線之間的 離差稱為殘差(residuals) Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第623頁 圖16.1 16.13 範例16.2 北美的汽車經銷商使用「藍皮書」以協助他們決定顧客於購 買新車時,所換購的二手車的價值。 這本每月出版的藍皮書列出所有基本車款的換購價值。 根據不同的汽車狀況與選用配備,藍皮書提供每一種車款各 種不同的價值。 而汽車價值的決定是根據最近二手車拍賣會中的平均成交價, 以及許多二手車經銷商所提供的資源。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第624頁 16.14 範例16.2 但是,藍皮書並沒有指出依據哩程表讀數所決定的價值,儘 管事實上對二手車買主而言,一部車已經被開過多少哩是一 個關鍵的因素。 為了檢視這項議題,一位二手車經銷商隨機選取100 輛在上 個月拍賣會中售出的車齡 3 年的Toyota Camry。 這位經銷商紀錄價格(以$1,000計) 與哩程表上的哩程數(以千 計)。(Xm16-02) 這位經銷商想找出迴歸線。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第624頁 16.15 範例16.2 點選Data、Data Analysis,與Regression。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第627頁 16.16 範例16.2 為我們計算出許多好的統計量, 但是現在我們只對這項感興趣 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第627頁 16.17 詮釋 範例16.2 你可能對二手車的期望是… 斜率係數b1 是- .0669,其意義是哩程表上每增加1 哩,價格 平均會降低$.0669 或6.69 美分。 截距是 b0 = 17,250。意思是當 x = 0 ( 亦即,車完全沒有被 開過),汽車售價為$17,250。然而我們的樣本並沒有任何哩 程表讀數為少於19,100 哩的汽車。這不是正確的估計。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第627頁 16.18 誤差變數的必要條件 為了使這些方法有效,以下四個與誤差變數(ε)之機 率分配有關的條件必須被滿足。 1.ε 的機率分配為常態。 2.機率分配的平均數為0;也就是,E( ε) = 0。 3.ε 的標準差為ε,無論 x 的值為何,它是一個常數。 4.與任何特定 y 值相關的 ε 值與任何其他 y 值相關的 ε 值是獨立的。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第631頁 16.19 評估模型 最小平方法產生一條最佳的直線。但是,事實上有 可能兩個變數之間沒有關係,或有非線性關係。 因此,除了決定最小平方線的係數,我們需要評估 線性模型對資料配適得有多好。我們將呈現這些計 算方法。這些方法都是立基於誤差的平方和(SSE)。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第633頁 16.20 誤差平方和 誤差平方和計算如下: n SSE 2 ( y i yˆ i ) i 1 且使用在估計標準誤(standard error of estimate)的 計算上: 若sε 為 0,所有的點都落在迴歸線上。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第633頁 16.21 估計標準誤 若 很小,適配是優良的,且線性模型可以用於預測。若 很大,模型是不良的… 但什麼是小?什麼是大呢? Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第634頁 16.22 估計標準誤 藉由比較sε 與依變數 的樣本平均數,以判斷sε 數 值的大小。 在此範例中,sε = .3265 且 = 14.841 所以 (相對而言) 它顯示估計標準誤的數值是“小 的”,因此車子價格的線性迴歸模型如同哩程表的 函數是“良好的”。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第636頁 16.23 檢定斜率 若兩個變數間不存在線性關係,我們將預估迴歸線 是一條水平線,斜率為 0。 我們考慮是否有線性關係,如:我們考慮斜率(β1)是 否為零以外的數值。我們的研究假設變成: H1: β1 ≠ 0 因此,虛無假設變成: H0: β1 = 0 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第636頁 16.24 檢定斜率 我們可以執行這個檢定統計量以測試我們的假設: 是b1的標準誤,解釋為: 假設誤差變項( )是常態分布,檢定統計量是自由度為n–2的 學生t 分配。拒絕域的決定是根據我們是進行一項單尾或雙 尾的檢定(雙尾檢定最為典型)。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第637頁 16.25 範例16.4 檢定以決定在範例16.2 中是否有充分證據去推論對 所有3 年車齡的Toyota Camry 而言,拍賣價格與哩 程表讀數之間存有線性關係。使用5%的顯著水準。 我們檢定這些假設 H1: β1 ≠ 0 H0: β1 = 0 (如果虛無假設為真,表示沒有線性關係存在。) 拒絕域為: Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第638-639頁 16.26 計算 範例16.4 我們可以手算t 或用Excel輸出 p-值 計算 我們看到 對“哩程表” 的t 統計量(即,斜率 b1) 是 –13.49 其為小於 tCritical = –1.984. 我們同時注意到 p-值為0。 存在壓倒性的證據去推論哩程表與價格之間 存在線性關係 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第639頁 16.27 檢定斜率 如果我們想要假設檢定正或負的線性關係,我們執 行單尾檢定。我們會指定研究假設為 H1: β1< 0 (檢定負斜率) 或 H1: β1 >0 (檢定正斜率) 虛無假設仍為: H0: β1 = 0。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第640頁 16.28 判定係數 β1檢定僅強調是否有足夠的證據去推論線性關係存 在的問題。然而在許多情況下,測量線性關係的強 度也很有用,尤其是當我們想要比較數個不同的模 型時。執行這項功能的統計量是判定係數,標示為 R2。 或 判定係數是相關係數(r)的平方,因此 R2 = (r)2。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第640頁 16.29 判定係數 在這項方程式等號左邊的數量是依變數y 變異的測量。 方程式右邊的第一個數量是SSE,第二個是SSR,我 們可以重寫此一方程式為:: y的變異 = SSE + SSR SSE(Sum of Squares Error) – 測量 y 的變異不能被解 釋的量(即,誤差)。 SSR(Sum of Squares Regression) – 測量 y 的變異能夠 被獨立變數 x 的變異所解釋的量。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第461-462頁 16.30 計算 判定係數 我們可以用手算或Excel得到: Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第643頁 16.31 詮釋 判定係數 我們得到R2等於.6483。這項統計量告訴我們拍賣價格變異的 64.83% 是被哩程表讀數的變異所解釋。剩餘的35.17% 是未 被解釋的。 不像一個檢定統計量的值,判定係數並沒有一個臨界值讓我 們去做結論。 一般而言,R2的值越高,模型配適資料的情況則越好 R2 = 1: 線與資料點之間的完美配適。 R2 = 0: x 與 y 之間沒有任何線性關係。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第644頁 16.32 電腦列印結果的其他部分 簡單線性迴歸模型ANOVA 表的一般格式: Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第627.644頁 16.33 相關係數 我們可以使用相關係數來檢定兩個變數之間的線性 關係。 回顧: 相關係數的範圍在 –1 與 +1之間。 • 若 r = –1 (負相關) 或 r = +1 (正相關) 每一個 點落在迴歸線上。 • 若 r = 0 不存在線性趨勢。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第645頁 16.34 相關係數 母體相關係數被標示為ρ ( 希臘字母rho)。 我們必須從樣本資料去估計它的值。樣本相關係數 的定義如下: 當兩個變數之間沒有線性關係,ρ = 0: 它服從自由度為v = n – 2的學生t分配。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第463-464頁 16.35 範例16.6 執行相關係數t- 檢定以決定在範例16.2中哩程表讀數 與拍賣價格是否線性相關。 要檢定的假設為: H1: ρ≠ 0 H0: ρ = 0 (當兩個變數之間沒有線性關係,ρ = 0。) Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第646頁 16.36 計算 範例16.6 在範例16.2 與範例16.5 中,我們得到: 因此,相關係數是: 檢定統計量的值是: Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第646-647頁 16.37 計算 範例16.6 點選Add-Ins、Data Analysis Plus,與Correlation (Pearson) 我們也可以執行單尾檢定。我們可以檢 定一個正或是負的線性關係。 p-值 比較 ρ 的t- 檢定與範例16.4 中1 的t- 檢定產生相同的結果。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第647-648頁 16.38 使用迴歸方程式 使用迴歸方程式,我們得到: y = 17.250 – .0669x 估計一輛哩程表讀數有40 ( 千) 哩車齡3 年的Toyota Camry 之 售價 y = 17.25 – .0669x = 17.25 – .0669(40) = 14,574 我們稱此數值為點預測(point prediction) 並稱y 為當x = 40 時,y 的預測值或點估計(point estimate)。因此,這位交易商 將預測這部汽車應該能夠以$14,574 賣出。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第650頁 16.39 預測區間 我們提出的第一個信賴區間,是在獨立變數為一個 給定的 xg 值之下,每當我們想要對一個依變數的特 定值發生一次的狀況做預測。 (其中xg 是x 的給定值) Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第650-651頁 16.40 預測區間 一位二手車的交易商將要投標一輛3 年車齡的Toyota Camry, 該車具有全部的標準配備,並且哩程表讀數為40,000 (xg = 40) 哩。為了幫助他決定投標金額,他必須預測銷售價格。 預測區間的下限和上限分別是$13,922 和$15,226。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第652-653頁 16.41 信賴區間估計量 y 期望值的信賴區間估計量: 一位二手車的交易商有機會投標許多輛由一家租車 公司所提供的汽車。租車公司有250 部具有標準配 備的Toyota Camry。這一批汽車的哩程表讀數大約 是40,000 (xg = 40) 哩。這位交易商想要估計這一批 汽車的銷售價格。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第652頁 16.42 信賴區間估計量 平均價格的95%信賴區間估計量為: 期望值信賴區間估計值的下限與上限分別為$14,498 以及 $14,650。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第652-653頁 16.43 預測區間與信賴區間的不同 預測區間 信賴區間 1 沒有 1 是在獨立變數為一個給定的xg 值 是在獨立變數為一個給定的xg值 之下,對一個依變數的特定值發 之下,估計y的平均數或是y的長 生一次的狀況做預測。 期平均值。 y 期望值的信賴區間估計值將會比在相同的x 給定值與信賴水準下的預測區間更窄。 這是因為估計一個平均數的數值,相對於預測一個個別的數值,會有較少的誤差。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第651頁 16.44 運用Excel 計算區間… 計算 點選Add-Ins、Data Analysis Plus,與Prediction Interval。 Point Prediction(點的預測) Prediction Interval(預測區間) Confidence Interval Estimator of the mean price(平均價格的信賴區間估計值) Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第653-654頁 16.45 迴歸診斷 迴歸分析有效的必要條件: 誤差變數必須服從常態分配 誤差變數的變異數必須是常數 誤差間必須彼此獨立。 我們如何診斷這些條件的違反行為? 殘差分析, 也就是檢查各個實際資料點與那些使 用線性方程式所預測的點之間的差異… Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第655頁 16.46 殘差分析 讓我們回顧,實際資料點與迴歸線之間的偏差稱 為殘差。 在Excel中,計算殘差是迴歸分析的一部 份。 殘差分析讓我們可以決定誤差變數是否為常態、 誤差變異數是否為常數,以及誤差是否獨立。我 們從非常態開始討論。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第656-657頁 16.47 非常態性 我們以繪製殘差的直方圖來檢查常態性。 直方圖呈現鐘形,使我們相信誤差服從常態分配。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第657頁 圖16.9 16.48 異質性 誤差變數的變異數 必須是常數。當這項條件被違反時, 則稱此情況為異質性(heteroscedasticity)。 診斷異質性的一種方法適繪製殘差相對於y預測值的圖。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第657-658頁 16.49 異質性 誤差變數的變異數 必須是常數。當這項條件被違反時, 則稱此情況為異質性(heteroscedasticity)。我們在繪有各點 的圖中尋找散佈狀況的改變: 沒有異質性的現象。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第657-658頁 圖16.12 16.50 誤差變數的非獨立性 如果我們每星期觀察汽車的拍賣價格長達一年的 時間,則將構成一個時間序列。 當資料為時間序列,誤差經常是相關的。跨時間 相關的誤差項目稱為自我相關(autocorrelated) 或 是序列相關(serially correlated)。 我們通常可以藉由繪製殘差相對於時間點的圖來 偵測自我相關。如果出現某種型態,很可能獨立 性的條件是被違反的。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第659頁 16.51 離群值 一個離群值是一個非常小或非常大的觀測值。 為了說明,思考範例16.2,其中哩程表讀數的值域 是從19.1 到49.2( 千) 哩。如果我們觀察到一個 5,000 哩的數值,我們將會認定該點為一個離群值。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第660頁 16.52 離群值 我們必須調查幾種可能性: 1. 2. 3. 記錄該數值時發生了錯誤。 該點不應該被包括在樣本中。 觀測值單純的是一個非常大或小的數值,它是屬於樣本而且被適 當地記錄。 離群值可以從散佈圖被辨識出來。 標準化殘差也可以用來辨識離群值。大的標準化殘差絕 對值(> 2)應該被徹底的檢查。 它們必須被處理,因為它們對最小平方線的建立很可能 會有影響。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第660-661頁 16.53 迴歸診斷的程序 1. 發展一個具有理論基礎的模型 2. 蒐集兩個變數的資料。 3. 繪製散佈圖以決定線性模式是否適當。辨識可能 的離群值。 4. 決定迴歸方程式。 5. 計算殘差並且檢查必要的條件。 6. 評估模式的配適度。 7. 如果模型配適資料良好,則可使用迴歸方程式預 測依變數的一個特別的值和/ 或估計它的平均數。 Copyright ©2010 Cengage Learning 第16章 簡單線性迴歸和相關分析 第662頁 16.54