Transcript 簡單迴歸分析3
銘傳應用統計系 第十三章 簡單線性迴歸分析-4 Simple Linear Regression -4 13 - 1 學習目標 銘傳應用統計系 1. 複習 ----簡單線性迴歸分析- 1 、 2 、 3 2. 今日內容 ----- 簡單線性迴歸分析- 4 13 - 2 學習目標 (複習—重點內容) 銘傳應用統計系 簡單線性迴歸分析- 1 1. 簡單線性迴歸模型 ----- 迴歸模型參數之估計 2. 模型各變異量的估計 ----- ANOVA 表 簡單線性迴歸分析- 2 3. 估計誤差項的變異情形 4. 決定係數的計算與解釋 ----- R2 (或是 r2 ) 13 - 3 學習目標 (複習—重點內容) 銘傳應用統計系 簡單線性迴歸分析- 3 5. 評估衡量所建立的模型 ---- 驗證迴歸模型成立的假設 6. 迴歸斜率係數的檢定 ---- 決定因變數Y與自變數X間是否有線性相關 13 - 4 學習目標 (今日內容 ) 銘傳應用統計系 簡單線性迴歸分析- 4 7. 利用迴歸模式做估計或預測工作 8. 線性相關分析 9. 回顧簡單線性迴歸分析所學 13 - 5 迴歸模型使用時的步驟 銘傳應用統計系 F Regression Modeling Steps 1. 事先決定反應變數與獨立變數間的模式 2. 估計模式的參數 3. 模式中誤差項的機率分配之描述 4. 評估衡量所建立的迴歸模型 5. 利用迴歸模式做估計或預測工作 在特定x值時,Y的期望平均 E(Yi|xi) 在某特定點xi下,Yi的反應 6. 線性相關分析 13 - 6 利用迴歸模式做估計或預測工作 銘傳應用統計系 (1) 複習 ----- 簡單線性迴歸模型 (2) 了解 ----- 估計或預測些什麼? 13 - 7 簡單線性迴歸模型 銘傳應用統計系 獨立變數X和反應變數Y之間為線性關係 截距參數 Y-intercept 斜率參數 slope Yi = b 0 + b1X i + e i 因變數(Dependent response variable) 13 - 8 自變數 (Independent , explanatory variable) 隨機誤差 Random error 簡單迴歸模型下的母體與 樣本 銘傳應用統計系 母體Population 假設母體關係 :未知為參數 隨機取樣 推論 L$ Yi = b 0 + b1X i + e i J$ 13 - 9 J$ K$ J$ Random Sample Yi = bˆ0 + bˆ1 X i + eˆi J$ K$ 簡單線性迴歸模型取樣後結果 銘傳應用統計系 Yi = bˆ0 + bˆ1 X i + e i Y 未取到的 觀察值 e^i = 殘差 觀察值 觀察到的誤差 Yˆi = bˆ0 + bˆ1 X i 根據樣本所建立的模型 觀察值 13 - 10 E Y = b 0 + b 1 X i 母體的真實關係 X 隨機誤差機率分配示意圖 銘傳應用統計系 Error Probability Distribution f(e) 殘差 e = eˆ 不同X值所對應的Y值 均呈現常態分配,而且有相同的變異 數 = Y Yˆ Y X2 X1 X 13 - 11 迴歸直線 使用迴歸模型作預測 Prediction With Regression Models 銘傳應用統計系 1. 在特 定x值時,預測的種類 點估計﹕平均Y值 區間估計﹕平均Y值、個別y值 2. 估計或預測些什麼? 在特定xp值時,Y的期望平均 =E(Yp|xp) 即在母體迴歸線上的某特定點xp下,Yp的平均反應 13 - 12 預測的示意圖 What Is Predicted 銘傳應用統計系 Yindividual Y YIndividual Yˆi = bˆ0 + bˆ1 X i 根據樣本所建立的模型 | Mean Yp ,Y, E(Y p | Xp Mean E(Y) ^b 0 + ^ )Y i= ^b 1X | E(Y) = b 0 + b 1X prediction Yˆp ^ Prediction, Y XP 13 - 13 E Y = b 0 + b 1 X i X 母體的真實關係 E(Yp|Xp) 的信賴區間 銘傳應用統計系 Confidence Interval Estimate of Mean Yp Yˆp t n 2, / 2 SYˆ E (Yp | X p ) Yˆp + t n 2, / 2 SYˆ p p 其中 1 + SYˆ = S p n X X X X 2 p n i =1 13 - 14 2 i , S = MSE 影響信賴區間寬度的因素 Factors Affecting Interval Width 銘傳應用統計系 1. 信賴水準的選擇Level of confidence (1 - ) 信賴水準增加則信賴區間寬度也隨之變寬 2. 資料距離迴歸線的散布情形 (S) S加大,信賴區間寬度也隨之增加 3. 樣本數Sample size 樣本數減少則信賴區間寬度會隨之增加 4. 特定點Xp至自變數平均數 X的距離 距離越遠則信賴區間寬度將隨之增加 13 - 15 信賴區間估計範例 銘傳應用統計系 Confidence Interval Estimate 你是銘傳熊寶寶的行銷分析人員, 已知 bˆ0 = -.1, bˆ1 = .7 而 s = .60553。 廣告費(千元) 銷售量 (千個) 1 1 2 1 3 2 4 2 5 4 廣告花費在4千元時平均銷售量的95%信賴區 間為多少﹖ 13 - 16 迴歸模型計算用總結表 銘傳應用統計系 Xi Yi Xi2 Yi2 XiYi 1 1 1 1 1 2 1 4 1 2 3 2 9 4 6 4 2 16 4 8 5 4 25 16 20 15 10 55 26 37 13 - 17 直線樣本迴歸估計式 銘傳應用統計系 bˆ0 = 0.1 bˆ1 = 0.7 Yˆ = 0.1 + 0.7 X i 在 X p = 4 時,E (Yp | X p ) 的 點估計值 Yˆp = 0.1 + 0.7 4 = 2.7 13 - 18 信賴區間估計求解 銘傳應用統計系 Confidence Interval Estimate 在 X p = 4 時, E (Yp | X p ) 的信賴區間 Yˆp t n 2, / 2 SYˆ E (Yp | X p ) Yˆp + t n 2, / 2 SYˆ p p Yˆp = 0.1 + 0.7 4 = 2.7 X to be predicted 1 4 3 SYˆ = .60553 + = 0.3316 p 5 10 t52,0.025 = t3,0.025 = 3.1824 2 SYˆ p 1 =S + n X X X X 2 p n i =1 2 i 2.7 3.18240.3316 E (Yp | X p ) 2.7 + 3.18240.3316 13 - 19 1.6445 E (Yp | X p = 4) 3.7553 個別特定點估計的預測區間 銘傳應用統計系 Prediction Interval of Individual Response Yˆp tn2, / 2 SY Yˆ YP Yˆp + tn2, / 2 SY Yˆ p p 其中 1 S Y Yˆ = S 1 + + p n X X X X 2 P n i =1 注意!多出了1 13 - 20 2 i 為何會多出一倍的 ‘S’? 銘傳應用統計系 Yindividual Y YIndividual e | Yˆi = bˆ0 + bˆ1 X i 根據樣本所建立的模型 ^b 0 + Mean Mean YY,, EE(Y) (Y ) ^Y i= ^b 1X | E(Y) = b 0 + b 1X prediction Yˆp ^ Prediction, Y XP 13 - 21 E Y = b 0 + b 1 X i X 母體的真實關係 預測區間估計求解 銘傳應用統計系 在 X p = 4 時, Y p 的信賴區間 Yˆp t n 2, / 2 S (Y Yˆ p ) Yp Yˆp + t n 2, / 2 S (Y Yˆ p Yˆp = 0.1 + 0.7 4 = 2.7 ) X to be predicted 1 X p X 1 4 3 = .60553 1 + + = 0.69041 S(Y Yˆ ) = S 1 + n + n 2 5 10 X i X 2 2 S(Y Yˆ p) p t52,0.025 = t3,0.025 = 3.1824 i =1 2.7 3.18240.69041 Yp | 2.7 + 3.18240.69041 13 - 22 0.50284 (Yp | X p = 4) 4.89716 電腦報表之估計 銘傳應用統計系 Dep Var Obs SALES 1 1.000 2 1.000 3 2.000 4 2.000 5 4.000 Pred Std Err Low95% Upp95% Low95% Upp95% Value Predict Mean Mean Predict Predict 0.600 0.469 -0.892 2.092 -1.837 3.037 1.300 0.332 0.244 2.355 -0.897 3.497 2.000 0.271 1.138 2.861 -0.111 4.111 2.700 0.332 1.644 3.755 0.502 4.897 3.400 0.469 1.907 4.892 0.962 5.837 在x=4時 觀測值, y SY^ 在x=4時E(y)的 點估計值, y 13 - 23 信賴區間 預測區間 銘傳應用統計系 全域信賴區間估計形成之信賴帶 Hyperbolic Interval Bands Y ^ ^= b0 Xi ^ b 1 + Yi _ X 13 - 24 X XP 相關(線性)模型 銘傳應用統計系 Correlation Models 1. 衡量兩變數之間線性相關的強度 2. 線性相關係數(coefficient of correlation) 母體(真正)相關係數為 (rho) 其值介於-1 至 +1間 3. 用於了解兩變數之間的線性相關之強度及 方向 13 - 25 樣本線性相關係數 Sample Coefficient of Correlation 銘傳應用統計系 量測兩數值變數間線性相關的程度 Measures the strength of the linear relationship between two quantitative variables n r= X i =1 n X i =1 13 - 26 i i X Yi Y X 2 n Y Y i =1 i 2 雙數值變數的散佈圖形表達 —正相關例題一 銘傳應用統計系 X Y 1 2 3 4 5 6 7 8 9 10 0 2 3 5 8 9 9 10 7 11 13 - 27 Y 15 10 5 0 1 0 2 3 4 5 10 8 5 6 7 9 10 15 線性相關係數r的計算一 銘傳應用統計系 X Y 1 2 3 4 5 6 7 8 9 10 mx 5.5 0 2 3 5 8 9 9 10 7 11 my 5.9 13 - 28 X-mx X-mx)2 Y- my Y my)2X-mx)(Y-my) -4.5 20.25 -5.9 34.81 26.55 -3.5 12.25 -3.9 15.21 13.65 -2.5 6.25 -2.9 8.41 7.25 -1.5 2.25 -0.9 0.81 1.35 -0.5 0.25 2.1 4.41 -1.05 0.5 0.25 3.1 9.61 1.55 1.5 2.25 3.1 9.61 4.65 2.5 6.25 4.1 16.81 10.25 3.5 12.25 1.1 1.21 3.85 4.5 20.25 5.1 26.01 22.95 總和 82.5 g= 126.9 0.889 91 雙數值變數的散佈圖形表達 —負相關例題二 銘傳應用統計系 X Y 1 2 3 4 5 6 7 8 9 10 XY散佈圖 10 7 11 5 8 9 9 0 2 3 13 - 29 12 3 10 1 6 7 8 5 2 6 Y 4 4 10 2 9 0 8 0 5 10 15 線性相關係數r的計算二 銘傳應用統計系 X Y 1 2 3 4 5 6 7 8 9 10 mx 10 7 11 5 8 9 9 0 2 3 my 5.5 3.6 13 - 30 X-mx X-mx)2 Y- my Y my)2X-mx)(Y-my) -4.5 20.25 4.1 16.81 -18.45 -3.5 12.25 1.1 1.21 -3.85 -2.5 6.25 5.1 26.01 -12.75 -1.5 2.25 -0.9 0.81 1.35 -0.5 0.25 2.1 4.41 -1.05 0.5 0.25 3.1 9.61 1.55 1.5 2.25 3.1 9.61 4.65 2.5 6.25 -5.9 34.81 -14.75 3.5 12.25 -3.9 15.21 -13.65 4.5 20.25 -2.9 8.41 -13.05 總和 82.5 g= 126.9 -0.684 -70 線性相關係數的性質 銘傳應用統計系 Features of Correlation Coefficient • 無單位 • 值在-1與1之間 • 越靠近-1時表示負線性相關越強烈 • 越靠近1時表示正線性相關越強烈 • 數值靠近0時表示線性相關微弱 13 - 31 各種線性相關所繪得的散佈圖 銘傳應用統計系 Y Y Y X r = -1 X r = -.6 Y 13 - 32 X r=0 Y r = .6 X r=1 X 樣本形成的線性相關係數 Sample Coefficient of Correlation 銘傳應用統計系 1. 皮耳森線性相關係數 r (Pearson’s coefficient of correlation) r= R = 2 Coefficien t of Determinat ion X n = i =1 X n i =1 13 - 33 i X Yi Y X 2 i Y Y n i =1 2 i 線性相關係數值的含意 銘傳應用統計系 Coefficient of Correlation Values 無線性相關 No Correlation -1.0 -.5 循此方向逐漸加強兩者 間的負線性相關關係 Increasing degree of negative correlation 13 - 34 0 +.5 +1.0 線性相關係數值的含意 銘傳應用統計系 Coefficient of Correlation Values 無線性相關 完全負相關 -1.0 13 - 35 No Correlation -.5 0 +.5 +1.0 循此方向逐漸加強兩者 間的正線性相關關係 Increasing degree of positive correlation 線性相關係數值的含意 銘傳應用統計系 Coefficient of Correlation Values 無線性相關 完全負相關 -1.0 13 - 36 完全正相關 No Correlation -.5 0 +.5 +1.0 線性相關係數值各範例 Coefficient of Correlation Examples 銘傳應用統計系 r=1 Y Y r = -1 X Y r = .89 Y X 13 - 37 X r=0 X 線性相關係數的檢定 Test of Coefficient of Correlation 銘傳應用統計系 1. 可顯示(檢定)出兩變數間關係是否為 線性相關 2. 檢定「結果」完全相同於迴歸模型斜率 b1的檢定結果 3. 檢定用的假設Hypotheses H0: = 0 (無線性相關no correlation) Ha: 0 (有線性相關correlation) 13 - 38 線性相關的檢定 銘傳應用統計系 Test for a Linear Relationship Hypotheses H0: = 0 (no correlation) H1: 0 (correlation) 檢定統計量 (Test statistic) t= r where r 2 n2 n r= r2 = X i =1 n X i =1 13 - 39 i i X Yi Y X 2 n Y i =1 i Y 2 熊寶寶行銷範例 – 1/3 銘傳應用統計系 你是銘傳熊寶寶的行銷分析人員, 已知b^ = -0.1和 b^ = 0.7. 0 1 決定係數R2= 0.8167 r = R = 0.8167 = 0.903715 2 13 - 40 熊寶寶行銷範例 -- 2/3 銘傳應用統計系 H0: = 0 (no correlation) H1: 0 (correlation) r 0.903715 t= = = 3.656 決策: 拒絕 H0 2 1 0.8167 1 r 結論 : 3 廣告與銷售量之間有著相關性 n2 Critical Value(s): Reject .025 Reject .025 -3.1824 0 3.1824 13 - 41 這個 t 統計量的值 與斜率係 數的檢定統計量值是相等的 熊寶寶行銷範例 --3/3 斜率係數檢定 銘傳應用統計系 1. H0: b1 = 0 2. H1: b1≠ 0 3. = .05 df = 5 - 2 = 3 4. Critical Value(s): Reject .025 t= bˆ1 b1 S bˆ 0.70 0 = = +3.656 0.1915 1 Reject 6. Decision: 在 = .05拒絕H0 .025 -3.1824 0 3.1824 13 - 42 5. 在Ho的Test Statistic: t 結論:兩者之間存在著 顯著的線性相關 線性相關的檢定例 – 1/3 銘傳應用統計系 Data for Seven Stores: Store 1 2 3 4 5 6 7 Square Feet Annual Sales ($000) 1,726 1,542 2,816 5,555 1,292 2,208 1,313 3,681 3,395 6,653 9,543 3,318 5,563 3,760 13 - 43 From Excel Printout R e g r e ssi o n S ta ti sti c s M u lt ip le R R S q u a re 0 .9 7 0 5 5 7 2 0 .9 4 1 9 8 1 2 9 A d ju s t e d R S q u a re 0 . 9 3 0 3 7 7 5 4 S t a n d a rd E rro r 6 1 1 .7 5 1 5 1 7 O b s e rva t io n s Q:店面大小是否會 影響年銷售量? 7 線性相關的檢定例 – 2/3 銘傳應用統計系 H0: = 0 (No association) vs H1: 0 (Association) = .05 df = 7 - 2 = 5 拒絕 H0 r .9706 t= = = 9.0099 2 1 .9420 r Conclusion: 5 n2 Critical Value(s): Reject .025 Reject .025 -2.5706 0 2.5706 13 - 44 店面大小會影響銷售量 這個 t 統計量的值 與斜率係 數的檢定統計量值是相等的 線性相關的檢定例 – 3/3 銘傳應用統計系 Test Statistic: H0: b1 = 0 From Excel Printout H1: b1 0 Coefficients Standard Error = .05 Intercept 1636.4147 451.4953 df = 7 - 2 = 5 Footage 1.4866 0.1650 Decision: Critical Value(s): 拒絕 H0 Reject Reject .025 13 - 45 t Stat P-value 3.6244 0.01515 9.0099 0.00028 Conclusion: 店面大小會影響銷售量 .025 -2.5706 0 2.5706 t t 銘傳應用統計系 回顧所學: 迴歸模型使用時的步驟 1. 事先決定反應變數與獨立變數間的模式 2. 估計模式的參數 3. 模式中誤差項的機率分配之描述 4. 評估衡量所建立的迴歸模型 5. 利用模式做估計或預測工作 6. 線性相關分析 13 - 46 回顧所學 -- 例子 銘傳應用統計系 房價(y)和坪數(x)例子 1. 建立迴歸模式包括平均價格和誤差部分 2. 房價跳動部分,在不同坪數時皆相同(變異 數相同) 3. 估計迴歸模式及評估房價和坪數之關係 知道房屋坪數,只能估計平均房價 個別特定房屋之房價,僅以預測區間估計 13 - 47 結論(一) 銘傳應用統計系 1. 線性迴歸模型及假設條件的描述 Yi = b 0 + b1X i + e i 假設(1). 常態 每一個X值所相對應的Y值,通常有許多值,這些值 之間呈現的為常態分配 誤差項ei 的機率分配為常態 假設(2). 變異數為固定常數 誤差項的變異數為固定常數,通常命名為s2 假設(3). 誤差項之間相互獨立 13 - 48 結論(二) 銘傳應用統計系 n 2. 迴歸模型內各參數的估計(最小平方法) X i Yi n i =1 i =1 X Y i i 迴歸直線預估方程式 n i =1 ˆ bˆ1 = ˆ n Yi = b 0 + bˆ1 X i n 2 n X i Yi X n i i =1 n i =1 i =1 X Y 2 i i X n i ˆ = i =1 b n 1 2 n i =1 n bˆ0 = Y bˆ1 X 13 - 49 n 2 X i i =1 bˆ0 = Y bˆ1 X X i i =1 n 結論(二) 變異數分析ANOVA表 銘傳應用統計系 3. 變異數分析表(ANOVA Table) ANOVA變異數分析表 df Regression 1 SS MS F SSR MSR =SSR/1 P-value of MSR/MSE the F Test MSE =SSE/(n-p-1) Residuals n-p-1 SSE Total n-1 SST 13 - 50 Significance F 結論(三) 銘傳應用統計系 3. 變異數分析表(ANOVA Table) SST = SSR + SSE df: n-1 = (1) + (n-p-1) 檢定Ho: b=0 vs Ha: b0 MSR = SSR/(1) ; MSE=SSE/(n-p-1) 檢定統計量, F*=(MSReg/MSE) ~ F(1; n-p-1) 2 ˆ S = s = MSE 13 - 51 2 結論(四) 銘傳應用統計系 4. 線性迴歸模型之詮釋與應用 5. 殘差分析(residual analysis) ---- 評估是否合 乎線性迴歸成立的假設 檢驗線性結構 殘差圖 ( e vs X) 驗證齊一性 -----『變異數是否一致』 Studentized殘差圖 ( SR vs X) 檢驗誤差項之間的獨立性 Durbin-Watson檢定 13 - 52 結論(五) 銘傳應用統計系 6. 迴歸斜率係數的檢定 以樣本斜率的抽樣分配為理論基礎 7. 反應變數(平均值, E(Yp|xp)的信賴區間 Yˆp t n 2, / 2 SYˆ E (Yp | X p ) Yˆp + t n 2, / 2 SYˆ p 1 SYˆ = S + p n p X X , X X 2 p n i =1 13 - 53 2 i S = MSE 結論(六) 銘傳應用統計系 8. 單個觀測值, Yp, 的預測區間 Yˆp t n 2, / 2 S Y Yˆ YP Yˆp + t n 2, / 2 S Y Yˆ p p 1 X p X S(Y Yˆ ) = S 1 + + n , p 2 n X i X 2 i =1 13 - 54 S = MSE 結論(七) 銘傳應用統計系 9. 決定係數 R2 =SSR/SSE 10. 線性相關係數 r = R2 X n = i =1 X n i =1 i i X Yi Y X 2 11. 電腦報表的解讀 13 - 55 Y n i =1 i Y 2 關於本課程... 銘傳應用統計系 請你靜下來想一想並回答下列問題: 1. 你此堂課學到的最重要的觀念為何? 2. 是否還有相關問題與疑問? 3. 如何改善今後的學習? 13 - 56