Transcript Document
統計學導論 方世榮 著 Chapter 13 迴歸分析與相關分析 本 章 綱 要 13.1迴歸分析的基本概念 13.2迴歸係數β0與β1的估計 13.3估計的迴歸係數b0與b1之抽樣分配 13.4迴歸分析中重要的統計推論 13.5判定係數與顯著性檢定 13.6迴歸預測 Chapter 13 迴歸分析與相關分析 本 章 綱 要 13.7相關分析 13.8非線性關係的處理 13.9線性複迴歸 13.1 迴歸分析的基本概念 導論 簡單直線迴歸 簡單直線迴歸模型 統計學導論 Chapter 13 迴歸分析與相關分析 13-4 導論(1/2) 在迴歸分析中,必有一因變數(dependent variable) 又稱為被解釋變數(explained variable)或被預測變 數(regressand),一般以y表示;且可能有數個自 變數(independent variable),又稱為獨立變數或 預 測 變 數 (predictor) 或 解 釋 變 數 (explanatory variable),一般以xi表示。 如 果 自 變 數 只 有 一 個 , 稱 為 簡 單 迴 歸 (simple regression);若自變數有二個或二個以上者,則 稱為複迴歸(multiple regression)。 統計學導論 Chapter 13 迴歸分析與相關分析 13-5 導論(2/2) 若變數間具有統計關係,則進行迴歸分析目的在 找出一適當的數學方程式以表示其關係,此方程 式謂之迴歸方程式(regression equation)。 若迴歸方程式具線性特性者,則稱為直線迴歸 (linear regression) ; 否 則 稱 為 非 直 線 迴 歸 (nonlinear regression)。 統計學導論 Chapter 13 迴歸分析與相關分析 13-6 簡單直線迴歸(1/3) 表13-1 簡單迴歸的資料結構 自變數x 因變數y x1 y1 x2 y2 x3 y3 … … xn yn 統計學導論 Chapter 13 迴歸分析與相關分析 13-7 簡單直線迴歸(2/3) 表13-2 藥濟量(x)與解除症狀持續天數(y) 藥劑量x 3 3 4 5 6 6 7 8 8 9 統計學導論 Chapter 13 迴歸分析與相關分析 解除症狀的持天數y 9 5 12 9 14 16 22 18 24 22 13-8 簡單直線迴歸(3/3) 圖13-1 表13.2之散布圖 統計學導論 Chapter 13 迴歸分析與相關分析 13-9 簡單直線迴歸模型(1/4) 直線迴歸的統計模型 假設因變數y代表一隨機變數,而自變數x則視為 已知的固定常數;若y與x具有直線迴歸關係,則 其關係式為 yi=β0+β1xi+ei,i=1,2,…,n (13-1) 式中 yi 表示進行第i次實驗時,對應於自變數xi 值的 反應。 統計學導論 Chapter 13 迴歸分析與相關分析 13-10 簡單直線迴歸模型(2/4) e1,…,en為真實線性關係式的誤差項。這些值皆 為不可觀察的隨機變數,假設其為獨立且平均 數為0,變異數為未知的σ2 之常態分配;亦即 ei~N(0,σ)。 參數β0 與β1 ,表示此直線方程式的係數,亦稱 為迴歸係數(regression coefficient),且皆為未 知的。 統計學導論 Chapter 13 迴歸分析與相關分析 13-11 簡單直線迴歸模型(3/4) E(yi)=β0+β1xi; i=1,2,…,n (13-2) Var(yi)=σ2或Sd(yi)=σ (13-3) yi~N(β0+β1xi ,σ) (13-4) 統計學導論 Chapter 13 迴歸分析與相關分析 13-12 簡單直線迴歸模型(4/4) 圖13.3 y為常態分配,其平均數位於直線E(y)=β0+β1x上 統計學導論 Chapter 13 迴歸分析與相關分析 13-13 13.2 迴歸系數β0與β1的估計 最小平方法 最大概似法 統計學導論 Chapter 13 迴歸分析與相關分析 13-14 最小平方法 圖13.4 觀察值與直線y=b0+b1x之離差 統計學導論 Chapter 13 迴歸分析與相關分析 13-15 最小平方原理(1/2) 求出迴歸係數的值,使得 n D ( yi b0 b1 xi )2 i 最小化;此一方法稱為最小平方估計(least square estimation)。 統計學導論 Chapter 13 迴歸分析與相關分析 13-16 最小平方原理(2/2) 1 1 b0 yi b1 xi n n x i yi ( x i yi ) / n b1 2 2 x ( x ) i i /n 統計學導論 Chapter 13 迴歸分析與相關分析 (13-9) (13-10) 13-17 基本符號(1/2) 1 1 x x i , y yi n n SSX ( xi x ) x 2 2 i SSY ( yi y )2 yi2 ( xi ) 2 n ( yi ) 2 n SSXY ( xi x )( yi y ) xi yi 統計學導論 Chapter 13 迴歸分析與相關分析 ( xi )( yi ) n 13-18 基本符號(2/2) 式中SSX與SSY分別稱為X與Y的平方和(sum of square for X and Y),SSXY稱為X、Y的交叉平方 和(sum of cross product for X,Y)。 統計學導論 Chapter 13 迴歸分析與相關分析 13-19 0 最小平方估計值b0 y b1 x 1之最小平方估計值b1 SSXY / SSX eˆi yi yˆ i yi b0 b1 xi eˆ ( y yˆ ) ( y b b x ) 0 eˆ ( y yˆ ) 最小 i 2 i 0 i i 2 i ,n (13-12) (13-13) i i i i 1, 2, (13-11) i 統計學導論 Chapter 13 迴歸分析與相關分析 (13-14) (13-15) 13-20 最大概似估計法原理 利用函數式 L(Xi,X2,…,Xn;θ)=f(X1;θ)f(X2;θ)…f(Xn;θ)=L(θ) ( ) 2 L( ) ˆ之估計值。 使 0且 0 ,而求得 ( ) 2 其:f(X1,…,Xn)為自母體中所抽出之ㄧ組隨機樣 本,θ代表母體參數。 統計學導論 Chapter 13 迴歸分析與相關分析 13-21 13.3 估計的迴歸係數b0與b1之抽樣 分配(1/2) SSE ˆ n2 SSE 63.6528 2 ˆ = 7.96 n2 8 b1~N ( 1 , b1 ) 2 2 b1 ˆ b2 1 2 (x i x) 2 (13-20) (13-21) 2 SSX (13-22) ˆ 2 2 ( x x ) i 統計學導論 Chapter 13 迴歸分析與相關分析 (13-23) 13-22 13.3 估計的迴歸係數b0與b1之 抽樣分配(1/2) b1 1 b Z~N (0,1) (13-24) 1 b1 1 ~t ( n 2) ˆ b1 b0~N ( 0 , b0 ) 2 1 x 2 2 ˆ b0 2 n ( xi x ) 2 1 x 2 2 ˆ b 0 ˆ 2 n ( xi x ) 統計學導論 Chapter 13 迴歸分析與相關分析 (13-25) (13-26) (13-27) 13-23 母體與樣本迴歸模型的關係 統計學導論 Chapter 13 迴歸分析與相關分析 13-24 13.4 迴歸分析中重要的 統計推論 檢定 H0:β1=β10 其檢定統計量為(其中β10 表示任何已知的參數值), (b 1 10 ) t d. f . n 2 ˆ / SSX 統計學導論 Chapter 13 迴歸分析與相關分析 13-25 截距β0之推論 檢定統計量t b0 t / 2ˆ b0 1 x2 ˆ n SSX df n 2 (13-30) 2 1 x n n SSX 統計學導論 Chapter 13 迴歸分析與相關分析 (13-31) 13-26 13.5 判定係數與顯著性 檢定 樣本點 圖13.6 迴歸變異分析圖 統計學導論 Chapter 13 迴歸分析與相關分析 13-27 迴歸平方和之分割定理 總 變 異 (SST)= 無 法 解 釋 的 變 異 (SSE)+ 迴 歸 變 異 (SSR) 2 2 ˆ ( y y ) ( y y ) ( y y ) i i i i (13-32) 總變異(SST)=無法解釋的變異(SSE)+迴歸變異 (SSR) 2 SST ( yi y ) y i 2 2 ( yi ) SSR ( yˆ i y )2 b1 SSXY n SSY SSE ( yi yˆ i )2 SST b1 SSXY 統計學導論 Chapter 13 迴歸分析與相關分析 (13-33) (13-34) (13-35) 13-28 判定係數 判定係數(coefficient of determination),以R2表示 迴歸變異 SSR SST SSE SSE R 1 總變異 SST SST SST 2 0 R2 1 統計學導論 Chapter 13 迴歸分析與相關分析 13-29 顯著性檢定 表13-4 迴歸變異數分析表 變異來源 平方和(SS) 自由度df 迴歸 ( yˆ i y ) SSR k 誤差 ( yi yˆ i ) SSE n–k–1 總變異 ( yi y ) SST n–1 2 2 均方 SSR k SSE MSE n k 1 MSR F比值 F MSR ~F ( k , n k 1) MSE 2 統計學導論 Chapter 13 迴歸分析與相關分析 13-30 F-檢定與t-檢定的區別 t-檢定用於個別迴歸係數之顯著性檢定,而F-檢定 則可用於整條迴歸模型之顯著性檢定。 t-檢定可對某一特定數值(不一定等於零)進行檢定, 但F-檢定只能對零值進行檢定。 在簡單直線迴歸模型下,t-檢定的假設為H0:β1=0; H1:β1≠ 0 ,而F-檢定的假設亦可寫成 H0:β1=0 ; H1:β1≠0。此時兩者的檢定統計量之關係為 t2 / 2 ( n 1) F (1, n 1) 統計學導論 Chapter 13 迴歸分析與相關分析 (13-39) 13-31 13.6 迴歸預測(1/3) 特定x0值下平均反應值 E(y|x0) 之預測 yˆ 0 b0 b1 x E ( yˆ 0 ) y0 y x0 b0 b1 x0 S E ( yˆ 0 ) y 0 (13-40) 1 ( x0 x ) 2 n SSX 1 ( x0 x ) 2 yˆ 0~N b0 b1 x0 , n SSX 1 ( x0 x ) 2 (b0 b1 x0 ) t / 2ˆ n SSX 統計學導論 Chapter 13 迴歸分析與相關分析 (13-41) (13-42) (13-43) 13-32 13.6 迴歸預測(2/3) 特定x0值下單一反應值y0之預測 E ( y0 ) y 0 E (eˆ0 ) y 0 (因為E (eˆ0 ) 0) Var ( y0 ) Var ( yˆ 0 ) Var (eˆ0 ) Var ( yˆ 0 ) 2 1 ( x0 x ) 2 2 1 SSX n y0~N 0 1 x0 , 1 1 / n ( x0 x )2 / SSX 統計學導論 Chapter 13 迴歸分析與相關分析 13-33 13.6 迴歸預測(3/3) y ŷ 信賴區間的界限 預測區間的界限 x x 圖13.7 信賴區間與預測區間之圖示 統計學導論 Chapter 13 迴歸分析與相關分析 13-34 迴歸分析的步驟(1/2) 建立迴歸模型:從散布圖觀察,若觀察值近似直 線分布,則可建立直線迴歸模型(方程式),包括 母體迴歸與樣本迴歸模型。 估計迴歸模型:利用最小平方法估計迴歸係數, 並瞭解迴歸係數估計量(如b0與b1)之抽樣分配。 統計學導論 Chapter 13 迴歸分析與相關分析 13-35 迴歸分析的步驟(2/2) 評判迴歸模型:評估此模型的品質,包括 (1)採t-檢定來測驗個別迴歸係數的顯著性。 (2)計算判定係數以分析迴歸解釋能力的高低。 (3)採F-檢定來測驗整體迴歸模型之配適度,亦 即檢定迴歸模型解釋能力之顯著性。 解釋迴歸模型:解釋迴歸係數的意涵,變動一單 位自變數,其對應變數的影響程度大小與 方向。 利 用 迴 歸 模 型 預 測 : E(y0|x0) 與 單 一 y0 之 預測。 統計學導論 Chapter 13 迴歸分析與相關分析 13-36 13.7 相關分析 相關的意義 樣本相關係數 母體相關係數 迴歸與相關的關係 統計學導論 Chapter 13 迴歸分析與相關分析 13-37 相關的意義 鏈結圖 13.8 相關分析的種類 統計學導論 Chapter 13 迴歸分析與相關分析 13-38 樣本相關係數(1/2) 假設有n組資料(x1,y1),(x2,y2),… ,(xn,yn),而(x,y)之 相關係數為r,則 r的值必介於–1與+1之間。 r的大小表示線性關係的強度,正、負符號表示 相關的方向。 r > 0,若(x,y)值的圖形為一帶狀且從左下方至 右上方。 r < 0,若(x,y)值的圖形為一帶狀且從左上方至 右下方。 統計學導論 Chapter 13 迴歸分析與相關分析 13-39 樣本相關係數(2/2) r = +1,若所有(x,y)之值均剛好落於一直線上, 且具正斜率(完全線性正相關)。 r= –1,若所有(x,y)之值均剛好落於一直線上, 且具負斜率(完全線性負相關)。 |r|值愈大(亦即 r 愈接近+1或–1),則表示線性關 係之強度愈大。 r的值愈接近0,則意謂著線性相關很弱。 統計學導論 Chapter 13 迴歸分析與相關分析 13-40 樣本相關係數 r 定義和 內容(1/3) 樣本相關係數 r r ( x x )( y y ) / n 1 SSX / n 1 SSY / n 1 SSXY SSX (13-46) SSY 其中的符號可參考本章第2節的基本符號。 統計學導論 Chapter 13 迴歸分析與相關分析 13-41 樣本相關係數 r 定義和 內容(2/3) 鏈結圖 13.9 r值與散布圖形狀之間的對應關係 統計學導論 Chapter 13 迴歸分析與相關分析 13-42 樣本相關係數 r 定義和 內容(3/3) 圖13.10 以 x 與 統計學導論 Chapter 13 迴歸分析與相關分析 y 為準,分割為四個象限 13-43 母體相關係數(1/3) 母體相關係數 p 1 N (x x )( y y ) x y 1 N x x x y y y (13-47) 統計學導論 Chapter 13 迴歸分析與相關分析 13-44 母體相關係數(2/3) E(r)=ρ (13-49) Var(r)=1–r2/n–2 (13-50) 1 r2 r n2 (13-51) n2 r ~t ( n 2) 2 2 1 r (1 r ) /( n 2) r 統計學導論 Chapter 13 迴歸分析與相關分析 (13-52) 13-45 母體相關係數(3/3) 1 1 r Z r ln 2 1 r (13-53) 1 1 E ( Z r ) ln 2 1 (13-54) 1 Var ( Z r ) n3 1 0 n 3 1 r z ln ln 2 1 r 1 0 n 3 (1 r )(1 0 ) ln 2 (1 r )(1 0 ) 統計學導論 Chapter 13 迴歸分析與相關分析 (13-55) 13-46 迴歸與相關的關係(1/2) b1 r SSX SSY SSX SSY / n 1 SSY SSX SY Sx SSX / n 1 SY b1 r SX 統計學導論 Chapter 13 迴歸分析與相關分析 (13-56) (13-57) 13-47 迴歸與相關的關係(2/2) SSR 2 R SST R2 2 ˆ ( y y ) 2 ( y y ) b12 ( x x )2 ( y y) 2 b12 SSX SSY (13-58) 2 S 2 2 2 SSY / n 1 2 SSY Y b1 r r r 2 SX SSX / n 1 SSX SSY SSX R r r2 SSX SSY 2 2 統計學導論 Chapter 13 迴歸分析與相關分析 13-48 13.9 線性複迴歸 表13.8 含有二個自變數之複迴的資料結構 樣本組 自變數 因變數 n 1 2 x1 x11 x21 x2 x12 x22 y y1 y2 3 x31 x32 y3 i xi1 xi2 yi n xn1 xn2 yn 統計學導論 Chapter 13 迴歸分析與相關分析 13-49 複迴歸模型(1/3) yi=β0+β1xi1+β2xi2+ei i=1,2,…,n (13-59) 式中 yi表示第 i 個因變數(反應變數)觀察值,其為隨 機變數;而xi1與xi2表示第 i 組自變數 x 的值, 且一般皆假設為給定的常數值。 誤差項ei呈獨立的常態分配,其平均數為0,變 異數為σ2,亦即 ei~N(0,σ)。 迴歸參數β0、β1與β2為未知,且σ2亦為未知。 統計學導論 Chapter 13 迴歸分析與相關分析 13-50 複迴歸模型(2/3) n Min ( yi b0 b1 xi 1 b2 xi 2 )2 Min SSE i 1 nb 0 ( xi 1 )b1 ( xi 2 )b2 yi x b x x b x b x x i1 b0 i2 0 2 x i1 b1 xi1 xi 2 b2 xi1 y1 i1 i2 統計學導論 Chapter 13 迴歸分析與相關分析 1 2 i2 2 i2 (13-60) yi 13-51 複迴歸模型(3/3) 鏈結表 13.11 某運輸公司迴歸問題利用MINITAB所得出電腦結果 鏈結表 13.13 MINITAB之主要輸出結果 統計學導論 Chapter 13 迴歸分析與相關分析 13-52