Transcript Document
中級社會統計 第十三講 複迴歸分析 ©Ming-chi Chen 社會統計 Page.1 複迴歸分析 • 前面我們學到只有一個自變項的簡單迴歸分析 • 我們知道一個地區的人均病床數會影響到該地區的 平均餘命 • 我們也知道一個地區的人均教育支出會影響該地區 的平均餘命 • 但是如果教育支出相等的條件下,醫療資源的多寡 會不會影響平均壽命?兩者孰輕孰重? • 控制的概念(在其他條件不變的情況下) ©Ming-chi Chen 社會統計 Page.2 複迴歸分析 • 研究兩個或兩個以上的IV對DV的影響的分析方式, 稱為複迴歸分析(multiple regression analysis) • 又稱多元迴歸分析 • 迴歸方程式 Yi 1 x1i 2 x 2 i k x ki i 其中 為截距, 1 , , k 為迴歸係數。 ©Ming-chi Chen 社會統計 Page.3 多元迴歸Multiple Regression Models • 統計成績與努力(所花時間)的關係如下: y成績 x1努力 45 100 60 300 50 300 70 400 65 500 65 600 80 700 45 200 75 500 ©Ming-chi Chen 90 80 70 60 50 40 30 0 100 200 300 400 500 600 700 800 社會統計 Page.4 觀 念 多元迴歸Multiple Regression Models • 兩者的迴歸線: 90 yˆ i 38 . 33 0 . 058 x i 80 (5.07) (.012) 70 60 50 Y y成績 x1努力 45 100 60 300 50 300 70 400 65 500 65 600 80 700 45 200 75 500 40 0 100 200 300 社會統計 ©Ming-chi Chen X1 400 500 600 700 800 Page.5 觀 念 多元迴歸Multiple Regression Models • 將學生對於數理科目的興趣納入考量發現: y成績 x1努力 x2興趣 45 100 10 60 300 20 50 300 10 70 400 30 65 500 20 65 600 20 80 700 30 45 200 10 75 500 30 ©Ming-chi Chen 90 x2=30 80 70 x2=20 60 50 x2=10 40 30 0 100 200 300 400 500 600 700 800 社會統計 Page.6 觀 念 多元迴歸Multiple Regression Models 90 80 70 60 X2 30.00 50 20.00 Y • 如果我們針對 具有相同興趣 水準的學生來 考量努力與成 績的關係,則 可以分別用三 個迴歸線來表 達: 10.00 40 0 ©Ming-chi Chen 觀 念 100 200 X1 社會統計 300 400 500 600 700 800 Page.7 多元迴歸Multiple Regression Models 90 80 70 X2 60 30.00 20.00 50 10.00 Y 這三條線的斜率 似乎沒有原本迴 歸線來得大,表 示努力與成績的 關係有一部份是 受到興趣的干擾 (confounding): 有興趣的學生通 常花比較多的時 間 Total 40 0 100 200 300 400 500 600 700 800 X1 ©Ming-chi Chen 觀 念 社會統計 Page.8 多元迴歸Multiple Regression Models 90 yˆ i 31 . 66 0 . 025 x i 1 . 0 x 2 (1.30) (.004) 觀 念 (.088) 此時利用多元迴歸 比簡單迴歸可以算 出三條簡單迴歸的 「平均斜率」。 80 70 X2 60 30.00 20.00 50 Y 10.00 Total 40 0 100 200 300 400 500 600 700 800 X1 ©Ming-chi Chen 社會統計 Page.9 多元迴歸Multiple Regression Models 90 80 70 X2 60 30.00 20.00 50 10.00 Y 多元迴歸用來分析 一個以上自變數對 於依變數的影響, 可以看出「其他變 數不變(常數)」 的條件下,某一個 變數對於依變數產 生的「淨」影響為 何? 觀 念 Total 40 0 100 200 300 400 500 600 700 800 X1 ©Ming-chi Chen 社會統計 Page.10 Partial Derivative偏微分觀念 觀 念 • 經濟學說我們對於某商品的需求量與價格及 所得有關: x1 商品價格 y f ( x1 , x 2 ) x 2 所得水準 y B 0 B1 x1 B 2 x 2 • 在所得不變的條件下,商品價格x1變動, 對於需求量y有何影響? ©Ming-chi Chen 社會統計 Page.11 Partial Derivative偏微分觀念 觀 念 • 假設所得固定為100, x1 商品價格變動 因為價格變動所造成的商 y 商品需求變動 品需求變動可以表為: y f ( x 1 x 1 ,100 ) f ( x 1 ,100 ) 帶入原來的函數: y B 0 B1 x1 B 2 x 2 y B 0 B1 x1 B1 x1 B 2 (100 ) ( B 0 B1 x1 B 2 (100 )) y B 1 x1 ©Ming-chi Chen y xi B1 社會統計 Page.12 Partial Derivative偏微分觀念 觀 念 • 如果我們將x1切割成很小的單位,則每 個極小單為的變動所造成的q變動為: y x1 lim ( x1 0 y xi ) lim f ( x1 x1 , x 2 100 ) f ( x1 , x 2 100 ) y B 0 B1 x1 B 2 x 2 ©Ming-chi Chen x1 x1 0 B1 在x2不變(保持恆定) 的情況下,x1的變動所 造成y的變動 社會統計 Page.13 Partial Derivative偏微分觀念 觀 念 y B 0 B1 x1 B 2 x 2 e 二個自變數的多元 迴歸分析在於設法 找出最合適資料分 e y yˆ 佈的一個平面。 y 需 求 yˆ B 0 B1 x1 B1 x 2 三個以上的自變數在 三度空間上無法表達。 X2所得 ©Ming-chi Chen X1價格 社會統計 Page.14 多元迴歸的參數推估 Y 8 4 21 49 26 33 84 55 X1 10 9 20 17 11 18 18 17 X2 3 5 6 8 11 14 15 18 求多元迴歸x1與x2的係數? 我們可以將所有的觀察值y視為 x1與x2的線性函數加上誤差值e y a b1 x 1 b 2 x 2 e 多元迴歸的預測值可以表為: yˆ a b1 x 1 b 2 x 2 ©Ming-chi Chen 社會統計 Page.15 The Normal Equation 觀 念 y a b1 x 1 b 2 x 2 e y 需 求 e y yˆ 求使e2最小的平面 yˆ a b1 x 1 b 2 x 2 X2所得 ©Ming-chi Chen X1價格 社會統計 Page.16 The Normal Equation 觀 念 y a b1 x 1 b 2 x 2 e 求 Minimum Q? SSE e 2 2 ( y yˆ ) ( y a b1 x1 b 2 x 2 ) (1) 2 將(1)式分別對a, b1, b2做偏 微分,再將所得之方程式設 為零,然後求解聯立方程式 即可求得最小值。 ©Ming-chi Chen 社會統計 SSE 0 a SSE 0 b1 SSE 0 b2 Page.17 The Normal Equation SSE e 2 2 ( y yˆ ) 觀 念 ( y a b1 x1 b 2 x 2 ) (1) 2 SSE 0 ( y a b1 x1 b2 x 2 ) ( y yˆ ) e 0 a e總和為零 SSE 0 ( y a b1 x1 b2 x 2 ) x1 ( y yˆ ) x1 e x1 0 b1 e與x1及x2不相關(uncorrelated) SSE 0 ( y a b1 x1 b2 x 2 ) x 2 ( y yˆ ) x 2 e x 2 0 b2 ©Ming-chi Chen 社會統計 Page.18 Basic Rules for Differentiation • Rule 8: the chain rule ( f g )' : x g ' ( x ) f ' [ g ( x )] ©Ming-chi Chen 社會統計 Page.19 複 習 Example of chain rule f ( x) ( x 2) 2 複 習 3 我們可以把 f ( x ) 看成由下列兩函數合成 : g ( y) y ; y h( x) x 2 3 2 f ' ( x ) ( g h )' : x h ' ( x ) g ' [ h ( x )] h'( x) 2 x g '( y) 3 y 2 f ' ( x ) 2 x 3( x 2 ) 6 x ( x 2 ) 2 ©Ming-chi Chen 2 社會統計 2 2 Page.20 微分求迴歸係數 SSE e 2 ( y yˆ ) 2 (y a b x 1 1 b2 x 2 ) 2 ( y 1 a b1 x11 b 2 x 21 ) ( y 2 a b1 x12 b 2 x 22 ) 2 ( y n a b1 x1 n b 2 x 2 n ) 2 2 令 g ( z ) z , z h ( x ) ( y a b1 x1 b 2 x 2 ) 2 g ' ( z ) 2 z , h ' ( x ) 1, ( f g )' : x g ' ( x ) f ' [ g ( x )] SSE a g ' ( z ) h ' ( x ) 求最小 SSE a 2 ( y 1 a b1 x11 b 2 x 21 )( 1) 2 ( y 2 a b1 x12 b 2 x 22 )( 1) 2 ( y n a b1 x1 n b 2 x 2 n )( 1) 2 ( y a b1 x1 b 2 x 2 )( 1) 0 (y a b x 1 1 b2 x 2 ) 0 ©Ming-chi Chen 社會統計 Page.21 同理, SSE b1 SSE b2 0 (y a b x 1 b 2 x 2 ) ( x1 ) 0 0 (y a b x 1 b2 x 2 ) ( x 2 ) 0 ©Ming-chi Chen 1 1 社會統計 Page.22 The Normal Equation SSE e 2 2 ( y yˆ ) (y a b x 1 1 ( y a b1 x1 b 2 x 2 ) (1) 2 b2 x 2 ) 0 ( y a b1 x1 b 2 x 2 ) x 1 0 ( y a b1 x1 b 2 x 2 ) x 2 0 ©Ming-chi Chen 觀 念 y na b1 x 1 b 2 x 2 x 1 y a x 1 b1 x 1 b 2 x 1 x 2 x 2 y a x 2 b1 x 1 x 2 b 2 x 2 社會統計 2 2 Page.23 The Normal Equation Y 8 4 21 49 26 33 84 55 280 35 X1 10 9 20 17 11 18 18 17 120 15 ©Ming-chi Chen X2 3 5 6 8 11 14 15 18 80 10 觀 念 y na b1 x 1 b 2 x 2 x 1 y a x 1 b1 x 1 b 2 x 1 x 2 2 x 2 y a x 2 b1 x 1 x 2 b 2 x 2 2 x x Sum y 14768 , 2 2 1 1928 , 2 2 1000 x x 1280 , x y 4696 , x y 3560 1 2 1 2 Average 社會統計 Page.24 The Normal Equation Y 8 4 21 49 26 33 84 55 280 35 X1 10 9 20 17 11 18 18 17 120 15 ©Ming-chi Chen X2 3 5 6 8 11 14 15 18 80 10 x x y 14768 , 2 2 1 1928 , 2 2 1000 觀 念 x x 1280 , x y 4696 , x y 3560 1 2 1 2 280 8 a 120 b1 80 b 2 4696 120 a 1928 b1 1280 b 2 3560 80 a 1280 b1 1000 b 2 a 25 , b1 2 , b 2 3 Sum Average yˆ 25 2 x 1 3 x 2 社會統計 Page.25 The Normal Equation y na b1 x 1 b 2 x 2 n y a b1 x n 1 觀 念 b2 x 2 n x 1 y a x 1 b1 x 1 b 2 x 1 x 2 2 x 2 y a x 2 b1 x 1 x 2 b 2 x 2 y a b1 x 1 b 2 x 2 2 迴歸平面通過中心點: ( y , x1 , x 2 ) ©Ming-chi Chen 社會統計 Page.26 Normal Equations in Reduced Form 觀 念 若將所有變數都以「離均值」來表示 y a b1 x1 b 2 x 2 ( yˆ y ) b1 ( x1 x1 ) b 2 ( x 2 x 2 ) yˆ a b1 x1 b 2 x 2 Yˆ b1 X 1 b 2 X 2 SSE 令 e SSE b1 (Y (Y 2 0, ˆ)2 ( Y Y SSE b2 求b1, b2等於: (Y b1 X 1 b 2 X 2 ) 2 0 b1 X 1 b 2 X 2 ) X 1 0 b1 X 1 b 2 X 1 X 2 X b1 X 1 b 2 X 2 ) X 2 0 b1 X 1 X 2 b 2 X 2 ©Ming-chi Chen 2 2 社會統計 Y 1 X 2Y Page.27 Normal Equations in Reduced Form 解聯立方程式: b1 X 1 b 2 X 1 X 2 2 b1 X 1 X 2 b 2 X 2 2 X X X 2 X 1Y 2 1 X X X 2 2 2 b2 1 1 2 Y 2 2 1 2 2 2 2 2 1 1 1 2 2 1 1 社會統計 2 X X XY X X X X Y X1 ©Ming-chi Chen Y 1 X X XY X X X X 2 b1 X X 2 SS 22 SS 1 y SS 12 SS 2 y SS 11 SS 22 SS 12 2 SS 11 SS 2 y SS 12 SS 1 y SS 11 SS 22 SS 12 2 Page.28 觀 念 Normal Equations in Reduced Form 解聯立方 程式: SS yy b1 Y 2 X 2 SS 1 y X 1 SS 2 y X SS 12 X SS 11 SS 22 SS 22 SS 1 y SS 12 SS 2 y SS 11 SS 22 SS 2 ( x2 x2 ) Y (x Y (x 2 1 2 X2 ©Ming-chi Chen ( x1 x1 ) 2 X1 2 ( y y) 2 y ny 2 x 2 2 (x x x 2 )( y y ) 2 1 社會統計 1 x x 1 )( x 2 x 2 ) SS 11 SS 22 SS 12 2 2 nx2 2 SS 11 SS 2 y SS 12 SS 1 y 2 x1 n x1 x 1 )( y y ) 1 b2 2 12 觀 念 2 y n x1 y 2 y nx2 y xx 1 2 n x1 x 2 Page.29 Y 8 4 21 49 26 33 84 55 280 35 X1 10 9 20 17 11 18 18 17 120 15 X2 3 5 6 8 11 14 15 18 80 10 x x 2 2 1 1928 , 2 2 1000 b1 SS 1 y SS 12 2 觀 念 1 2 SS 11 SS 22 SS 12 2 x y n x y 4696 8 (15 )( 35 ) 496 x x n x x 1280 8 (15 )( 10 ) 80 x y n x y 3560 8 (10 )( 35 ) 760 SS 11 2 2 x 2 n x 2 1000 8 (100 ) 200 1 1 1 2 1 2 2 2 2 2 x1 n x1 1928 8 (15 ) 128 ( 200 )( 4696 ) ( 80 )( 760 ) 128 ©Ming-chi Chen 1 SS 22 SS 1 y SS 12 SS 2 y SS 22 SS 2 y b1 x x 1280 , x y 4696 , x y 3560 y 14768 , 99200 60800 ( 200 ) 80 ( 80 )社會統計 25600 6400 2 2 Page.30 一般化迴歸模型的假設條件 Y i B 0 B1 x i 1 B 2 x i 2 B k x ik ei • 依變數Yi為隨機變數,自變數(Xi,i=1,…,k) 為預先選定的變數。 • Zero Mean: E(ei)=0 • Homoscedasticity: e2 is the same for all value of independent variable. • Normality: ei為常態分配 • No serial correlation: E(eiej) =0, i j • Independent of ei and xij: E(eixij)=0 ©Ming-chi Chen 社會統計 Page.31 一般化迴歸模型的假設條件 • No perfect multicollinearity: it is not possible to find a set of numbers c0, c1, …ck such that c 0 c1 x i 1 c 2 x i 2 c k x ik 0 , for every i 1, 2 ,..., n ‧樣本數n>k+1,在複迴歸模型若有k個自變數,則有 k+1(包括截距α)個迴歸參數,此時利用樣本來估 計迴歸參數時,樣本數必須大於k+1個。 ©Ming-chi Chen 社會統計 Page.32 The General Multiple Regression Model Yi 0 1 x i1 2 x i 2 k x ik e i 母體迴歸線 yˆ i b0 b1 x i 1 b2 x i 2 bk x ik 樣本迴歸線 • b0, b1, …bk are the least-squares estimates of β0, β1, …βk that minimize the residual sum of squares: SSE 2 eˆ 2 ( y i yˆ i ) ( y i b0 b1 x i 1 b 2 x i 2 b k x ik ) 2 • The Gauss-Markov Theorem: If the basic assumptions hold: • b0, b1, …bk are the unbiased estimates ofβ0, β1, …,βk • b0, b1, …bk have the minimum variances among the class of linear unbiased estimators ©Ming-chi Chen 社會統計 Page.33 Estimated Standard Error of Regression • 如同在簡單迴歸中,為了要做假設檢定, 我們必須要估計e2 。 • 在簡單迴歸中,我們知道S2e=SSE/(n-2)為 e2 的不偏估計式。 • 同理,在複迴歸中, S2e=SSE/(n-(K+1))為 e2 的不偏估計式。其中n為樣本數,(K+1) 為所欲估計的未知數(即K個自變數加上一 個常數項)。 ©Ming-chi Chen 社會統計 Page.34 Estimated Standard Error of Regression • SSE的一般性公式: SSE SSE 2 eˆ 2 ( y i yˆ i ) ( y i b0 b1 x i 1 b 2 x i 2 b k x ik ) 2 y i b 0 y i b1 x i1 y i b 2 x i 2 y i b k x ik y i 2 ©Ming-chi Chen 社會統計 Page.35 Partition of Total Sum of Squares 觀 念 多元迴歸中,SST = SSR + SSE仍然成立 ( y y ) ( y yˆ ) ( yˆ y ) ( y y) 2 [( y 2 2 yˆ ) ( yˆ y ) 2 ( y yˆ )( yˆ y )] 2 ( y yˆ ) (y 2 ˆ ˆ [( y y ) ( y y )] ( yˆ 2 yˆ ) 2 ( y yˆ ) ( y yˆ ) ©Ming-chi Chen 2 e0 2 ( yˆ y ) 2 ( y yˆ )( yˆ y ) 2 y ) 2 ( y yˆ ) yˆ 2 y ( y yˆ ) 2 ( yˆ y ) 2 ( y yˆ )( a b1 x 1 b 2 x 2 ) ( yˆ y ) 2 2 [ a e b1 ex b2 ex ] 1 社會統計 2 e與x1及x2 不相關 Page.36 Partition of Total Sum of Squares Y 8 4 21 49 26 33 84 55 280 X1 10 9 20 17 11 18 18 17 120 X2 3 5 6 8 11 14 15 18 80 y-hat 4 8 33 33 30 53 56 63 (y-ybar)2 (y-yhat)2 (yhat-ybar)2 729 16 961 961 16 729 196 144 4 196 256 4 81 16 25 4 400 324 2401 784 441 400 64 784 4968 1696 3272 SST= SSE ©Ming-chi Chen 觀 念 社會統計 + SSR Page.37 Sum of Square due to Regression y a b1 x1 b 2 x 2 a y b1 x1 b 2 x 2 觀 念 代入 yˆ a b1 x 1 b 2 x 2 yˆ y b1 x 1 b 2 x 2 b1 x 1 b 2 x 2 yˆ y b1 ( x 1 x 1 ) b 2 ( x 2 x 2 ) Yˆ b1 X 1 b2 X 2 SSR 2 ˆ ( y y ) ©Ming-chi Chen 以大寫字母來表示 與平均值間的差異。 2 2 2 ˆ 2 b2 Y X b X 2 b1b2 X 1 X 2 1 1 2 2 社會統計 Page.38 Sum of Square due to Regression SSR Y 8 4 21 49 26 33 84 55 280 35 X1 10 9 20 17 11 18 18 17 120 15 ( yˆ y ) 2 Yˆ 2 b1 2 X 2 1 觀 念 b2 X 2 2 b1b2 X 1 X 2 2 2 2 X2 y 14768 , x1 x 2 1280 , 3 2 x 5 1 1928 , x1 y 4696 , 6 2 x 2 y 3560 x 1000 2 8 2 2 2 2 11 X ( x x ) x n x 1928 1800 128 1 1 1 1 1 14 15 X 1 X 2 ( x1 x1 )( x 2 x 2 ) x1 x 2 n x1 x 2 1280 1200 80 18 2 2 2 2 X ( x x ) x n x 1000 800 200 2 2 2 80 2 2 2 2 10 SSR ( yˆ y ) Yˆ 4 (128 ) 12 ( 80 ) 9 ( 200 ) ©Ming-chi Chen 社會統計 Page.39 Coefficient of Determination R2 • 判定係數 R 2 SSR 1 SST SSR SSE SST ( yˆ y ) 2 eˆ SST ( y y) 2 SSE 2 2 2 ˆ 2 b2 Y X b X 2 b1b2 X 1 X 2 1 1 2 2 2 2 ( y i yˆ i ) • 用來衡量迴歸方程式的配合度或解釋力 ©Ming-chi Chen 社會統計 Page.40 Adjusted R square • 如果樣本數小或自變項個數增加,會使自由度變小, 因此判定係數R2 會高估。 • 亦即在複迴歸模型中若不斷加入與模型無關的解釋變 數時, R2會提高一些,不能代表迴歸模型的解釋能 力。 • 需要調整複判定係數(adjusted coefficient of multiple determination) • 主要調整的是自由度 n R 2 1 2 ( y i yˆ ) /( n k 1) i 1 1 n ( y i y ) /( n 1) 2 SSE /( n k 1) SST /( n 1) i 1 ©Ming-chi Chen 社會統計 Page.41 Adjusted R square R 2 1 SSE /( n k 1) 1 SST /( n 1) n 1 n k 1 s SSE /( n k 1) 2 e 2 2 R 2 1 Se S s SST /( n 1) 2 y ©Ming-chi Chen (1 R ) 社會統計 2 y Page.42 Adjusted R square n 1 n k 1 1, R 2 R 2 2 當我們增加 IV , R 可能會增加、不變或減 少。 2 如果增加一個具有顯著 解釋能力的新的 如果加入沒有解釋能力 的 IV ,則會受到懲罰, 增加 IV ,在 n 不變的情況下, 如果新增的 IV 使 IV ,則 R 會增加。 2 R 會降低。 2 (Yˆ Y ) 會變大,但是 2 (Yˆ Y ) 增加不大,則經過 n 1 n k 1 n 1 n k 1 也會變大。 的懲罰,可能反使 2 R 減小。 2 相對地, R Chen 則只會增大或不變,不 ©Ming-chi 會減少。 社會統計 Page.43 Adjusted R square 2 2 R 的範圍不是在( 0,1)之間, R 可能為負,但仍小於 當 y 時, R 會出現負值 e 2 2 n k 1 ©Ming-chi Chen n 1 1。 2 社會統計 Page.44 Measuring Goodness of fit • 在複迴歸中,可利用F檢定迴歸方程式中所 有的自變數對於依變數Y是否有聯合的解釋能 力: H0:迴歸方程式無解釋能力 β0 = β1 = β2=…=βK = 0 H1:迴歸方程式有解釋能力(β不全為零) ©Ming-chi Chen 社會統計 Page.45 Measuring Goodness of fit 平方和SS 自由度d.f 平均平方和MS F SSR k MSR=SSR/k F=MSR/MSE SSE n-k-1 MSE=SSE/(n-k-1) SST n-1 F ( yˆ y ) / k ( y yˆ ) ©Ming-chi Chen 2 2 /( n k 1) F , k , ( n k 1 ) 社會統計 Reject Page.46 ©Ming-chi Chen 社會統計 Page.47 部分迴歸係數的F檢定 • 檢定新增的IV對DV是否有影響 • 設原複迴歸模型有k個IV,新增Q個IV,欲檢定新增 的Q個IV是否對DV有影響, • H0:βk+1= βk+2=…= βk+Q=0 • H1:H0不為真 ( yˆ yˆ ) / Q F ~ F e /( n k Q 1) 2 k Q 2 k Q , n k Q 1 2 k Q ( SSR k Q SSR k ) / Q 上式 F SSE k Q ©Ming-chi Chen 2 /( n k Q 1) S tata 沒有提供相關數據,必 ( R k Q R k )Q 2 (1 R k Q ) /( n k Q 1) 2 須自行計算。 社會統計 Page.48 個別迴歸參數的檢定 • 由樣本估計出來的迴歸係數必須接受統計檢 定,以了解母體參數的真實性質(從樣本得 到這樣的係數,是否意味著母體參數不為 零)。 • 若母體迴歸變異數σ2已知,則利用Z分配進行 檢定或區間估計。 • 但如果σ2未知,用樣本變異數S2Y|XZ(也就是 Se2 )來代替,進行t檢定。 ©Ming-chi Chen 社會統計 Page.49 樣本誤差值變異數Se2 S 2 e SSE n k 1 1 n k 1 1 n k 1 2 eˆ n k 1 2 ( y i yˆ i ) n k 1 ( y i b 0 b1 x i1 b 2 x i 2 b k x ik ) 2 ( y i b 0 y i b1 x i1 y i b 2 x i 2 y i b k x ik y i ) ©Ming-chi Chen 2 社會統計 Page.50 二元迴歸係數的變異數 Yˆ a b1 X 1 b 2 X 2 S S 2 b1 2 b2 X X 2 2 ( X 1 X 2 ) 2 X1 2 S ( 2 a 2 1 2 X2 X1 ©Ming-chi Chen X 2 1 2 X2 X2 2 X 2 1 S 2 X 2 ( X 1 X 2 ) 2 2 2 e X 2 Se X1 2 X1X 2 X1X 2 2 2 2 ( X 1 X 2 ) 社會統計 2 1 n )S 2 e Page.51 假設檢定 • 迴歸係數檢定所要檢定的假設 H 0 : 0 0 H 1 : 0 0,這是雙尾檢定 H 0 : 1 0 H 1 : 1 0,這是雙尾檢定 H 0 : 2 0 H 1 : 2 0,這是雙尾檢定 ©Ming-chi Chen 社會統計 Page.52 迴歸係數的t檢定 ta t b1 t b2 a0 Sa b1 0 S b1 b2 0 S b2 ©Ming-chi Chen 社會統計 Page.53 Stata複迴歸結果 / / / ©Ming-chi Chen = = = 社會統計 Page.54 Confidence Intervals and tests of hypotheses • 每一個β之95% 信賴區間: i bi t .025 S b t bi i S bi i d. f n k 1 自變數個數 ©Ming-chi Chen 社會統計 Page.55 Stata複迴歸結果 ©Ming-chi Chen 社會統計 Page.56 複迴歸分析的統計預測:預測母體依 變項的平均值信賴區間 Yˆ a b1 X 1 b 2 X , 2 母體預測平均值 E (Y 0 )的1 % 信賴區間( confidence interval ) Yˆ0 t n 3 , / 2 S Yˆ o 式中: 2 S 2 Yˆ o S [ 2 e X1 ©Ming-chi Chen X2 X2 2 2 X 2 1 X X1 2 X1X 2 X1X 2 2 2 2 ( X 1 X 2 ) 社會統計 2 1 ] n Page.57 複迴歸分析的統計預測:預測母體依 變項的信賴區間 Yˆ a b1 X 1 b 2 X , 2 母體預測值 Y 0的1 % 信賴區間( prediction interval ) Yˆ0 t n 3 , / 2 S e o 式中: 2 S 2 eo S [ 2 e X1 X2 X2 2 2 X 2 1 相關計算相當複雜,一 ©Ming-chi Chen X X1 2 X1X 2 X1X 2 2 2 2 ( X 1 X 2 ) 2 般用軟體來解決,請參 社會統計 1 1] n 照 Stata 講義 Page.58 Stata求預測值 ©Ming-chi Chen 社會統計 Page.59 Stata求預測值 ©Ming-chi Chen 社會統計 Page.60 預測母體依變項平均值的信賴區間 2 S 2 Yˆ o S [ 2 e X1 X2 X2 2 2 X 2 1 X X1 2 X1X 2 X1X 2 2 2 2 ( X 1 X 2 ) 2 1 ] n • 在Stata裡用predict 新變數名稱, stdp這個指令來求對應數值。 • predict stderr, stdp ©Ming-chi Chen 社會統計 Page.61 母體預測值平均E(Y|X)或μy的95% 信賴區間 • 先求出t值,要知道自由度在31-3=28下, α=0.05的t值。 • 在Stata中,用invttail(28, .05/2) • generate yhatll=yhat-stderr*invttail(28, .05/2) 這是信賴下界 • generate yhatul=yhat+stderr*invttail(28, .05/2) 這是信賴上界 ©Ming-chi Chen 社會統計 Page.62 Stata中求對應特定Xp預測母體值 的標準差 2 S 2 eo S [ 2 e X1 X2 X2 2 2 X 2 1 X X1 2 X1X 2 X1X 2 2 2 2 ( X 1 X 2 ) 2 1 1] n • 在Stata裡用predict 新變數名稱, stdf這 個指令來求對應數值。這裡和前面略有不同。 • predict stderrf, stdf ©Ming-chi Chen 社會統計 Page.63 母體預測值Y-hat的95%信賴區間 • 先求出t值,要知道自由度在31-3=28下, α=0.05的t值。 • 在Stata中,用invttail(28, .05/2) • generate yhatllf=yhat-stderrf*invttail(28, .05/2)這是 信賴下界 • Generate yhatulf=yhat+stderrf*invttail(28, .05/2)這 是信賴上界 ©Ming-chi Chen 社會統計 Page.64 複迴歸模型中解釋變數的相對重要性 • 複迴歸模型中,各個IV的相對重要性 • 國家在教育上的投入( 0.0045 )還是人口數 目( 0.00049 )對中國各省市的平均餘命的 影響比較重要? • 迴歸係數不能直接比較。 • 因為單位不同。 ©Ming-chi Chen 社會統計 Page.65 複迴歸模型中解釋辨識的相對重要性 • 我們可以用標準差來把迴歸係數化成同樣單位 • 標準化的迴歸係數又稱為beta-coefficients • IV變動一個標準差,DV變動的標準差數。 標準化係數 bˆi ©Ming-chi Chen 社會統計 S Xi SY Page.66 Stata求標準化迴歸係數 ©Ming-chi Chen 社會統計 Page.67 Stata求標準化迴歸係數 ©Ming-chi Chen 社會統計 哪一個IV 影響比較 大? Page.68 虛擬變數Dummy Variables 觀 念 • 在迴歸方程式中,我們假設所有的變數皆 為連續變數。如果遇到名目尺度變數,我 們可以用虛擬變數來進行分析。 • 虛擬變數(D)又稱為類別變數(categorical variables),通常以(0,1)來區別類別。 • 如男性D=1,女性D=0 ©Ming-chi Chen 社會統計 Page.69 虛擬變數Dummy Variables 觀 念 • 虛擬變數可以用來比較下列效果: • Temporal effect時間效果:戰時vs.平時,顛峰 vs.非顛峰,假日vs.週間 • Spatial effects地區效果:都市vs.鄉村 • Qaulitative variables質性變數:已婚vs.未婚, 男性vs.女性,白人vs.非白人 • Broad groupings of qualitative variables化約變 數。 ©Ming-chi Chen 社會統計 Page.70 虛擬變數Dummy Variables 觀 念 • Base case比較基底(或reference group 參考組) • 當虛擬變數為0時的所有觀察值。因此虛 擬變數的迴歸係數衡量比較基底與非比較 基底兩群樣本之間的差異。 ©Ming-chi Chen 社會統計 Page.71 虛擬變數Dummy Variables 觀 念 E (Y i | X i , D i ) 0 1 X i 2 D i Y 分擔家務工作時數 X 教育年數 1 若樣本為女 D 性別 0 若樣本為男 ©Ming-chi Chen 社會統計 Page.72 虛擬變數Dummy Variables 觀 念 E (Y i | X i , D i ) 0 1 X i 2 D i 當D=0時, E (Y i | X i , D i 0 ) 0 1 x i 2 ( 0 ) 0 1 x i 當D=1時, E (Yi | X i , D i 1) 0 1 X i 2 (1) 0 2 1 x i ©Ming-chi Chen 社會統計 Page.73 虛擬變數Dummy Variables Y 家 務 時 數 E (Yi | X i , D i 1) ( 0 2 ) 1 x i 1 E (Y i | X i , D i 0 ) 0 1 x i 0 2 0 教育年數 ©Ming-chi Chen 社會統計 X Page.74 Stata與虛擬變數 • 打開85q1-family.dta • 依變項為j2,注意缺失值定義和每週家務工作168小時的轉換 (=112小時) • 在Stata裡產生虛擬變數 • 以a1受訪者的性別為例 • tab a1, gen(sex) • 這裡逗點之後的gen就是要求Stata從a1來產生一個名叫sex1 (原本是a1=1男生)和sex2這兩個虛擬變數 • 當然我們只需要用到sex1,而把女生當作對照組 • 還有用婚姻狀態a5產生wed1(未婚)這個虛擬變數(把 a5=3定義為缺失) • 我另外用eduy這個關於教育年數(小學及以下為6,初中9, 高中12,大專及以上16)的連續變數。 • 作法是generate eduy=6 if b1==1… ©Ming-chi Chen 社會統計 Page.75 Stata與虛擬變數 sex1=1為男生, sex1=0是對照組女生 ©Ming-chi Chen 社會統計 Page.76 Stata與虛擬變數 家務時數 23 . 92 0 . 56(教育年數) 11 . 85(男性) ©Ming-chi Chen 社會統計 Page.77 虛擬變數的推論統計 包括男性這個虛擬變數在內的所有變數的迴歸係數都顯著,可 以拒絕虛無假設(係數等於零) ©Ming-chi Chen 社會統計 Page.78 虛擬變數Dummy Variables 觀 念 E (Yi | X i , D i ) 23 . 92 0 . 56 教育年數 11 . 85男性 當男性=0時(女性) E (Yi | X i ,男性 0 ) 23.92 - 0.56 教育年數 當男性=1時(男性) E (Yi | X i ,男性 1) ( 23.92 - 11.85 (1)) - 0.56 教育年數 ©Ming-chi Chen 社會統計 Page.79 虛擬變數Dummy Variables ©Ming-chi Chen 社會統計 Page.80 兩個虛擬變數的迴歸 家務時數 23.16 - 0.398 ( 教育年數 ) - 11.90 (男性 ) - 5.54 (未婚 ) 1 男性 0 如果是男性 1 未婚 0 如果未婚 ©Ming-chi Chen 如果是女性 如果已婚 社會統計 Page.81 兩個虛擬變數的迴歸 家務時數 23.16 - 0.398 ( 教育年數 ) - 11.90 (男性 ) - 5.54 (未婚 ) 未婚男性 家務時數 23.16 - 0.398 ( 教育年數 ) - 11.90 (1) - 5.54 (1) 未婚女性 家務時數 23.16 - 0.398 ( 教育年數 ) - 11.90 ( 0 ) - 5.54 (1) 已婚男性 家務時數 23.16 - 0.398 ( 教育年數 ) - 11.90 (1) - 5.54 ( 0 ) 已婚女性 家務時數 23.16 - 0.398 ( 教育年數 ) - 11.90 ( 0 ) - 5.54 ( 0 ) ©Ming-chi Chen 社會統計 Page.82 兩個以上類別的虛擬變數 當所欲比較的類別超過兩個時,必須在迴歸方 程式中加入K-1個虛擬變數,K為類別數。 1 閩南 2 客家 族群 3 大陸各省市 4 原住民 ©Ming-chi Chen 1 閩南 0 如果受訪者是閩南人 1 客家 0 如果受訪者是客家人 1 外省 0 如果受訪者是外省人 社會統計 如果受訪者不是閩南人 如果受訪者不是客家人 如果受訪者不是外省人 Page.83 兩個以上類別的虛擬變數 家務時數 14.57 - 0.75 ( 教育年數 ) 4 . 89 (閩南 ) 5 . 34 (客家 ) 6.35 (外省 ) e 閩南:家務時數 14.57 - 0.75 ( 教育年數 ) 4 . 89 (1) 5 . 34 ( 0 ) 6.35 ( 0 ) e 客家:家務時數 14.57 - 0.75 ( 教育年數 ) 4 . 89 ( 0 ) 5 . 34 (1) 6.35 ( 0 ) e 外省:家務時數 14.57 - 0.75 ( 教育年數 ) 4 . 89 ( 0 ) 5 . 34 ( 0 ) 6.35 (1) e 原住民:家務時數 14.57 - 0.75 ( 教育年數 ) 4 . 89 ( 0 ) 5 . 34 ( 0 ) 6.35 ( 0 ) e 當所有的類別虛擬變數為0時,為比較基底組(參考組) 的迴歸線。 ©Ming-chi Chen 社會統計 Page.84 族群虛擬變數的推論統計 族群的虛擬變數都未達顯著水準,可見得對家務時數沒有影響。 ©Ming-chi Chen 社會統計 Page.85 比較基底組的選擇 • 究竟哪一組當作比較基底最好沒有一定的答 案,一般的選擇原則為: • (1) 最大人數組為基底。 • (2) 不要以「其他」類別為基底。 • (3) 人數過少的組別不要當基底。 • (4) 同質性最高的為基底,即標準差最小的組。 ©Ming-chi Chen 社會統計 Page.86 Interaction with dummy variable • 另外一種常見的非線性關係稱為交互作用 (interaction)。 yˆ B 0 B1 x1 B 2 x 2 • 在線性迴歸模型中,每一個自變數對 於依變數的影響為固定的,每單位X1 的變動,永遠造成B1單位Y的變動。 • 但有時候x在不同情況下,可能對Y的 影響大小並不同。 ©Ming-chi Chen 社會統計 Page.87 Interaction with dummy variable • 所謂交互作用,指的是x1對y的影響,決 定於x2的數值。或者說在不同的x2水準 下,x1對Y有不同的影響。 • 現實世界中常有類似的交互作用出現: • 例如學歷對於收入的影響決定與個人的 聰明才智(聰明人較能發揮學歷的效用) • 年資對於薪資的影響在公務員、醫生、 農人等不同職業類別中並不相同。 ©Ming-chi Chen 社會統計 Page.88 Interaction with dummy variable • 欲測試x1, x2是否存在交互作用,僅需將 x1及x2兩變數相乘後放入模型中即可。 y B 0 B1 x1 B 2 x 2 B 3 x1 x 2 e • 若x1, x2存在交互作用,則B3的統計檢定 會顯著不同於零。 ©Ming-chi Chen 社會統計 Page.89 虛擬變數Dummy Variables + 交叉 E (Y i | X i , D i ) 0 1 X i 2 D i 3 X i D i 當D=0時, E (Y i | X i , D i 0 ) 0 1 X i 2 ( 0 ) 0 1 X i 當D=1時, E (Yi | X i , D i 1) 0 1 X i 2 (1) 3 X i 0 2 (1 3 ) X i ©Ming-chi Chen 社會統計 Page.90 觀 念 虛擬變數Dummy Variables + 交叉 產生交互作用項 到達顯著水準 ©Ming-chi Chen 社會統計 Page.91 男女不同的教育效果 對於男性而言 家務時數 ( 29 . 2 22 . 21 ) (1 . 09 1 . 00 ) 教育年數 對於女性而言 家務時數 29 . 2 1 . 09 教育年數 對於女性而言,教育在 ©Ming-chi Chen 減少做家事上的效果比 較強。 社會統計 Page.92 男女不同的教育效果 斜 率 和 截 距 都 有 所 不 同 ©Ming-chi Chen 社會統計 Page.93 Models involving polynomials • 在迴歸方程式中,有時自變數以二次項 (parabola)或三次項(cubic polynomial)的型態出 現。 Y 0 1 X 收 入 Y 0 1 X 2 X Y 0 1 X 2 X ©Ming-chi Chen 年資 2 3X 2 3 X 社會統計 Page.94 Models involving polynomials 30 28 26 24 22 20 18 y 12 ,819 . 03 1, 658 . 05 x i 16 . 80 x i 2 16 ( 5 . 65 ) 14 (14.30) (-12.19) 12 10 INCOME 8 6 4 2 0 20 AGE ©Ming-chi Chen 30 40 50 社會統計 60 70 Page.95