Transcript 第三章多元线性回归
第三章 多元线性回归模型 § 3.1 多元线性回归模型 § 3.2 多元线性回归模型的参数估计 § 3.3 多元线性回归模型的统计检验 § 3.4 多元线性回归模型的预测 § 3.5 可线性化的多元非线性回归模型 § 3.6 受约束回归 §3.1 多元线性回归模型 一、模型形式 二、基本假定 一、模型形式 Yi 0 1 X 1i 2 X 2 i ... k X ki i k 0 j X ji i j 1 k j 0 j i 1, 2, ,n X ji ( X 0 i 1) 注意:(1)解释变量X的个数:k 回归系数 j的个数:k+1 (2)j:偏回归系数,表示了Xj对Y的净影响 (3)X的第一个下标 j 区分变量(j=1,2,……,k) 第二个下标 i 区分观测(i=1,2,……n) 总体回归函数(PRF) E(Yi | X 1i , X 2i , X ki ) 0 1 X 1i 2 X 2i k X ki 样本回归函数(SRF) Yˆi ˆ 0 ˆ1 X 1i ˆ 2 X 2i ˆ ki X ki 样本回归模型(SRM) Yi ˆ 0 ˆ1 X 1i ˆ 2 X 2i ˆ ki X ki ei 其中:ei 称为残差 (residuals),可看成是随机误差项 i的近似替代。 总体回归模型的矩阵表示 1、总体回归模型表示了n个随机方程,引入如下矩阵记号: 1 1 X 1 X 11 X 12 X 1n X 21 X 22 X 2n 0 1 β 2 μ k ( k 1 ) 1 1 2 n n 1 X k1 X k 2 X kn n ( k 1 ) Y1 Y 2 Y Y3 Yn n1 2、于是,总体回归模型可以表示为: Y X β μ 样本回归模型和函数的矩阵表示 1、同理,采用如下矩阵记号: ˆ Y 1 ˆ Y2 ˆ Y ˆ Y 3 ˆ Yn n1 ˆ 0 ˆ 1 ˆ β ˆ k e1 e2 e e n 2、于是,样本回归模型和函数可以表示为: ˆ e Y Xβ ˆ Xβ ˆ Y 二、多元线性回归模型的基本假设 ►假设1:解释变量是非随机的或固定的,且各X之间互不相关(无多重共线 性)。 ►假设2:随机误差项具有零均值、同方差和无序列相关性: E(i)=0 Var (i)=2 i=1,2, …,N Cov(i, j)=0 i≠j 1,2, …,N ►假设3:随机误差项与解释变量X之间不相关: Cov(Xji, i)=0 i=1,2, …,N ►假设4:服从零均值、同方差、零协方差的正态分布 i,j= 基本假设的矩阵表示 假设1: n(k+1)矩阵X是非随机的,且X的秩=k+1,即X列满秩。 假设2: 1 E (μμ ) E n 1 var( 1 ) cov( , ) n 1 12 1 n n E 2 n n 1 cov( 1 , n ) 2 var( n ) 0 假设4: 向量 有一多维正态分布,即 μ~ N (0, 2 I ) 0 2I 2 暗含假设 假设5:样本容量趋于无穷时,各解释变量的方差趋于有界常数,即 n∞时, 1 1 2 x ( X ji X j ) 2 Q j ji n n 或 1 xx Q n 其中:Q为一非奇异固定矩阵,矩阵x是由各解释变量的离差为 元素组成的nk阶矩阵 x11 x x 1n 假设6:回归模型是正确设定的 x k1 x kn §3.2 多元线性回归模型的参数估计 一、普通最小二乘估计 二、参数估计量的性质 三、样本容量问题 参数估计的任务和方法 1、估计目标:回归系数βj、随机误差项方差б2 2、估计方法:OLS、ML或者MM * OLS:普通最小二乘估计 * * ML:最大似然估计 MM:矩估计 一、普通最小二乘估计 • 基本思想:残差平方和最小 • 基于取得最小值的条件获得系数估计) 残差平方和: n n Q e (Yi Yˆi ) 2 i 1 2 i i 1 n (Yi ( ˆ 0 ˆ1 X 1i ˆ 2 X 2i ˆ k X ki )) i 1 取得最小值的条件: ˆ 0 ˆ 1 ˆ 2 ˆ k Q 0 Q 0 Q 0 Q 0 2 正规方程组: ( ˆ 0 ˆ1 X 1i ˆ 2 X 2 i ˆ k X ki ) Yi ˆ ˆ X ˆ X ˆ X ) X Y X ( 0 1 1i 2 2i k ki 1i i 1i ˆ ( 0 ˆ1 X 1i ˆ 2 i X 2 i ˆ k X ki ) X 2 i Yi X 2 i ( ˆ 0 ˆ1 X 1i ˆ 2 X 2 i ˆ k X ki ) X ki Yi X ki 解此(k+1)个方程组成的正规方程组,即可求得(k+1)个未知参 数βj 的估计 。 最小二乘估计的矩阵表示 1、正规方程组的矩阵形式 n X 1i X ki X X 1i 2 1i X ki X 1i X X X ˆ 0 1 ˆ X 11 1i ki 1 X ki2 ˆ k X k1 ki ˆ X Y (X X) β 2、由于X’X满秩(其逆矩阵存在),故有 1 ˆ β ( X X) X Y 1 X 12 X k2 1 Y1 X 1n Y2 X kn Yn #OLSE的矩阵估计过程 残差平方和的矩阵表示为: Q ei2 ee (Y X ˆ )(Y X ˆ ) ˆ ) ( Y Xβ ˆ)0 ( Y Xβ ˆ β ˆ X Y Y Xβ ˆ β ˆ X Xβ ˆ)0 ( Y Y β ˆ β ˆ β ˆ X Xβ ˆ) 0 ( Y Y 2 Y Xβ ˆ β ˆ 0 X Y X Xβ ˆ XY XXβ ˆ ( X X) 1 X Y β 矩阵有关定理 (AB ) BA ( 1 , 2 , n ); A (a1 , a2 , an ) ( A) A ( B ) 2 B ( B为n n对 称 阵 ) #参数估计的实例 例3.2.1:在例2.1.1的家庭收入-消费支出例中, 1 ( X ' X ) X1 1 X2 1 1 1 X n 1 X1 X2 n X i X n X X i 2 i 10 21500 21500 53650000 0.0003 0.7226 ( XX) 0.0003 1.35 E 07 1 1 X Y X1 1 X2 Y1 1 Y2 Yi 15674 X n X i Yi 39468400 Y n ˆ1 0.7226 0.0003 15674 103 .172 ˆ β ˆ 2 0.0003 1.35 E 07 39648400 0.7770 误差方差2的估计 1、基于OLS下,随机误差项 的方差的无偏估计量为 e e ' e e e ˆ 2 n k 1 n k 1 n ( k 1) 2 i 注意:分母的形式:n-k-1 = n-(k+1)。 k:解释变量X的个数; k+1:回归系数的个数 2、 ˆ ˆ 2 regression) 称为估计标准误或者回归标准误(S.E of *最大似然估计* (Maximum Likelihood Estimate) 1、基本原理:样本观测值出现的概率最大。 2、似然函数: Yi ~ N ( X i β , 2 ) ˆ , 2 ) P (Y1 , Y2 , , Yn ) L (β 3、最大似然估计MLE: 1 n 2 ( 2 ) n 1 n 2 ( 2 ) e n e 1 2 2 1 2 2 ( Yi ( ˆ 0 ˆ1 X 1 i ˆ 2 X 2 i ˆ k X ki )) 2 ˆ )( Y Xβ ˆ) ( Y Xβ 1 ˆ β ( X X) X Y 参数的MLE与参数的OLSE相同 *矩估计* (Moment Method,MM) 1、OLS估计是通过得到一个关于参数估计值的正规方程组 ˆ X Y (X X) β 并对它进行求解而完成的。 2、该正规方程组可以从另外一种思路来导出: Y Xβ μ XY XXβ Xμ X(Y Xβ ) Xμ 两侧求期望 : E(X(Y Xβ) 0 矩条件 *矩条件和矩估计量* 1、 E(X(Y Xβ) 0 称为原总体回归方程的一组矩条件,表明了 原总体回归方程所具有的内在特征。 2、如果随机抽出原总体的一个样本,估计出的样本回归方程: ˆ 能够近似代表总体回归方程的话,则应成立: ˆ X Y 1 ˆ)0 X (Y Xβ n ˆ X' Y 3、由此得到正规方程组: X' Xβ 解此正规方程组即得参数的MM估计量。 MM估计量与OLS、ML估计量等价。 *关于矩估计* 矩方法是工具变量方法(Instrumental Variables,IV)和广义矩估计方 法(Generalized Moment Method, GMM)的基础 • 在矩方法中关键是利用了:E(X’)=0 • 如果某个解释变量与随机项相关,只要能找到1个工具变量,仍然 可以构成一组矩条件。这就是IV。 • 如果存在>k+1个变量与随机项不相关,可以构成一组包含>k+1 方程的矩条件。这就是GMM。 • OLS只是GMM的一个特例 二、最小二乘估计量的性质 高斯—马尔可夫定理(Gauss-Markov theorem): 在给定经典线性回归的假定下,最小二乘估计量是具有 最小方差的线性无偏估计量,即最佳线性无偏估计量 (BLUE)。 1、线性: ˆ ( X X) 1 X Y CY β 其中,C=(X’X)-1 X’ 为一仅与固定的X有关的行向量 2、无偏性: ˆ ) E (( X X ) 1 X Y ) E (β E (( X X ) 1 X ( Xβ μ )) β ( X X ) 1 E ( X μ ) β 这里利用了假设: E(X’)=0 3、有效性: 其中利用了: ˆ ( X X ) 1 X Y β ( X X ) 1 X ( Xβ μ) β ( X X ) 1 X μ E (μμ ) 2 I 参数估计量的概率分布 1、由参数估计量的上述性质和基本假设,易知: ˆ N ( , 2 ( X X )1 ) • 线性性+基本假设 • 无偏性 为β → 正态分布 → 期望 • 有效性的证明 → 方差表达 式 2、记 C=(X’X)-1 的第 j 个主对角元素为 Cjj(j=0,1,…,k),则: ˆj N ( j , 2c jj ) 三、样本容量问题 •最小样本容量 •满足基本要求的样本容量 1、最小样本容量 所谓“最小样本容量”,即从最小二乘原理和最大或然原理出发, 欲得到参数估计量,不管其质量如何,所要求的样本容量的下限。 样本最小容量必须不少于模型中解释变量的数目(包括常数项), 即:n k+1 因为,无多重共线性要求:秩(X)=k+1 2、基本样本容量 • 从统计检验的角度: n30 时,Z检验才能应用; n-k 8时, t分布较为稳定 • 一般经验认为: 当n30或者至少n3(k+1)时,才能说满足模型估计的基本要求。 • 模型的良好性质只有在大样本下才能得到理论上的证明 §3.3 多元线性回归模型的统计检验 一、拟合优度检验 二、方程显著性检验 三、变量显著性检验 一、拟合优度检验 • 目的:测定样本回归函数对样本观测值的拟合紧密程度 • 指标:R2、Adj(R2) 可决系数R2 (coefficient of determination) 1、定义: R2 ESS RSS 1 TSS TSS 0<R2<1,该统计量越接近于1,模型的拟合优度越高。 2、问题: • 在模型中增加一个解释变量, R2往往增大 • 但是:增加解释变量个数往往得不偿失,不重要的变量不应引入。 •增加解释变量使得估计参数增加,从而自由度减小。如果引入的变量对减 少残差平方和的作用很小,这将导致误差方差σ2的增大,引起模型精度的 降低。 • 因此:R2需调整。 调整的可决系数Adj(R2) (adjusted coefficient of determination) 1、调整思路:将残差平方和与总离差平方和分别除以各自的自由度,以 剔除变量个数对拟合优度的影响。 2、自由度:统计量可自由变化的样本观测值的个数,记为df TSS:df=n-1 注意: ESS:df= k RSS:df= n-k-1 3、定义: R 2 df(TSS)=df(ESS)+df(RSS) RSS /( n k 1) 1 TSS /( n 1) # Adj(R2)的作用 1、消除拟合优度评价中解释变量的多少对拟合优度的影响 2、对于因变量Y相同,而自变量X个数不同的模型,不能用R2直接比较拟 合优度,而应使用Adj(R2) 。 3、可以通过Adj(R2)的增加变化,决定是否引入一个新的解释变量。 # Adj(R2)与R2的关系 R 2 n 1 1 (1 R ) n k 1 2 Adj(R2)<= R2,即:调整可决系数不大于未经调整的可决系数。随着解 释变量的增加,二者的差异越来越大。 *赤池信息准则和施瓦茨准则* (AIC&SC) 用于比较因变量相同,解释变量个数不同的多元回归模型的拟合优度 ※ 赤池信息准则(Akaike information criterion, AIC) e e 2( k 1) AIC ln n n ※ 施瓦茨准则(Schwarz criterion,SC) e e k AC ln ln n n n • 这两准则均要求仅当所增加的解释变量能够减少AIC值或AC值时才在原模 型中增加该解释变量。 二、方程的显著性检验(F检验) •目的:检验Y与所有X的线性关系在总体上是否成立 •方法:F检验 1、原假设和备择假设 • 检验模型中的参数j是否至少有一个显著不为0。 Yi=0+1X1i+2X2i+ +kXki+i • 原假设与备择假设: H0: 0=1=2= =k=0 H1: j不全为0 i=1,2,,n 2、检验统计量 ESS / k F RSS /( n k 1) 可以证明,在原假设H0成立的条件下: F~ F (k , n-k-1) 其中:k为模型中解释变量个数 3、检验步骤 (1)提出原假设和备择假设: H0: 0=1=2= =k=0 H1: j不全为0 (2)在H0成立的条件下,计算检验统计量的值: ESS / k F RSS /( n k 1) (3)给定显著性水平,可得到临界值:F(k,n-k-1) • • 右侧检验 (4)如果 F F(k,n-k-1),拒绝原假设,总体线性关系成立 如果 F F(k,n-k-1),接受原假设,总体线性关系不成立 # 拟合优度和方程显著性检验 RSS /( n k 1) R 1 TSS /( n 1) 2 R 2 n 1 1 n k 1 kF F ESS / k RSS /( n k 1) R2 /k F (1 R 2 ) /(n k 1) 示例: •在中国居民人均收入-消费一元模型中, •在中国居民人均收入-消费二元模型中, •可见:一个显著的模型并不意味着拟合优度一定很高 • 注意到F检验是一个严格的统计检验,因此实际中要多参考这一检验 的结果。 三、变量的显著性检验(t检验) •目的:检验Y与某个Xj的线性关系在总体上是否成立或者 说Xj对Y是否存在显著影响 •方法: t检验 1、原假设和备择假设 • 检验模型中Xj对应的系数j是否显著不为0。 Yi=0+1X1i+2X2i+ +jXji + +kXki+i • 原假设与备择假设: H0: j=0 H1: j≠0 2、检验统计量 •参数估计量的概率分布: ˆ j N ( j , 2c jj ), j 0,1, 2, , k • 2为随机误差项的方差,在实际计算时,用它的估计量代替: e e e ˆ n k 1 n k 1 2 2 i ˆ j j t •可构造t统计量: Sˆ j ˆ j j c jj ee n k 1 t (n k 1) 3、检验步骤: (1)建立原假设和备择假设: H0:βj=0 H1:βj≠0 (2)在原假设成立的条件下计算t统计量的值 t ˆ j Sˆ j (3)给定显著性水平,可得到临界值t/2(n-k-1) 双侧检验 (4)如果|t| t/2(n-k-1),拒绝原假设,Xj对Y存在显著影响 如果|t| t/2(n-k-1),接受原假设,Xj对Y不存在显著影响 对t检验的说明 1、在一元线性回归模型中,变量的显著性t检验与方程的F检验是一致的 • 一方面,二者检验的假设一致:β1=0 • 另一方面,从检验统计量来看:F=t2 2、在多元线性回归模型中,二者的作用不同,并不等价 3、在多元回归模型中,对各个变量的进行t检验时,显著性水平应该一致 4、t检验未通过,说明在给定的显著性水平下,变量对Y没有显著性影响, 但不要简单的剔除变量,关键仍然是考察变量在经济关系上是否对因变 量有影响以及变量在模型及应用中的作用,显著性检验起到验证的作用 三、参数的置信区间 j (j=0,1,2,……,k)的置信区间 t • 在变量的显著性检验中已经知道: ˆ j j sˆ ~ t ( n k 1) j • 给定置信度(1-),对于临界值t/2 (n-2),t值处在(-t/2, t/2)的概 率是1-。表示为: P( t t t ) 1 2 P ( t ˆ j j sˆ 2 2 t ) 1 2 j P ( ˆ j t sˆ j ˆ j t sˆ ) 1 j 2 j 2 • 于是得到:(1-)的置信度下, j 的置信区间是 ( ˆ j t sˆ , ˆ j t sˆ ) 2 j 2 j §3.4 多元线性回归分析的预测 一、均值E(Y0)的置信区间 二、个值Y0的置信区间 预测的理解 1、预测类型: 点 预 测 2、对于模型 实际个值Y0的点预测 实际个值 Y0的区间预测 条件均值E(Y0)的点预测 条件均值E(Y0)的区间预测 区 间 预 测 ˆ Xβ ˆ ,给定样本以外的解释变量的观测值: Y X0=(1,X10,X20,…,Xk0),可以得到被解释变量的预测值: Yˆ0 3、它可以是总体均值E(Y0)或个值Y0的点预测。 4、为了进行科学预测,还需求出预测值的置信区间,包括E(Y0)和Y0的置信 区间。 1、总体均值E(Y0|X=X0)的置信区间 ˆ ) X 0 E (β ˆ ) X 0β E (Y0 ) E (Yˆ0 ) E ( X 0β ˆ X 0β) 2 E ( X 0 (β ˆ β)X 0 (β ˆ β)) Var (Yˆ0 ) E ( X 0β ˆ β)( β ˆ β)X0 ) Var (Yˆ0 ) E ( X 0 (β ˆ β)( β ˆ β)X0 X 0 E (β 2 X 0 ( XX) 1 X 0 容易证明 Yˆ0 ~ N ( X 0β, 2 X 0 (XX) 1 X0 ) Yˆ0 E(Y0 ) ˆ X 0 (X X) 1 X 0 ~ t ( n k 1) 于是,得到(1-)的置信水平下E(Y0)的置信区间: Yˆ0 t ˆ X 0 ( X X) 1 X 0 E (Y0 ) Yˆ0 t ˆ X 0 ( X X) 1 X 0 2 其中,t/2为(1-)的置信水平下的临界值。 2 2、总体个值Y0的置信区间 如果已经知道X=X0处的实际个值Y0,那么预测误差为: e0 Y0 Yˆ0 容易证明 ˆ) E ( e 0 ) E ( X 0β 0 X 0β ˆ β)) E ( 0 X 0 (β E ( 0 X 0 ( X X ) 1 X μ) 0 Var (e0 ) E (e02 ) E ( 0 X 0 ( X X ) 1 X μ) 2 2 (1 X 0 ( X X ) 1 X 0 ) e0服从正态分布,即: e0 ~ N (0, 2 (1 X 0 ( XX) 1 X0 )) ˆ e2 ˆ 2 (1 X 0 ( XX) 1 X0 )) 0 构造t统计量: Yˆ0 Y0 t ~ t ( n k 1) ˆ e0 可得给定(1-)的置信水平下Y0的置信区间: Yˆ0 t ˆ 1 X 0 ( XX) 1 X0 Y0 Yˆ0 t ˆ 1 X 0 ( XX) 1 X 0 2 2 置信区间宽度:个值>均值 y yˆ ˆ 0 ˆ1 x x x0 x #回归分析的预测实例: 中国居民人均收入-消费支出二元模型例中:2001年人均GDP:4033.1元 于是人均居民消费的预测值为 Ŷ2001=120.7+0.2213×4033.1+0.4515×1690.8=1776.8(元) 实测值(90年价)=1782.2元,相对误差:-0.31% 预测的置信区间 : E(Ŷ2001)的95%的置信区间为: (1741.8,1811.7) Ŷ2001的95%的置信区间为: (1711.1, 1842.4) §3.5 可线性化的多元非线性回归模型 • 线性模型的本质含义 • 解释变量的非线性——变量代换法 • 回归参数的非线性——函数变换法 实际中的非线性模型 1、恩格尔曲线(Engle curves):消费者的收入与某类商品需求量之间的函数 关系。——幂函数 2、菲利普斯曲线(Pillips cuves):通货膨胀率(货币工资率)与失业率 之间的关系。——双曲线函数 线性模型的本质含义 1、被解释变量Y与解释变量X之间为线性关系 Y 2Y b, 0 2 X X 2、被解释变量Y与参数β之间为线性关系 Y 2Y c, 2 0 3、更重要的在于后者 1、解释变量的非线性问题——变量代换 • 适用于倒数模型、多项式模型等 例如:拉弗曲线:描述税收与税率关系 S = a + b R + cR2 令:X1 = r,X2 = r2, c<0 (抛物线) 则原方程变换为: S = a + b X 1 + c X2 c<0 2、回归参数的非线性问题——函数变换 • 适用于幂函数、指数函数模型等 例如:Cobb-Dauglas生产函数: Q = AKL(幂函数) 方程两边取对数: ln Q = ln A + ln K + ln L 令:Q*=lnQ,β0=lnA,K*=lnK,L*=lnL 则: Q*= β0+ K*+ L* 3、复杂函数模型——级数展开 例如:常替代弹性CES生产函数 Q A( 1 K 1 2 L ) e (1+2=1) 方程两边取对数后,得到: LnQ LnA 1 Ln( 1 K 2 L ) 将式中ln(1K- + 2L-)在=0处展开台劳级数,取关于的线性项, 即得到一个线性近似式。 如取0阶、1阶、2阶项,可得 K 1 ln Y ln A 1 m ln K 2 m ln L m 1 2 ln 2 L 2