Transcript 第4章多元线性回归分析
第4章 多元线性回归分析 多元线性回归分析 4.1 多元线性回归模型设定 4.2 多元线性回归模型参数估计 4.2.1 回归系数估计 4.2.2 误差估计—残差 ˆj 4.2.3 的分布 4.3 更多假设下OLS估计量性质 4.4 回归系数检验(t检验) 2 4.5 调整 R 、信息准则和变量选择 2 R 4.5.1调整 4.5.2 信息准则 多元线性回归分析 4.6 回归模型检验(F检验) 4.7 用EViews7.2进行多元线性回归 4.8 假设条件的放松 4.7.1 假设条件的放松(一)—非正态分布 误差项 4.7.2 假设条件的放松(二)—异方差 4.7.3 假设条件的放松(三)—非随机抽样 和序列 相关 4.7.4 假设条件的放松(四)—内生性 4.9 自变量共线性 重要概念 4.1 多元线性回归模型设定 模型设定: Y 0 1 X1 2 X 2 k X k u 假设1(零条件均值:zero conditonal mean) E(u | X1 , X 2 ,, X k ) 0 给定解释变量,误差项条件数学期望为0,即 E(u) 0 Cov(u) E(uX j ) 0, j 1,2,, k 4.1 多元线性回归模型设定 假设2 (无共线性:no colinearity) 解释变量之间不存在线性关系。即不存在 不全 c0 , c1,, ck 0 为零的一组数 c0 c1 X1 X k 使得 若不成立,称自变量间存在完全共线性 (perfect colinearity),此时参数不能被唯一 估计。 4.1 多元线性回归模型设定 对于样本模型,从无共线性的假设得出解释变量 样本值形成的向量之间线性无关。 x1 ( X11 , X12 ,, X1n ) 1 (1,1, ,1) x2 ( X 21 , X 22 ,, X 2n ) xk ( X k1 , X k 2 ,, … X kn ) 假设2’(样本无共线性:no colinearity) c0 , c1,, ck 不存在不全为零的一组数 c0 c1x1 xk 0 使得 4.2 多元线性回归模型参数估计 4.2.1 回归系数估计 4.2.2 误差估计—残差 4.2.3ˆj 的分布 4.2 多元线性回归模型参数估计 4.2.1 回归系数估计 类比原则得样本矩条件 n 1 n (Y ˆ i 1 i 0 ˆ1 X i ˆk X ki ) 0 n n 1 (Yi ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ) X 1i 0 i 1 n 1 n (Y ˆ i 1 i 0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ) X 2i 0 n n 1 (Yi ˆ0 ˆ1 X 1i ˆ2 X 2i ˆk X ki ) X ki 0 i 1 4.2 多元线性回归模型参数估计 4.2.1 回归系数估计 多元回归分析参数估计一般用矩阵表示, 这里 仅给出二元情况下用克莱姆法则解出的解。 ˆ ˆ ˆ 0 Y 1 X1 2 X 2 (i1 X 1iYi)i1 X 22i (i1 X 2iYi)i1 X 1i X 2i n ˆ1 n n n (i1 X )i1 X (i1 X 1i X 2i ) n n n n 2 (i1 X 2iYi)i1 X 1i (i1 X 1iYi)i1 X 1i X 2i ˆ 2 2 n n n 2 2 (i1 X 1i )i1 X 2i (i1 X 1i X 2i ) n 2 1i n 2 2i n 2 4.2 多元线性回归模型参数估计 4.2.1回归系数估计 结论 结论1: OLS估计的一致性 如果回归模型误差项满足假设1和假设2,OLS估计ˆj 为一致估计,即 p limn ˆ j j , j 0, 1, 2, , k 结论2: OLS估计的无偏性 如果回归模型误差项满足假设1和假设2,OLS估计 ˆj 为无偏估计: E(ˆ j ) j , j 0, 1, , k 4.2 多元线性回归模型参数估计 4.2.2 误差估计—残差 结论 结论3: 如果假设1和假设2满足,则回归残差是回归误差的 一致估计: p uˆi ui 结论4: 如果假设1和假设2满足,残差形成的向量和自变量 样本值形成的向量正交。 n uˆ i 1 i 0, n uˆ X i 1 i ji 0, j 1, 2 ,, k 4.2 多元线性回归模型参数估计 4.2.3ˆj 的分布 结论5 如果假设1和假设2满足,样本量n 较大时,OLS估 计 ˆj 近似服从正态分布: ˆ j ~ ( a ) N ( j , 2ˆ ), j 0, 1 , , k 其中 Var ( ˆ j ) 2 ˆj j 4.3 更多假设下OLS估计量性质 假设3(同方差:homoskedasticity) 给定解释变量,误差项条件方差为常数,即 Var (ui | X1i , X 2i ,, X ki ) 2 假设4(随机抽样: random sample) (Yi , X1i ,, X ki ), i 1,2,, n 样本 ui , i 1,2,, n 是随机抽样产生的,样本之间相互独立,模型误 差项 之间相互独立。 4.3 更多假设下OLS估计量性质 结论6 如果假设1~假设4满足,则当样本量n 较大时, OLS估计 ˆj 近似服从结论5中的正态分布,方差计算 公式为 2 n , j 1 , 2 , , k 2 2 ( X X ) ( 1 R i1 ji j j) 2 ˆ j 其中 R 2j 为以 X j 为因变量对其余解释变量进行多元线 性回归的拟合优度。 4.3 更多假设下OLS估计量性质 结论7 如果假设1~假设4满足,统计量 2 ˆ u i1 i n SSR ˆ n ( k 1) n ( k 1) 2 2 是误差项方差 的无偏和一致估计,即 E(ˆ 2 ) 2 , p limn ˆ 2 2 ˆ 为回归标准误,记为 s ˆ 。 4.3 更多假设下OLS估计量性质 结论8 如果假设1~假设4满足,样本量 量近似服从正态分布 ˆ j j t j 结论9 sˆ n 较大时,如下统计 ~ ( a ) N (0,1), j 1, 2, , k j ˆj 为最有效估计: 如果假设1~假设4满足,OLS估计量 在 j 的所有线性无偏估计中,ˆj 的方差最小。这称为 OLS估计的马尔科夫性。 4.3 更多假设下OLS估计量性质 假设5(正态分布: normal distribution) u 给定解释变量,误差项 服从正态 2 分布, u | X1,, X k ~ N (0, ( X )) 即 2 ( X ) Var (u | X1 , X 2 ,, X k ) 其中 4.3 更多假设下OLS估计量性质 结论10 如果假设1~假设5满足, (1)ˆj 服从正态分布,ˆ j ~ N ( 0 , 2 ) , 2ˆ 由上面公式给出; (2)tj 服从自由度为 n (k 1) 的t-分布 ˆ j t j ˆ j j sˆ j ~ t (n (k 1)) j 其中 sj 由上面公式给出,j 1,2, , k 。 4.4 回归系数检验( t 检验) • 检验的原假设和备选假设为: H0 : j 0, H1 : j 0 通常取显著水平 0.05 或 0.01 • 假设1~5都成立的情况下,统计量 t j ˆ j sˆ ~ t (n (k 1)) j • 样本量较大时(n>35),0.05显著水平下双 边检验临界值接近2,故常用t值是否大于2 判断参数是否显著。 4.5 调整 R 、信息准则和变量选择 2 2 R 4.5.1调整 4.5.2 信息准则 4.5 调整 R 、信息准则和变量选择 2 2 R 4.5.1调整 • 增加解释变量只会减少RSS的值(不受限的 最小化总比受限的最小化来的小),从而 增加 R 2 值。 2 R • 用自由度来调整 的定义 RSS /(n (k 1)) R 1 T SS /(n 1) 2 • 关系: n 1 R 1 (1 R ) n (k 1) 2 2 4.5 调整 R 、信息准则和变量选择 2 4.5.2 信息准则 将模型自变量个数考虑在内的变量选 择标准:AIC,SC,HQ 应用原则是使信息准则值最小的模型 最好。(只对嵌套模型有用) 常用AIC和SC准则,SC准则对增加解释 变量的惩罚更为严厉,因此得出的模型往 往更简洁。 4.6 回归模型检验( F检验) 拟合优度和信息准则均不严格,带 有很 多主观判断,因此要进行严格的模型检验。 原假设: H0 : 1 2 k 0; H1 : 1, 2 ,, k 至少一个不为0 统计量: ESS / k F SSR /[n (k 1)] 4.6 回归模型检验( F检验) 结论11 如果假设1~假设5满足,上述统计量服从第一自 由度为k、第二自由度为(n-2)的F分布,即: F ~ F (k , n 2) 实际中,上述F检验拒绝原假设并不意味一 定有 一个参数的t检验要拒绝原假设;反之,即使全部t 检 验都不拒绝原假设,上述F检验也不一定不拒绝原假 设。 4.7 用EViews7.2进行多元线性回归 步骤: • 与一元线性回归模型类似,先建立Excel数据文件, 再将文件导入EViews • 用Genr按钮从原始数据生成回归模型中的变量 • 按住Control键,选中回归模型中的变量,点击鼠 标右键,在弹出菜单中点选Open→as Group • 在数据表格界面点击菜单:Proc→Make Equation, 进入模型估计(Equation Estimation)对话框 4.7 用EViews7.2进行多元线性回归 步骤: 模型设定窗口Equation specification,默认OLS估 计方法 4.7 用EViews7.2进行多元线性回归 步骤: 输出结果 4.7 用EViews7.2进行多元线性回归 步骤: 在输出结果界面点击顶端按钮Resids,将输出残 差图 同样可以在结果界面点击菜单Forecast,保存 拟合值。 4.8 假设条件的放松 4.8.1 假设条件的放松(一)—非正态 分 布误差项 4.8.2 假设条件的放松(二)—异方差 4.8.3 假设条件的放松(三)—非随机 抽 样和序列相关 4.8.4 假设条件的放松(四)—内生性 4.8 假设条件的放松 4.8.1 假设条件的放松(一)—非正态 分 布误差项 • 去掉假设5不影响OLS估计的一致性、无偏性和渐 近正态性。 • 不能采用t-检验来进行参数的显著性检验,也不能 用F检验进行整体模型检验。 • 大样本情况下,t统计量往往服从标准正态分布 (在原假设下)。 4.8 假设条件的放松 4.8.2 假设条件的放松(二)—异方差 Var (ui | X1i ,, X ki ) 2 ( X1i ,, X ki ) • 异方差检验原理 u 2 0 1 X1 2 X 2 3 X12 4 X 22 5 X1 X 2 v uˆi2 0 1 X1i 2 X 2i 3 X12i 4 X 22i 5 X1i X 2i vi • H0 : 1 2 5 0; H1 : 1 ~ 5 至少一个不为0 4.8 假设条件的放松 4.8.3 假设条件的放松(三)—非随机 抽 Cov(us , ut ) E(usut ) 0, s t 样和序列相关 • 序列相关不影响OLS估计的无偏性、一致性 和渐近正态性 • 标准误的计算要用HAC标准误 • 用EViews检验序列相关 4.8 假设条件的放松 4.8.4 假设条件的放松(四)—内生性 假设1’(外生性假设:exogenous independent variable) 模型误差项和解释变量不相关0,即 Cov(u, X j ) 0, j 1,2,, k 结论5’:如果假设1’和假设2满足, (1)OLS估计 ˆ 是 的一致估计; (2)当样本量 n 较大时,ˆ j 近似服从正态分布: j ˆj ~ j (a) N ( j , 2ˆj ) 4.8 假设条件的放松 4.8.4 假设条件的放松(四)—内生性 • 若假设1’都不能满足,则OLS失效,此时应当 采用工具变量估计方法、面板数据估计方法等 其他方法。 4.9 自变量共线性 • 当假设2和假设2’不满足时,存在多重共线 性(multicolinearity),模型无法估计。 • 方差膨胀因子 VIF( ˆ j ) 1 , j 1,2, , k 2 1 R j 一般认为,当 VIF(ˆ ) 10 时,Xj 与其他自变 量存在严重共线性,需进行处理。 j 4.9 自变量共线性 • 存在多重共线性时处理方法 (1)增加样本量。 (2)对变量实施变换。例如对取正值的变 量取自然对数,采用增长率数据而不是原 始数据等。 (3)多重共线性只对有共线关系的自变量 的回归系数OLS估计方差有影响,如果所关 注的自变量不存在严重多重共线性,则不 影响对问题的判断。 重要概念 1、多元线性回归模型的概念和理论大多与一元线性回归模型相同。 由于有多个自变量,为了模型参数可以被估计,除了对模型误 差项给出必要的假设之外,需要假设解释变量之间不存在完全 共线性。 2、在无共线性假设下,设误差项的外生性假设是最基本的假设, 在此假设下,OLS估计具有一致性和渐近正态性。如果同方差假 设和随机抽样假设同时成立,则OLS估计近似服从正态分布,参 数估计的标准误采用(4.18)计算,并采用结论8中的统计量对 参数进行t检验。如果误差项存在异方差,OLS估计近似服从正 态分布,但参数估计的标准误需要采用(4.26)给出的White方 法进行计算,用于回归系数假设检验的t-统计量计算做相应的 调整。如果误差项存在异方差和序列相关,则OLS估计近似服从 正态分布,但参数估计的标准误需要采用Newey-West给出HAC方 法进行计算,用于回归系数假设检验的t-统计量计算做相应的 调整。采用EViews软件进行操作时,在回归选项中根据误差项 假设选择合适的选项可得出稳健的检验结果。 如果外生性假设不满足,不能采用OLS方法估计模型。 重要概念 3. 多元线性回归的因变量总平方和,可以分解为回2 归平方和和残差平方和,由此可以定义拟合优 R 度 。 R2 2 R 会随自变量的增加而增加,以此为标准会 2 R 使模型包含过多的对因变量没有解释能力的自变量。 R2 对 分子分母中的量用各自的自由度调整得出调 整 。信息准则与调整 2 在自变量取舍上 R 具有相同功能。信息准则包括AIC、SC和HQ,使用 的原则是选择使信息准则达到最小的模型。 和 信息准则只能用于嵌套模型的比较。 4. 多元线性回归模型误差项是否有异方差可以通过 White方法进行检验。White方法的做法是对辅助回 uˆ 2 归模型进行检验,辅助回归以原回归模型的OLS回 归残差平方 为因变量以原模型自变量、自变 量平方和自变量的交叉相乘为解释变量的回归,以 回归的F检验结果决定是否存在异方差。 重要概念 5.多元线性回归模型误差项是否有序列相关可以 通过布罗施-葛德福瑞LM检验方法进行检验。 只需要在EViews结果输出界面逐级点击菜单即 可实现误差项的序列相关检验。 6. 与一元线性回归模型不同,多元线性回归模 型自变量之间的多重共线性会影响到回归系数 OLS估计的方差和标准误,从而影响到t-检验。 方差膨胀因子VIF用来衡量共线性的程度。当 存在严重共线性时,可以通过变量变换、增加 样本量减轻影响,但不能轻易将解释变量从模 型中去掉,导致参数OLS估计的不一致性,带 来更严重的后果。