Transcript 幻灯片1
第九章 方差分析与回归分析 本章研究的主要问题: 1. 有关单因素和多因素非简单试验的统计分析方法 多处理的正态总体参数估计和均值比较。 2. 对输入变量与试验指标之间存在的统计因果关系和 协同变异问题进行统计分析的方法 回归分析和相 关分析。 涉及的理论模型:线性模型 所用到主要方法:最小二乘法 Copyright © 2006 NJUFE 第一节 单因素试验的方差分析 术语:试验指标、因素、水平 教材p270 单因素随机试验:只考察一个因素A,试验的水平有 a 个:A1,A2,…Aa 。设Ai的重复数(样本容量) 为ri,i=1,2,…,a 。总试验次数为 a r n,特别,当r r i 1 i 1 2 ra r,有ar n。 前提假设:所有试验单元的试验条件一致(无系统 误差)。 方差分析的作用: 1. 通过对试验数据的统计分析,推断造成试验数据 间的差异的原因是试验水平差异还是随机误差的影 响。 Copyright © 2006 NJUFE 2. 推断哪些因素的影响是显著的。 3. 分析出“最佳”的试验水平(固定模型);或估 计总体变量的参数(随机模型)。 方差分析与假设检验的区别: 方差分析能同时检验多个总体的某个参数(如均 值)是否相等,而假设检验每次只能检验两个总体 的某个参数是否相等。 方差分析与回归分析的区别: 1. 回归分析主要是为了得到自变量与因变量之间的定 量关系 回归方程。回归系数显著性讨论的目的, 是把影响不显著的自变量从回归方程中剔除,以提高 回归方程的稳健性,使预测更加精确可靠。 Copyright © 2006 NJUFE 方差分析则是用于区分因素对试验指标影响的显 著程度及影响大小,从而找出“最佳”的试验水平。 2. 回归分析要求因素(输入)变量是定量的,而方差 分析则不要求因素(输入)变量是定量的。 3. 回归分析要求对所有试验水平都进行相应的试验, 而方差分析则只需有选择地对某些试验水平进行试 验(如正交设计)。 一、单因素完全随机等重复试验的方差分析 1. 试验的线性模型 设因素A的a 个试验水平为:A1,A2,…Aa ,每个试 验水平的重复数(样本容量)均为r。 Copyright © 2006 NJUFE 试验目的: 针对固定模型,对A1,A2,…Aa 比较寻优。 设 xij是水平Ai下第j次重复的试验指标观察值,设i 是水平Ai下试验指标的真值, ij 是水平Ai下第j次重复 试验产生的随机误差。 对随机误差的前提假设: ij 均服从正态分布; 3. 方差齐性(同质性):D( ij )=2。 1. ij 相互独立; 2. 对随机误差是否满足三条假定的检查及校正: 1. 对随机误差方差齐性的检验: 2. 快速检验随机误差方差齐性的方法: 3. 非正态分布数据的校正: Copyright © 2006 NJUFE 固定试验模型(见教材p274 公式(1.1)) xij i ij, a ,a,j 1, ,r. i 0, i 1, i 1 2 ~ N ( 0 , ) ij 检验假设 H0:i=0,i=1,…,a; HA: i不全为零。 若拒绝H0,则对每对i,j,ij,检验 H0:i= j ; HA: i j . Copyright © 2006 NJUFE 2. 参数,i的估计 3. 对效应的显著性检验 1 r 记 xi. xij, r j 1 a 1 a r x.. xij。 ar i 1 j 1 r 称 SST ( xij x.. ) 2 为总变差, i 1 j 1 a r SS e ( xij xi. ) 2 为组内变差, i 1 j 1 a SS A r ( xi. x.. ) 2 为组间变差。 i 1 计算方法见教材275. Copyright © 2006 NJUFE 说明:组内变差SSe 反映随机干扰对输出产生的 效应;组间变差SSA 反映不同输入水平对输出产 生的效应。 可以证明: SST= SSe+ SSA ,且 SST的自由度 fT= ar-1 ,SSe的自由度 fe= a(r-1) , SSA的自由度 fA= a-1。 此外,在随机误差方差齐性的假设之下,有 E(SSe)= a(r-1) 2。 a 对固定模型,有E ( SS A ) (a 1) 2 r i2; i 1 Copyright © 2006 NJUFE SS e SS A a(r 1) SS A 设 FA ( ) /( ) , a 1 a(r 1) a 1 SS e 问题:FA服从什么分布? 结论: FA~F(a-1,a(r-1)) 。 对给定的显著性水平,查F分布表得到临界值 F(a-1,a(r-1)) ,再由样本观察值计算出FA的值,若 FA F(a-1,a(r-1)) ,接受H0;若FA> F(a-1,a(r-1)) , 拒绝H0 。 参见教材p276-278。 Copyright © 2006 NJUFE 第三节 一元线性回归 社会经济现象中相互影响或相互联系的关系一般可 分为三类:函数关系、相关关系、不确定关系。 相关关系:现象之间存在着数量上的依存关系,但这 种关系间的数值是不确定的。 Copyright © 2006 NJUFE 相关关系的分类:因果关系、平行关系 平行关系:互为因果或由共同的外因所影响(协同变 异)。 统计分析的任务: 1. 对因果关系,建立回归方程,进行预测和控制。 2. 对平行关系,估计相关系数,确定相关程度。 一、回归概念 对因果关系,一般把条件因素(可控制或可观察)作 为自变量x(普通变量) ,将结果作为因变量Y(随机变 量) 。 Copyright © 2006 NJUFE 对确定的x,Y=Y(x)是随机变量,设其期望存在, 记 (x)=E(Y|x),称(x) 为Y(x) 对x的回归函数, 简称回归。回归函数描述了x与Y(x) 的平均值的依 存关系。( E(Y|x)表示对于固定的x, Y(x)的数学 期望。) 估计(x): 求Y(x) 对x的回归问题。 Copyright © 2006 NJUFE 二、直线回归模型 设x与Y(X)之间有因果关系,且直线相关 y=+x x1 x2 设 (x)=E(Y|x) =+x ,称其为总体回归方程, 称 为回归系数。 Copyright © 2006 NJUFE 由于、是未知的,设想通过样本观察值得出、 的估计值a、b。于是 y a bx E (Y|x) ( x). 称其为经验回归方程或样本回归方程。 问题:如何估计a、b的值? 三、参数估计 设抽样得到一组样本观察值(x1,y1),….,(xn,yn), 则样本回归方程的值为 yi a bxi,yi xi i, i 1, ,n, i 相互独立且 i~N (0, ). 2 Copyright © 2006 NJUFE 根据最小二乘法的原理,选择a、b使回归值与观 察值的误差平方和达到最小,即 n 2 i n min Q Q(a, b) ( yi yi ) . i 1 2 i 1 Q Q 0, 0,可得(教材p299-300) 由 a b b S xy S xx n ,a y bx ,其中,S yy ( yi y ) n i 1 n S xy ( xi x )( yi y ),S xx ( xi x ) , 2 i 1 i 1 Copyright © 2006 NJUFE 2 四、残差分析 n 设ei i yi yi ,则Q e 。 i 1 2 i 可以证明:(教材p302-303) Q 2 ~ (n 2),故E ( 2 Q 2 ) n 2, Q 即E ( ) 2, n2 2 Q 2 这说明 是 的无偏估计量 n2 Copyright © 2006 NJUFE 五、参数的统计性质 由于yi xi i, i 相互独立且 i~N (0, ), 2 故yi~N ( xi, 2 ),i 1, ,n, . 由正态分布的性质和a,b的表达式,可得 E (b) ,D(b) 2 / S xx; 2 1 x E (a) ,D(a) ( ) 2。从而, n S xx 2 2 1 x 2 b~N ( , ),a~N (, ( ) )。 S xx n S xx Copyright © 2006 NJUFE a、b是、的最小方差线性无偏估计,一般称为最 佳线性无偏估计,简记为BLUE。 因 y i a bxi, . 1 ( xi x ) 可得 y i ~N ( xi, ( ) 2 ), n S xx 2 1 ( xi x ) 2 a bxi i~N ( xi, (1 ) ) n S xx 2 n 称U ( yi y ) 为回归离差平方和, 2 i 1 总离差平方和Syy和剩余离差平方和Q、回归离差平 方和U之间有如下关系:Syy=Q+U 。 Copyright © 2006 NJUFE 可以证明:Syy的自由度fT=n-1,Q的自由度 fe=n-2,U的自由度fU=1。 从而, fT= fe+ fU ,且有 E ( S yy ) (n 1) 2 2 S xx,E (U ) 2 2 S xx, E (Q) (n 2) . 2 结论:1. Q/(n-2)是2的无偏估计; 2. 设H0:=0,H1: 0 .若H0成立,则直线回归不 存在,若H1成立,则存在直线回归。并且,当H0成 立,U与Q相互独立,且 U Q 2 ~ (1), 2 ~ (n 2) 2 2 Copyright © 2006 NJUFE 六、统计推断 由关系式Syy=Q+U 可见,U在Syy中占的比重越大 (即U/Q的值大) ,线性回归的效果越佳。而H0的检验 统计量 U F ~F (1,n 2), Q /( n 2) 故当F>F(1,n-2),拒绝H0,即线性回归的效果 显著。 S xy 由于 b=Sxy/Sxx,相关系数 可以证明: r S xx S yy S xx b , S yy Q S yy bS xy,从而可得 U S yy Q S xy2 S xx r S yy, 2 Copyright © 2006 NJUFE 故H0的检验统计量也可写成 r2 F 。 2 (1 r ) /( n 2) 说明:1. 通常的做法是先由获得的样本观察值,计 算出相关系数r,再检验假设H0 ,当拒绝H0后,才 求回归方程。 2. 也可对H0进行t-检验,其效果和F-检验等价。 3. 若拒绝H0,则的置信度为1-的置信区间为 Q Q Sb , (b t (n 2) )。 (n 2) S xx (n 2) S xx 2 Sb为b的样本标准差。(教材P305) Copyright © 2006 NJUFE 系数a的显著性检验: 2 1 x 2 因E (a ) ,D(a ) ( ) , n S xx 2 1 x Q a的样本标准差为S a ( ) , n S xx n 2 若H 0: 0 成立,则检验统计量 t a / S a~t (n 2)。 若拒绝H 0,则的1 置信区间为 2 1 x Q (a t (n 2) ( ) ). n S xx n 2 2 Copyright © 2006 NJUFE 七、预测与控制 对任何给定的x0,理论回归直线(x)=+x的点估 计和1- 置信区间分别为(教材P306) y0 a bx0, Q 1 ( x0 x ) (a bx0 t (n 2) ) n2 n S xx 2 2 由此,可根据不同的研究目的进行预测或控制。 直线回归的进一步分析: 非线性关系的拟线性回归:对一些常用的非线性关 系,可通过变量代换将其变成线性关系用线性回归 的方法得到线性回归方程,再用逆变换变成非线性 回归方程。(具体内容见教材p309-312.) Copyright © 2006 NJUFE