第五章 含有定性变量的情况
Download
Report
Transcript 第五章 含有定性变量的情况
第六章 含有定性变量的情况
§6.1 引言
例 6.1 在酿酒工艺中,要将大麦浸在水中吸收一定的水分 x1 ,为了
提高产量加入某种化学溶济浸泡一定的时间 x 2 ,然后测量大麦吸入
化学溶济的份量 y ,控制 y 的量对质量极为重要。由经验知,y 与 x1 、
x 2 间有较好的线性关系,但随着季节不同会有所差异。现在三个季
节各做了 6 次试验
冬季
X1
春季
X2
Y
X1
夏季
X2
Y
X1
X2
Y
1
130.00 200.00 7.50 136.00 215.00 6.20 130.00 205.00 11.00
2
136.00 220.00 4.20 137.00 250.00 7.00 140.00 265.00 6.00
3
140.00 215.00 1.50 136.00 180.00 5.50 139.00 250.00 6.50
4
138.00 265.00 3.70 138.00 240.00 5.60 136.00 245.00 9.10
5
134.00 235.00 5.30 139.00 220.00 4.60 135.00 235.00 9.30
6
142.00 260.00 1.20 141.00 260.00 3.90 137.00 220.00 7.00
冬季: yˆ 82.660 0.605x1 0.0167 x2
春季: yˆ 101.674 0.746 x1 0.0288x2
夏季: yˆ 98.146 0.729 x1 0.0391x2
从方程可看出, x1 , x2 前的系数差异不大,而只是常数项的
差异较大。为了提高参数估计的精度,最好将这批数据统一
处理。但季节不是一个定量变量,而是定性变量。下面我们
将讨论当模型中含有定性变量时的统一处理的方法。
本章主要介绍两种方法:
1. 虚拟变量法:即把定性变量进行定量化。
2. 协方差分析方法:一种处理既有定量变量又有定性变量
的统计分析方法.
§6.2 最小二乘法基本定理
为了后面讨论方便,先给出有关假设检验的定理。
现讨论如下的模型:
Y X
H 0
~ N (0, 2 I )
n
其中 Y 是 n 1 的向量, 为 m 1未知参数, X 为 n m 矩阵,并假
设 R( X ) m , H 为 s m 已知矩阵, R( H ) s 。称上述模型为参数
h11 h1m
带约束的模型。而 H 矩阵可如下表示: H
h h
sm sm
s1
(一)模型的参数估计
记:̂ H 是在 H 0 的条件下使 (Y X )(Y X ) 达到最小的 的
最小二乘估计,这是一个条件极值问题,可用拉格朗日乘数法来求。令:
m
m
s
F ( 1 , 2 m ) ( yi 1 xi1 m xim ) 2 hij i j
2
i 1
F ( 1 m )
j
F ( )
1
m
i
j 1 i 1
j ˆ j i ˆi j 1, 2m ,i 1,s
j ˆ j i ˆi j 1, 2m ,i 1,s
0
0
s
m
ˆ x ˆ x ) h ˆ 0
(
y
j 1,2 m
1 i1
m im
ij i
i
i 1
i 1
m
hij ˆ j 0
i 1,2 s
j 1
可把上述方程组写成矩阵的形式:
X Y X Xˆ H H ˆ 0
ˆ 0
H
H
由此可得: X Xˆ H X Y H ˆ ,
当 ( X X ) 存在时,有:
1
ˆ H ( X X ) 1 ( X Y H ˆ )
代入 Hˆ 0 ,可得: Hˆ H H ( X X ) ( X Y H ˆ ) 0
1
即: H ( X X )
1
X Y H ( X X ) 1 H ̂ ,由此可得参数估计如下:
ˆ ( H ( X X ) H ) 1 H ( X X ) 1 X Y ( H ( X X ) 1 H ) 1 Hˆ
ˆ H ˆ ( X X ) 1 H ( H ( X X ) 1 H ) 1 Hˆ
2
2
若把 R0 及 R1 分别记为不带约束的模型及带约束的模型的残差平方和。那么
两者之间的关系式如下:
R12 (Y Xˆ H )(Y Xˆ H ) (Y Xˆ )(Y Xˆ ) ( ˆ ˆH ) X X ( ˆ ˆH )
R02 ˆ H [ H ( X X ) 1 H ]1 H ( X X ) 1 ( X X )( X X ) 1 H [ H ( X X ) 1 H ]1 Hˆ
R02 ˆ H [ H ( X X ) 1 H ]1 Hˆ
(二)参数检验
先不加证明地给出下面一个引理。
引理 Y ~ n (0, n ) ,则当 时,有
2
Y Y ~ 2 ( f ), f R() ;当 0 时,有 Y AY 与 Y BY
相互独立。其中 , 均为对称矩阵。
定理 6.1
R02
2
~ 2 ( f0 )
其中 f 0 n R( X )
定理 6.2 在 H 0 的条件下,
(1)
( R12 R02 )
2
~ ( f ) ,其中 f f1 f 0 ,这里
X
f1 n R R( H )
H
f 0 n R( X )
(2) R1 R0 与 R0 独立;
2
2
( R`21 R02 )
(3)
R
2
0
f0
2
f
~ F ( f1 , f 0 )
证明:
(1)
R12 R02
2
Y X ( X X ) 1 H [ H ( X X ) 1 H ] 1 H ( X X ) 1 X Y
2
Y X
Y X
1
1
1
1
X
(
X
X
)
H
[
H
(
X
X
)
H
]
H
(
X
X
)
X
Y X
~ (0, n )
其中:
X ( X X ) 1 H [ H ( X X ) 1 H ]1 H ( X X ) 1 X
2 且
并且有:
R( ) tr tr[[ H ( X X ) 1 H ]1 H ( X X ) 1 H ] trI s s
R( X ) m
x11
X x n1
H h11
h
s1
即有:
f1 n m s
x1m
x nm
h1m
hsm
R12 R02
2
~ 2 ( f1 f 0 )
f0 n m
X
当一般m n, 有 R m
H
(2)
Y
X
Y X
1
2
1
Y [ I X ( X X ) X ]Y /
[ I X ( X X ) X ]
2
R02
这里 I X ( X X ) X , 0
1
由引理知: R1 R0 与R0 独立
2
2
2
(3)由 F 分布定义可得
( R12 R02 )
R
2
0
f0
f
~ F( f , f0 ) 。
在线性回归方程中,对 的某个线性假设均可记为 H 0 ,只要选
择适当的 H
例如:对模型:
Y X
2
~
(
0
,
)
(假设有截距)要对其作检验 H 0 j : j 0
可设计 H (0,0, 1 0) 为一 m 维向量,其中第 j +1 个位置 1,
其余为 0。则 H 0 等价于 H 0 j : j 0
若要对其用检验: H 0 : 1
0 1 0 0
0 0 1 0
可设计 H
0 0 0 0
则 H 0 等价于 H 0 : 1
2 m 0
0
0
1
2 m 0
若要对其作检验: H 0 : 1
可设计 H (0,1, 1, 0
2
0) ,
则有 H 0 等价于 H 0 : 1
2
( R12 R02 )
上述检验均可归纳为用统计量 F
2
0
R
其拒绝域为 W {F F1 ( f , f 0 ) } 。
f0
f
, 对H 0 作检验
例 6.1(继续) 最初分季度建立回归模型,现建立一个统一的模型
i 1,2,3
yij i 0 i1 x1ij i 2 x2ij ij
2
~
iid
,
(
0
,
)
ij
j 16
y11 1 x111
y 1 x
116
16
y 21 0 0
y 26
y 31
y 36 0 0
x 211
0
0
0
0
0
x 216
0
0
0
0
0
0
1
x121
x 221
0
0
x 226
0
0
1 x126
0
0
0
0
1
x131
0
0
0
1 x136
0 10 11
11
0 12 16
0 20 21
21
0 22 26
x 231 30 31
31
x 236 32 36
f 0 n R( X ) 18 9 9
R02 1.1187
现检验假设 H 0 : 11 21 31 1 ,
根据最小二乘法的基本定理,可选取:
0 1 0 0 1 0 0 0 0
H
0 0 0 0 1 0 0 1 0
H 0 11 21 31 在 H 0 为真时,模型可设为
i 1,2,3,
yij i 0 1 x1ij i 2 x2ij ij
2
iid
~
(
0
,
)
ij
j 1,26
y11 1 x111
y 1 x
116
16
y 21 0 x121
y 26 0 x126
y 31 0 x131
y 36 0 x136
x 211
0
0
0
x 216
0
0
0
0
1
x 221
0
0
1 x 226
0
0
0
0
1
0
0
0
1
0
10
0 1
0 12
20
0 22
x 231 30
32
x 236
经计算 R12 1.4336
f1 n R( X ) 18 7 11
f f1 f 0 11 9 2
(1.4336 1.1187)
F
1.1187
2 1.2667
9
在 0.05 时 F0.95 (2,9) 4.26 1.2667 ,故不能拒绝 H 0
同理可检验假设
H 0 : 12 22 32 2
在 0.05 下也不能拒绝 H 0
data p144;
input y beta10 x11 x12 beta20 x21 x22 beta30 x31 x32;
cards;
7.5 1 130 200 0 0 0 0 0 0
4.2 1 136 220 0 0 0 0 0 0
1.5 1 140 215 0 0 0 0 0 0
3.7 1 138 265 0 0 0 0 0 0
5.3 1 134 235 0 0 0 0 0 0
1.2 1 142 260 0 0 0 0 0 0
6.2 0 0 0 1 136 215 0 0 0
7.0 0 0 0 1 137 250 0 0 0
5.5 0 0 0 1 136 180 0 0 0
5.6 0 0 0 1 138 240 0 0 0
4.6 0 0 0 1 139 220 0 0 0
3.9 0 0 0 1 141 260 0 0 0
11 0 0 0 0 0 0 1 130 205
6.0 0 0 0 0 0 0 1 140 265
6.5 0 0 0 0 0 0 1 139 250
9.1 0 0 0 0 0 0 1 136 245
9.3 0 0 0 0 0 0 1 135 235
7.0 0 0 0 0 0 0 1 137 220
;
run;
proc reg data=p144;
model y=beta10 x11 x12 beta20 x21 x22 beta30 x31 x32/noint;
run; /*此小程序计算R_0^2以及自由度*/
proc reg data=p144;
model y=beta10 x11 x12 beta20 x21 x22 beta30 x31 x32/noint;
restrict x11=x21=x31; /*加上约束beta11=beta21=beta31*/
run; /*此小程序计算R_1^2以及自由度*/
proc reg data=p144;
model y=beta10 x11 x12 beta20 x21 x22 beta30 x31 x32/noint;
test x11=x21=x31;
run; /* 直接检验beta11=beta21=beta31,一步到位 */
R 9*0.35257 1.11875, f 0 18 9 9
2
0
2
加约束条件后
R12 11*0.361012 1.43361, f1 18 7 11
利用最小二乘法基本定理进行假设检验
(1.43361 1.11875)
F
1.11875
2 1.2667
9
直接进行test
Model: MODEL1
Test 1 Results for Dependent Variable y
Mean
Source
DF
Square F Value Pr > F
Numerator
2
0.15743
1.27
0.3276
Denominator 9
0.12431
由于p-value>0.05,因此我们接受原假设:
H 0 : 11 21 31 1
类似地,我们可对 H0 : 12 22 32 2
进行假设检验,结论也是接受原假设:
H 0 : 12 22 32 2
通过上述检验,我们可以认为例6.1的模型可记
为
yij i 0 1 x1ij 2 x2ij ij , i 1, 2,3, j 1, 2,..., 6,
2
i
.
i
.
d
.
N
(0,
)
ij
§6.3 数量化的方法
在上一节例 6.1 中,季节可看成一个定性的变量,它有三个
水平,先引入二个虚拟变量
1
ui1
0
1
ui 2
0
第i组数据来自一水平(冬季)
否则
第i组数据来自二水平(春季)
否则
则:(ui1 , ui 2 ) (1,0)
表示冬季
(ui1 , ui 2 ) (0,1)
表示春季
(ui1 , ui 2 ) (0,0)
表示夏季
上述模型可转化为:
yi 0 1ui1 2ui 2 1 xi1 2 xi 2 i
2
iid
~
(
0
,
)
i
i 1,2,18
其观测向量及结构矩阵如下:
7.5
4.2
1.5
3.7
5.3
Y 1.2
6.2
7.0
9.3
7.0
1
1
1
X 1
1
1
1 0 130 200
1 0 136 220
1 0
0 1
0 0
0 0 137 220
0
1
2
1
2
得冬季的回归方程是: yˆ ˆ 0 ˆ1 ˆ1 x1 ˆ 2 x2 86.48 0.64 x1 0.024 x2
春季
夏季
yˆ ˆ 0 ˆ2 ˆ1 x1 ˆ 2 x2 88.92 0.64x1 0.024 x2
yˆ ˆ 0 ˆ1 x1 ˆ 2 x2 90.31 0.64x1 0.024 x2
R02 1.4923
f 0 18 5 13
检验季节的影响是否显著,这相当于检验假设: H 0 : 1 2 0
0 1 0 0 0
设计 H
0 0 1 0 0
当 H 0 时,模型可转化为
yi 0 1 xi1 2 xi 2 i
2
)
,
0
(
~
iid
i
i 1,218
此时的回归方程为: yˆ 93.29 0.69 x1 0.031x2
R12 46.1945
f1 18 3
(46.1945 1.4923)
F
1.4923
13
(15 13)
194.71 F0.95 (2,13) 3.81
拒绝 H 0 ,表示季节对 y 有显著影响。
同理,可对模型进行系数检验:
H 01 : 1 0
相应的 H 0
0 0 1 0
H 02 : 2 0
相应的 H 0
0 0 0 1
data p150;
input beta0 u1 u2 x1 x2 y;
cards;
1 1 0 130 200 7.5
1 1 0 136 220 4.2
1 1 0 140 215 1.5
1 1 0 138 265 3.7
1 1 0 134 235 5.3
1 1 0 142 260 1.2
1 0 1 136 215 6.2
1 0 1 137 250 7.0
1 0 1 136 180 5.5
1 0 1 138 240 5.6
1 0 1 139 220 4.6
1 0 1 141 260 3.9
1 0 0 130 205 11
1 0 0 140 265 6.0
1 0 0 139 250 6.5
1 0 0 136 245 9.1
1 0 0 135 235 9.3
1 0 0 137 220 7.0
;
run;
proc reg;
model y=beta0 u1 u2 x1 x2/noint;
run; /*此小程序计算R_0^2以及自由度*/
proc reg;
model y=u1 u2 x1 x2;
run; /*与上一小程序等价*/
proc reg;
model y=u1 u2 x1 x2;
restrict u1=u2=0;
run; /*此小程序计算R_1^2以及自由度*/
proc reg;
model y=x1 x2;
run; /*与上一小程序等价*/
proc reg;
model y=u1 u2 x1 x2;
test u1=u2=0;
run; /* 直接检验delta1=delta2=0,一步到位 */
加约束后