Transcript ppt
第5章 重回帰分析
重回帰分析とは
5.1 適用例と解析ストリー
例:中古マンションの価格 y(千万円)
広さx1 (m2) ,築年数x2 (年)
5.2 説明変数が2個の場合の解析方法
(1)最小2乗法による回帰式の推定
観測値
予測値
残 差
yi 0 1xi1 2 xi 2 i i~N(0, 2 )
(5.3)
yˆi 0 1xi1 2 xi 2
i yi yˆi yi (0 1xi1 2 xi 2 )
(5.4)
残差平方和 Se
2
i
(5.5)
[ yi (0 1xi1 2 xi 2 )]
Se
2[ yi (0 1xi1 2 xi 2 )] 0
0
Se
2 xi1[ yi (0 1xi1 2 xi 2 )] 0
1
Se
2 xi 2[ yi (0 1xi1 2 xi 2 )] 0
1
2
(5.6)
(5.7)
(5.8)
(5.9)
(1)最小2乗法による回帰式の推定
0 y 1x1 2 x2
(5.13)
1
1 S11 S12 S1y
S S S
2 21 22 2y
S22S1y S12S2y
1
2
S
S
S
S
S11S22 S12 12 1y 11 2y
(5.28)
多重共線性
多重共線性 (Multicollinearity)
通称「マルチコ」。独立変数間に非常に強い相関があったり,一
次従属な変数関係がある場合には,解析が不可能であったり,
たとえ結果が求まったとしてもその信頼性は低くなる。
S22S1y S12S2y
1
1
2
S
S
S
S
2 S11S22 S12 12 1y 11 2y
S11S22 S122 0
S122
1
S11S22
S12
r12
1
S11S22
(2) 寄与率と自由度調整済み寄与率
S yy (ˆ0 ˆ1S1y ˆ2S2 y ) Se
SR Se
S yy : T n 1
SR : R 2
Se : e n 3
寄与率(決定係数)
Se
SR
R
1
S yy
S yy
2
自由度調整済寄与率(決定係数)
Se / e
Se /(n 3)
R 1
1
S yy / T
S yy /(n 1)
*2
pp.71
(3) 説明変数の選択(変数選択)
説明変数の選択:
目的変数に有効な説明変数のみをモデルに採用すること
①変数減少法:すべての変数を取り込んだ段階から不要な
変数を削除していく方法
②変数増加法:定数項だけのモデルから有用な変数を追加
していく方法
③変数増減法:①と②を両方取り入れた方法
ここでは,変数増加法について説明する.
変数増加法
定数項だけのモデル Model0:
yi 0 i
変数増加法
①定数項だけのモデル Model0:
yi 0 i
② Model0にx1かx2のどちらの変数を取り込むのが良いか?
1つの変数xjだけを取り込んだ単回帰式 yˆi ˆ0 ˆ j xij
(Se( M 0) Se( M1) ) /(e( M 0) e( M1) )
Se( M 0) S yy
F0
Se( M1) / e( M1)
e( M 0) T
F0はF(e(M 0) e(M1) ,e(M1) )に従う F分布
F0 a
F0 a
xjを取り込む.ただし複数の
xj に対するF値がa以上の場
合は最も大きな値をとる変数
だけを取り込む→③
Model0を支持して終了
S yy
Se(M 0)
SR(M1)
Se(M1)
Model0
Model1
変数増加法
③定数項と1変数のモデル Model1: yi 0 1xi1 i
④Model1に変数x2を取り込む方が良いか?
2変数を取り込んだモデル Model2: yi 0 1xi1 2 xi 2 i
(Se( M1) Se( M 2) ) /(e( M1) e( M 2) )
F0
Se( M 2) / e( M1)
F0はF(e(M1) e(M 2) ,e(M 2) )に従う F分布
F0 a(e(M1) e(M 2) ,e(M 2) )
X2を取り込む
F0 a(e(M1) e(M 2) ,e(M 2) )
Model1を支持して終了
S yy
(Se(M1) Se(M 2) )
SR(M1)
SR(M 2)
Se(M1)
Se(M 2)
Model1
Model2
(4)残差とテコ比に検討
yk yˆ k
標準化誤差 ek
Ve
(5)得られた回帰式の利用
2
2
1
D
ˆ
ˆ
ˆ
0 1x1 2 x2 ~ N (0 1x1 2 x2 ,
)
n n 1
D2 (n 1) ( x1 x1 )2 S11 2( x1 x1 )(x2 x2 )S12 ( x2 x2 )2 S 22
0 1x1 2 x2 の信頼率95%の信頼区間
2
1
D
ˆ
ˆ
ˆ
0 1x1 2 x2 t (e ,0.05)
Ve
n n 1
0 1x1 2 x2 の信頼率95%の予測区間
2
1
D
ˆ
ˆ
ˆ
0 1x1 2 x2 t (e ,0.05) 1
Ve
n n 1
5.3 説明変数がp個の場合の解析方法
yi 0 1xi1 2 xi 2 p xip i i ~ N (0, 2 )
e y yˆ y (ˆ ˆ x ˆ x ˆ x )
i
i
n
i
i
n
0
1 i1
2 i2
p ip
Se ei {yi (ˆ0 ˆ1xi1 ˆ2 xi 2 ˆ p xip )}2
i 1
2
i 1
Seを最小とする ˆ0 , ˆ1, ˆ2 ,, ˆ pを求める.
Se Se Se
Se
0
ˆ0 ˆ1 ˆ2
ˆ p
y ˆ0 ˆ1x1 ˆ2 x2 ˆ p xp
ˆ1S11 ˆ2S12 ˆ p S1p S1y
ˆ1S21 ˆ2S22 ˆ p S2 p S2 y
ˆ1S p1 ˆ2S p2 ˆ p S pp S py
ただし
n
S jk Skj ( xij x j )(xik xk )
n
S jy ( xij x j )( yi y)
i 1
i 1
5.3 説明変数がp個の場合の解析方法
ˆ1 S11 S12
ˆ
2 S21 S22
ˆ
p S p1 S p 2
1
S1 p S1y
S1 p S2 y
S pp S py
変数間に線形関係を有している場合,逆行列が求まらない
残差平方和の最小値
Se S yy (ˆ0 ˆ1S1y ˆ2S2 y ˆ p S py )
Se
誤差の母分散ˆ Ve
e n p 1
2
Se
(2) 寄与率と自由度調整済み寄与率
S yy (ˆ0 ˆ1S1y ˆ2S2 y ˆ p S py ) Se
SR Se
S yy : T n 1
SR : R p
Se : e n p 1
寄与率(決定係数)
Se
SR
R
1
S yy
S yy
2
自由度調整済寄与率(決定係数)
R*2 1
Se / e
S yy / T
(3) 説明変数の選択(変数選択)
pp.71
説明変数の選択:
目的変数に有効な説明変数のみをモデルに採用すること
①変数減少法:すべての変数を取り込んだ段階から不要な
変数を削除していく方法
②変数増加法:定数項だけのモデルから有用な変数を追加
していく方法
②変数増減法:①と②を両方取り入れた方法
ここでは,変数増加法について説明する.
変数増加法
定数項だけのモデル Model0:
yi 0 i
(4)残差とテコ比に検討
yk yˆ k
標準化誤差 ek
Ve
(5)得られた回帰式の利用
2
2
1
D
ˆ0 ˆ1x1 ˆ2 x2 ˆ p x p ~ N (0 1x1 2 x2 ˆ p x p ,
)
n n 1
p
p
D (n 1) ( xi xi )2 S ij
2
i 1 j 1
0 1x1 2 x2 p xp の信頼率95%の信頼区間
2
1
D
ˆ
ˆ
ˆ
ˆ
0 1x1 2 x2 p x p t (e ,0.05)
Ve
n n 1
0 1x1 2 x2 p xp の信頼率95%の予測区間
2
1
D
ˆ
ˆ
ˆ
0 1x1 2 x2 t (e ,0.05) 1
Ve
n n 1
5.4 行列とベクトルによる表現
4.3 行列とベクトルによる表現と同じ
EXCELを用いた重回帰分析
表5.1 中古マンションのデータ
サンプルNo.
1
2
3
4
5
6
7
8
9
10
広さx1
(m 2)
51
38
57
51
53
77
63
69
72
73
築年数x2 価格y
(年数) (
千万円)
16
3.0
4
3.2
16
3.3
11
3.9
4
4.4
22
4.5
5
4.5
5
5.4
2
5.4
1
6.0
EXCELの出力例
概要
回帰統計
0.97384694
重相関 R
0.94837787
重決定 R2
0.93362869
補正 R2
0.263625
標準誤差
10
観測数
分散分析表
自由度
回帰
残差
合計
切片
X値1
X値2
観測された分散比 有意 F
分散
変動
64.30037501 3.1255E-05
2 8.93751302 4.46875651
7 0.48648698 0.06949814
9.424
9
t
標準誤差
係数
1.02012955 0.44362392 2.29953684
0.06680477 0.00706459 9.45628471
-0.0808299 0.0122415 -6.6029458
下限 95% 上限 95%
P-値
0.055028639 -0.0288736 2.069133
3.08902E-05 0.05009968 0.08351
0.000303475 -0.1097765 -0.05188