Transcript ppt

第5章 重回帰分析
重回帰分析とは
5.1 適用例と解析ストリー
例:中古マンションの価格 y(千万円)
広さx1 (m2) ,築年数x2 (年)
5.2 説明変数が2個の場合の解析方法
(1)最小2乗法による回帰式の推定
観測値
予測値
残 差
yi  0  1xi1  2 xi 2  i i~N(0, 2 )
(5.3)
yˆi  0  1xi1  2 xi 2
 i  yi  yˆi  yi  (0  1xi1  2 xi 2 )
(5.4)
残差平方和 Se 

2
i
(5.5)
 [ yi  (0  1xi1  2 xi 2 )]
Se
 2[ yi  (0  1xi1  2 xi 2 )]  0
0
Se
 2 xi1[ yi  (0  1xi1  2 xi 2 )]  0
1
Se
 2 xi 2[ yi  (0  1xi1  2 xi 2 )]  0
1
2
(5.6)
(5.7)
(5.8)
(5.9)
(1)最小2乗法による回帰式の推定
0  y  1x1  2 x2
(5.13)
1
 1  S11 S12  S1y 
   S S  S 
 2   21 22   2y 
 S22S1y  S12S2y 
1


2 
S
S

S
S
S11S22  S12  12 1y 11 2y 
(5.28)
多重共線性
多重共線性 (Multicollinearity)
通称「マルチコ」。独立変数間に非常に強い相関があったり,一
次従属な変数関係がある場合には,解析が不可能であったり,
たとえ結果が求まったとしてもその信頼性は低くなる。
 S22S1y  S12S2y 
 1 
1

  
2 
S
S

S
S
 2  S11S22  S12  12 1y 11 2y 
S11S22  S122  0
S122
1
S11S22
S12
r12 
1
S11S22
(2) 寄与率と自由度調整済み寄与率
S yy  (ˆ0  ˆ1S1y  ˆ2S2 y )  Se
 SR  Se
S yy : T  n 1
SR : R  2
Se : e  n  3
寄与率(決定係数)
Se
SR
R 
 1
S yy
S yy
2
自由度調整済寄与率(決定係数)
Se / e
Se /(n  3)
R  1
 1
S yy / T
S yy /(n 1)
*2
pp.71
(3) 説明変数の選択(変数選択)
説明変数の選択:
目的変数に有効な説明変数のみをモデルに採用すること
①変数減少法:すべての変数を取り込んだ段階から不要な
変数を削除していく方法
②変数増加法:定数項だけのモデルから有用な変数を追加
していく方法
③変数増減法:①と②を両方取り入れた方法
ここでは,変数増加法について説明する.
変数増加法
定数項だけのモデル Model0:
yi  0   i
変数増加法
①定数項だけのモデル Model0:
yi  0   i
② Model0にx1かx2のどちらの変数を取り込むのが良いか?
1つの変数xjだけを取り込んだ単回帰式 yˆi  ˆ0  ˆ j xij
(Se( M 0)  Se( M1) ) /(e( M 0)  e( M1) )
Se( M 0)  S yy
F0 
Se( M1) / e( M1)
e( M 0)  T
F0はF(e(M 0) e(M1) ,e(M1) )に従う F分布
F0  a
F0  a
xjを取り込む.ただし複数の
xj に対するF値がa以上の場
合は最も大きな値をとる変数
だけを取り込む→③
Model0を支持して終了
S yy
Se(M 0)
SR(M1)
Se(M1)
Model0
Model1
変数増加法
③定数項と1変数のモデル Model1: yi  0  1xi1   i
④Model1に変数x2を取り込む方が良いか?
2変数を取り込んだモデル Model2: yi  0  1xi1  2 xi 2   i
(Se( M1)  Se( M 2) ) /(e( M1)  e( M 2) )
F0 
Se( M 2) / e( M1)
F0はF(e(M1) e(M 2) ,e(M 2) )に従う F分布
F0  a(e(M1) e(M 2) ,e(M 2) )
X2を取り込む
F0  a(e(M1) e(M 2) ,e(M 2) )
Model1を支持して終了
S yy
(Se(M1)  Se(M 2) )
SR(M1)
SR(M 2)
Se(M1)
Se(M 2)
Model1
Model2
(4)残差とテコ比に検討
yk  yˆ k
標準化誤差 ek 
Ve
(5)得られた回帰式の利用
2

 2
1
D
ˆ
ˆ
ˆ
0  1x1  2 x2 ~ N (0  1x1  2 x2 ,  
 )
 n n 1


D2  (n 1) ( x1  x1 )2 S11  2( x1  x1 )(x2  x2 )S12  ( x2  x2 )2 S 22
0  1x1  2 x2 の信頼率95%の信頼区間
2


1
D
ˆ
ˆ
ˆ
0  1x1  2 x2  t (e ,0.05)  
Ve
 n n 1
0  1x1  2 x2 の信頼率95%の予測区間
2


1
D
ˆ
ˆ
ˆ
0  1x1  2 x2  t (e ,0.05) 1 
Ve
 n n 1
5.3 説明変数がp個の場合の解析方法
yi  0  1xi1  2 xi 2    p xip   i  i ~ N (0, 2 )
e  y  yˆ  y  (ˆ  ˆ x  ˆ x  ˆ x )
i
i
n
i
i
n
0
1 i1
2 i2
p ip
Se   ei  {yi  (ˆ0  ˆ1xi1  ˆ2 xi 2   ˆ p xip )}2
i 1
2
i 1
Seを最小とする ˆ0 , ˆ1, ˆ2 ,, ˆ pを求める.
Se Se Se
Se



0
ˆ0 ˆ1 ˆ2
ˆ p
y  ˆ0  ˆ1x1  ˆ2 x2  ˆ p xp
ˆ1S11  ˆ2S12  ˆ p S1p  S1y
ˆ1S21  ˆ2S22  ˆ p S2 p  S2 y

ˆ1S p1  ˆ2S p2  ˆ p S pp  S py
ただし
n
S jk  Skj   ( xij  x j )(xik  xk )
n
S jy   ( xij  x j )( yi  y)
i 1
i 1
5.3 説明変数がp個の場合の解析方法
 ˆ1   S11 S12
ˆ  
 2    S21 S22
  

ˆ  
 p  S p1 S p 2
1
 S1 p   S1y 
 S1 p  S2 y 
     
  
 S pp  S py 
変数間に線形関係を有している場合,逆行列が求まらない
残差平方和の最小値
Se  S yy  (ˆ0  ˆ1S1y  ˆ2S2 y  ˆ p S py )
Se
誤差の母分散ˆ  Ve  
e n  p 1
2
Se
(2) 寄与率と自由度調整済み寄与率
S yy  (ˆ0  ˆ1S1y  ˆ2S2 y  ˆ p S py )  Se
 SR  Se
S yy : T  n 1
SR : R  p
Se : e  n  p 1
寄与率(決定係数)
Se
SR
R 
 1
S yy
S yy
2
自由度調整済寄与率(決定係数)
R*2  1 
Se / e
S yy / T
(3) 説明変数の選択(変数選択)
pp.71
説明変数の選択:
目的変数に有効な説明変数のみをモデルに採用すること
①変数減少法:すべての変数を取り込んだ段階から不要な
変数を削除していく方法
②変数増加法:定数項だけのモデルから有用な変数を追加
していく方法
②変数増減法:①と②を両方取り入れた方法
ここでは,変数増加法について説明する.
変数増加法
定数項だけのモデル Model0:
yi  0   i
(4)残差とテコ比に検討
yk  yˆ k
標準化誤差 ek 
Ve
(5)得られた回帰式の利用
2

 2
1
D
ˆ0  ˆ1x1  ˆ2 x2   ˆ p x p ~ N (0  1x1  2 x2   ˆ p x p ,  
 )
 n n 1
p
p
D  (n 1) ( xi  xi )2 S ij
2
i 1 j 1
0  1x1  2 x2   p xp の信頼率95%の信頼区間
2


1
D
ˆ
ˆ
ˆ
ˆ
0  1x1  2 x2    p x p  t (e ,0.05)  
Ve
 n n 1
0  1x1  2 x2   p xp の信頼率95%の予測区間
2


1
D
ˆ
ˆ
ˆ
0  1x1  2 x2  t (e ,0.05) 1 
Ve
 n n 1
5.4 行列とベクトルによる表現
4.3 行列とベクトルによる表現と同じ
EXCELを用いた重回帰分析
表5.1 中古マンションのデータ
サンプルNo.
1
2
3
4
5
6
7
8
9
10
広さx1
(m 2)
51
38
57
51
53
77
63
69
72
73
築年数x2 価格y
(年数) (
千万円)
16
3.0
4
3.2
16
3.3
11
3.9
4
4.4
22
4.5
5
4.5
5
5.4
2
5.4
1
6.0
EXCELの出力例
概要
回帰統計
0.97384694
重相関 R
0.94837787
重決定 R2
0.93362869
補正 R2
0.263625
標準誤差
10
観測数
分散分析表
自由度
回帰
残差
合計
切片
X値1
X値2
観測された分散比 有意 F
分散
変動
64.30037501 3.1255E-05
2 8.93751302 4.46875651
7 0.48648698 0.06949814
9.424
9
t
標準誤差
係数
1.02012955 0.44362392 2.29953684
0.06680477 0.00706459 9.45628471
-0.0808299 0.0122415 -6.6029458
下限 95% 上限 95%
P-値
0.055028639 -0.0288736 2.069133
3.08902E-05 0.05009968 0.08351
0.000303475 -0.1097765 -0.05188