Transcript ppt
第4章 単回帰分析
単回帰分析:xとyについて直線的な関係を前提として解析する方法
単回帰分析:xが1変数
重回帰分析:xが多変数 第5章
y=ax+b
y:被説明変数,目的変数,外的基準
X:説明変数
4.1 適用例と解析ストリー
表4.1 成分Aの含有率xと収率y
サンプルN o.含有量x 収率y
1
2
3
4
5
6
7
8
9
10
2.2
4.1
5.5
1.9
3.4
2.6
4.2
3.7
4.9
3.2
71
81
86
72
77
73
80
81
85
74
85
y = 4.523x + 61.853
2
R = 0.934
80
75
70
0
2
4
図4.1 散布図
6
(2) 解析ストリー
1.
1. 単回帰モデル
yi 0 1 xi i
(誤差εiは互いに独立にN(0,σ
i~N (0, 2 )
2
)に従う)を想定し,回帰母数(回
帰パラメター)β0, β1を最小2乗法により推定する
2. 寄与率や自由度調整済寄与率を求めて上記の回帰式の性能を
評価する.
3. 回帰係数β1について検定・区間推定を行う.
4. 残差とテコ比の検討を行い,得られた回帰式の妥当性を検討する.
5. 得られた回帰式を利用して,任意に指定した値x0に対して母回帰
β0+β1x0を推定し, y0=β0+β1x0の値を予測する.
4.2 解析方法
(1)最小二乗法による回帰式の推定
観測値
予測値
残 差
yi 0 1 xi i
i~N (0, )
yˆ i 0 1 xi
i yi yˆi yi (0 1 xi )
2
(4.1)
(4.3)
(4.4)
残差平方和
n
n
2
S
(
y
(
x
))
残差平方和 e i
i 0 1i
i 1
2
i 1
(4.5)
残差平方和を最小になるβ0, β1を求める
n
Se
2 ( yi 0 1 xi ) 0
0
i 1
n
Se
2 xi ( yi 0 1 xi ) 0
1
i 1
(4.6)
(4.7)
単回帰モデルの推定(1)
0n 1 xi yi
(4.8)
0 xi 1 xi xi yi
(4.9)
2
(4.8)より
0
y
i
n
x
1
i
これを(4.9)に代入すると
y
(
n
i
1
1 ( xi
2
n
y 1 x
(4.10)
x ) x x
i
n
( xi ) 2
n
i
1
) xi yi
i
2
xi yi
xy
i
n
i
(4.11)
(4.12)
単回帰モデルの推定(2)
偏差積和 S xy
x y
(4.13)
( y y )( x x ) y x
n
( x )
(4.14)
(x x) x
i
i
i
i
i i
2
平方和
S xx
2
2
i
1 ( xi
2
i
i
( xi ) 2
) xi yi
n
1S xx S xy
S xy
1
S xx
n
xy
yˆ i 0 1 xi y 1 x 1 xi y
i
i
n
(4.12)
(4.15)
S xy
S xx
( xi x )
(4.16)
単回帰モデルの推定(3)
残差平方和
2
S e yi ( 0 1 xi )
yi y 1 ( xi x )
2
( yi y ) 2 2 1 ( xi x )( yi y ) 1
S yy 2 1S xy 1
S xy
S xx
2
2
(
x
x
)
i
S xx
S yy 1S xy
(4.17)
Se
誤差の母分散ˆ Ve
e n 2
2
Se
(4.18)
(2)寄与率と自由度調整済み寄与率
平方和の分解
S yy yi y
2
( yi ( 0 1 xi ) ( 0 1 xi ) y )
2
( yi ( 0 1 xi ) ( 0 1 xi ) y
2
2
2 ( yi ( 0 1 xi )( 0 1 xi ) y
( yi ( 0 1 xi ) ( 0 1 xi ) y
2
Se S R
S R :誤差平方和
S R :回帰による平方和
2
( y (
i
0
1 xi )(0 1 xi ) y 0
n
Se
2 ( yi 0 1 xi ) 0
0
i 1
n
Se
2 xi ( yi 0 1 xi ) 0
1
i 1
( y
i
E(i) ,0 V(i) 2, C(i, j) 0(i j)
(4.6)
(4.7)
( 0 1 xi )( 0 1 xi ) y ei ( 0 1 xi ) y
( 0 y ) ei 1 ei xi 0
寄与率
寄与率
R2
S
SR
1 e
S yy
S yy
S
R R
S yy
2
2
S xy / S xx
S yy
(
S xy
S xx S yy
) 2 rxy
2
自由度調整済み寄与率
R*2 1
Se / e
S yy / T
T n 1
e T R (n 1) 1 n 2
(3)回帰係数の検定と推定
βˆ1は統計量であり,以下の分布に従う
βˆ ~N( , 2 / S )
1
1
xx
標準化を行うと
βˆ1 1
u
~N(0,12 )
2 / S xx
uの分母の 2にその推定量ˆ 2 Veを代入すると
βˆ1 1
t
~t(e )
Ve / S xx
(3)回帰係数の検定と推定 t検定
t検定:パラメータが意味を持つかどうかの検定
帰無仮説 H0 : 1 0, 対立仮説 H0 : 1 0
βˆ1
統計量 t 0
を,有意水準αで検定する(t検定)
Ve / S xx
t 0 t (e , )(e n 2)なら有意水準で有意と判定する
t ( , )2 F (1,; )の関係があるので,t 0
t (e , )と次式は同じ
βˆ1
SR
F0 t
F (1, e ; )
分散比
Ve / S xx Ve
Ve
ˆ
1の信頼率95%の信頼区間は,β1 t (e ;0.05)
S xx
2
0
(4.31)
(4)残差とテコ比の検討 (1)
残差
残差の標準化
残差
ek yk yˆ k
ek
ek '
近似的にN(0,12 )に従う
Ve
「ek’≧3.0ならば注意」, 「ek’≧2.5ならば留意」
サンプルの異常値をチェック
xk’
(4)残差とテコ比の検討 (2)
残差のt値
ek
tk
(1 hkk )Ve
テコ比:各データの予測値に対する影響度を示す値
1 ( xk x ) 2
hkk
n
S xx
4.3 行列とベクトルによる表現
(1) 単回帰モデル
単回帰モデルを以下のように表す
yi 0 1 xi i 0 1 ( xi x ) i
0 0 1 x
(4.42)
(4.43)
i~N (0, 2 )
(4.44)
n個のサンプルに対して具体的に書き並べると
y1 0 1 ( x1 x ) 1 , 1~N (0, 2 )
y2 0 1 ( x2 x ) 2 , 2~N (0, 2 )
yn 0 1 ( xn x ) n , n~N (0, 2 )
y1 1
y 1
2
yn 1
x1 x
1
x2 x 0 2
1
xn x
n
y Xβ ε
(1) 単回帰モデル
誤差に関しては,以下の仮定を用いている
E( i ) 0,
V( i ) 2 ,
C( i , j ) 0(i j)
(4.47)
これをベクトルと行列で表記すると
2 0
0
0
2
0
E (ε) 0, V (ε)
0
0
0
0
0
2I n
2
(4.48)
以上により,単回帰モデルは,以下のように表現できる
y Xβ ε,
ε~N(0, 2I n )
(4.49)
(2) 最小2乗法による回帰式の推定
残差ベクトル
( AB )' B' A'
ˆ
ˆ
ˆ )' ( Xβˆ )' y βˆ ' X' y
(
y
'
X
β
ˆ
0 1 ( x1 x )
ˆ
0 1 ( x2 x )
y Xβˆ
(4.50)
ˆ
ˆ 0 1 ( xn x )
e1
e2
2
2
2
2
S e ei e1 e2 en [e1 , e2 , en ]
e'e
(y Xβˆ )' (y Xβˆ ) (y 'βˆ ' X' )( y Xβˆ )
en
e1 y1
e
y2
2
e
en yn
残差平方和
(y ' y y ' Xβˆ βˆ ' X' y βˆ ' X' Xβˆ )
(y ' y 2βˆ ' X' y βˆ ' X' Xβˆ )
(4.51)
(2) 最小2乗法による回帰式の推定
残差平方和をパラメータベクトルで微分したものを0とおく
S e
2X' y 2X' Xβˆ 0
(4.52)
̂
X' Xβˆ X' y βˆ ( X' X) 1 X' y
(4.53)
1 x1 x
1
1
1 1 x2 x
X' X [
]
x1 x x2 x xn x
1
x
x
n
n
( xi x )
n 0
1/ n
0
1
[
]
[
]
( X' X) [
]
2
(
x
x
)
(
x
x
)
0
S
i
i
xx
0 1/S xx
(4.54)
(2) 最小2乗法による回帰式の推定
ei 0
y X[( X' X) 1 X' y ]
[I n X( X' X) 1 X' ]y
(4.55)
Se e'e
y '[I n X( X' X) 1 X' ]' [I n X( X' X) 1 X' ]y
y '[I n X( X' X) 1 X' ]y
y ' y y ' X( X' X) 1 X' y
(4.56)
(3) 統計量の分布
単回帰モデルを行列とベクトルで表すと
y Xβ ε,
ε~N(0, 2I n )
E (y ) E ( Xβ ε) E ( Xβ) E (ε) Xβ
V (y ) V ( Xβ ε) V ( Xβ) V (ε) V (ε) 2I n
y AXが成り立つとき
E (y ) E ( AX ) AE ( X) Aμ
V (y ) AΣΣ '
(3.50)
(3.51)が成り立つ
(3) 統計量の分布
E (βˆ ) E (( X' X) 1 X' y )
( X' X) 1 X' E (y)
V (βˆ ) V (( X' X) 1 X' y )
( X' X) 1 X'V (y ) X( X' X) 1
( X' X) 1 X' 2 I n X( X' X) 1
1
( X' X) X' Xβ β
2 ( X' X) 1
βˆ ~N(β, 2 ( X' X) 1 )
1/ n
0
( X' X) [
]
0 1/S xx
1
(4.54)より
αˆ 0~N( 0 , 2 / n)
βˆ ~N( , 2 / S )
1
1
Cov(αˆ 0 , βˆ1 ) 0
xx