Transcript ppt

第4章 単回帰分析
単回帰分析:xとyについて直線的な関係を前提として解析する方法
単回帰分析:xが1変数
重回帰分析:xが多変数 第5章
y=ax+b
y:被説明変数,目的変数,外的基準
X:説明変数
4.1 適用例と解析ストリー
表4.1 成分Aの含有率xと収率y
サンプルN o.含有量x 収率y
1
2
3
4
5
6
7
8
9
10
2.2
4.1
5.5
1.9
3.4
2.6
4.2
3.7
4.9
3.2
71
81
86
72
77
73
80
81
85
74
85
y = 4.523x + 61.853
2
R = 0.934
80
75
70
0
2
4
図4.1 散布図
6
(2) 解析ストリー
1.
1. 単回帰モデル
yi   0  1 xi   i
(誤差εiは互いに独立にN(0,σ
 i~N (0,  2 )
2
)に従う)を想定し,回帰母数(回
帰パラメター)β0, β1を最小2乗法により推定する
2. 寄与率や自由度調整済寄与率を求めて上記の回帰式の性能を
評価する.
3. 回帰係数β1について検定・区間推定を行う.
4. 残差とテコ比の検討を行い,得られた回帰式の妥当性を検討する.
5. 得られた回帰式を利用して,任意に指定した値x0に対して母回帰
β0+β1x0を推定し, y0=β0+β1x0の値を予測する.
4.2 解析方法
(1)最小二乗法による回帰式の推定
観測値
予測値
残 差
yi   0  1 xi   i
 i~N (0,  )
yˆ i   0  1 xi
 i  yi  yˆi  yi  (0  1 xi )
2
(4.1)
(4.3)
(4.4)
残差平方和
n
n
2
S



(
y

(



x
))
残差平方和 e  i
 i 0 1i
i 1
2
i 1
(4.5)
残差平方和を最小になるβ0, β1を求める
n
Se
 2 ( yi   0  1 xi )  0
 0
i 1
n
Se
 2 xi ( yi   0  1 xi )  0
1
i 1
(4.6)
(4.7)
単回帰モデルの推定(1)
0n  1  xi   yi
(4.8)
 0  xi  1  xi   xi yi
(4.9)
2
(4.8)より
0
y


i
n
x
 1
i
これを(4.9)に代入すると
y

(
n
i
 1
1 ( xi 
2
n
 y  1 x
(4.10)
 x ) x    x
i
n
( xi ) 2
n
i
1
)   xi yi
i
2
  xi yi
xy


i
n
i
(4.11)
(4.12)
単回帰モデルの推定(2)
偏差積和 S xy
x y

(4.13)
  ( y  y )( x  x )   y x 
n
( x )
(4.14)
  (x  x)   x 
i
i
i
i
i i
2
平方和
S xx
2
2
i
1 ( xi 
2
i
i
( xi ) 2
)   xi yi
n
1S xx  S xy
S xy
1 
S xx
n
xy


yˆ i   0  1 xi  y  1 x  1 xi  y 
i
i
n
(4.12)
(4.15)
S xy
S xx
( xi  x )
(4.16)
単回帰モデルの推定(3)
残差平方和
2
S e   yi  (  0  1 xi )
  yi  y  1 ( xi  x )
2
  ( yi  y ) 2  2 1  ( xi  x )( yi  y )  1
 S yy  2 1S xy  1
S xy
S xx
2
2
(
x

x
)
 i
S xx
 S yy  1S xy
(4.17)
Se
誤差の母分散ˆ  Ve 

e n  2
2
Se
(4.18)
(2)寄与率と自由度調整済み寄与率
平方和の分解
S yy   yi  y
2
  ( yi  (  0  1 xi )  (  0  1 xi )  y )
2
  ( yi  (  0  1 xi )   (  0  1 xi )  y
2
2
 2 ( yi  (  0  1 xi )(  0  1 xi )  y
  ( yi  (  0  1 xi )   (  0  1 xi )  y
2
 Se  S R
S R :誤差平方和
S R :回帰による平方和
2
( y  (
i
0
 1 xi )(0  1 xi )  y  0
n
Se
 2 ( yi   0  1 xi )  0
 0
i 1
n
Se
 2 xi ( yi   0  1 xi )  0
1
i 1
 ( y
i
E(i)  ,0 V(i)  2, C(i, j)  0(i  j)
(4.6)
(4.7)
 (  0  1 xi )(  0  1 xi )  y   ei (  0  1 xi )  y
 (  0  y ) ei  1  ei xi  0
寄与率
寄与率
R2 
S
SR
 1 e
S yy
S yy
S
R  R 
S yy
2
2
S xy / S xx
S yy
(
S xy
S xx S yy
) 2  rxy
2
自由度調整済み寄与率
R*2  1 
Se / e
S yy / T
T  n  1
e  T  R  (n  1)  1  n  2
(3)回帰係数の検定と推定
βˆ1は統計量であり,以下の分布に従う
βˆ ~N( ,  2 / S )
1
1
xx
標準化を行うと
βˆ1  1
u
~N(0,12 )
 2 / S xx
uの分母の 2にその推定量ˆ 2  Veを代入すると
βˆ1  1
t
~t(e )
Ve / S xx
(3)回帰係数の検定と推定 t検定
t検定:パラメータが意味を持つかどうかの検定
帰無仮説 H0 : 1  0, 対立仮説 H0 : 1  0
βˆ1
統計量 t 0 
を,有意水準αで検定する(t検定)
Ve / S xx
t 0  t (e , )(e  n  2)なら有意水準で有意と判定する
t ( , )2  F (1,; )の関係があるので,t 0
 t (e ,  )と次式は同じ
βˆ1
SR
F0  t 

 F (1, e ;  )
分散比
Ve / S xx Ve
Ve
ˆ
1の信頼率95%の信頼区間は,β1  t (e ;0.05)
S xx
2
0
(4.31)
(4)残差とテコ比の検討 (1)
残差
残差の標準化
残差
ek  yk  yˆ k
ek
ek ' 
近似的にN(0,12 )に従う
Ve
「ek’≧3.0ならば注意」, 「ek’≧2.5ならば留意」
サンプルの異常値をチェック
xk’
(4)残差とテコ比の検討 (2)
残差のt値
ek
tk 
(1  hkk )Ve
テコ比:各データの予測値に対する影響度を示す値
1 ( xk  x ) 2
hkk  
n
S xx
4.3 行列とベクトルによる表現
(1) 単回帰モデル
単回帰モデルを以下のように表す
yi   0  1 xi   i   0  1 ( xi  x )   i
 0   0  1 x
(4.42)
(4.43)
 i~N (0,  2 )
(4.44)
n個のサンプルに対して具体的に書き並べると
y1   0  1 ( x1  x )   1 ,  1~N (0,  2 )
y2   0  1 ( x2  x )   2 ,  2~N (0,  2 )

yn   0  1 ( xn  x )   n ,  n~N (0,  2 )
 y1  1
 y  1
 2  
  
  
 yn  1
x1  x 
1 
x2  x   0   2 



   1   

 
xn  x 
 n 
y  Xβ  ε
(1) 単回帰モデル
誤差に関しては,以下の仮定を用いている
E( i )  0,
V( i )   2 ,
C( i ,  j )  0(i  j)
(4.47)
これをベクトルと行列で表記すると
 2 0
0 

0 
2
0

E (ε)     0, V (ε)  
 



 
0
 0
0 
0

 0
  2I n
  
2
  

(4.48)
以上により,単回帰モデルは,以下のように表現できる
y  Xβ  ε,
ε~N(0,  2I n )
(4.49)
(2) 最小2乗法による回帰式の推定
残差ベクトル
( AB )'  B' A'
ˆ
ˆ




ˆ )'  ( Xβˆ )' y  βˆ ' X' y
(
y
'
X
β
ˆ

0  1 ( x1  x )

ˆ
0  1 ( x2  x ) 
 y  Xβˆ
(4.50)



ˆ
ˆ 0  1 ( xn  x ) 
e1 
 
e2 
2
2
2
2

S e   ei e1  e2    en  [e1 , e2 ,  en ]
 e'e

 
 (y  Xβˆ )' (y  Xβˆ )  (y 'βˆ ' X' )( y  Xβˆ )
en 
 e1   y1 
e  
y2 
2


e

 
  
en   yn 
残差平方和
 (y ' y  y ' Xβˆ  βˆ ' X' y  βˆ ' X' Xβˆ )
 (y ' y  2βˆ ' X' y  βˆ ' X' Xβˆ )
(4.51)
(2) 最小2乗法による回帰式の推定
残差平方和をパラメータベクトルで微分したものを0とおく
S e
 2X' y  2X' Xβˆ  0
(4.52)
̂
X' Xβˆ  X' y  βˆ  ( X' X) 1 X' y
(4.53)
1 x1  x 
1
1

1 1 x2  x 
X' X  [
]
x1  x x2  x  xn  x   


1
x

x
n


n
( xi  x )
n 0

1/ n
0
1
[
]

[
]
( X' X)  [
]
2
(
x

x
)
(
x

x
)
0
S
 i
 i
xx
0 1/S xx
(4.54)
(2) 最小2乗法による回帰式の推定
  ei  0
 y  X[( X' X) 1 X' y ]
 [I n  X( X' X) 1 X' ]y
(4.55)
 Se  e'e
 y '[I n  X( X' X) 1 X' ]' [I n  X( X' X) 1 X' ]y
 y '[I n  X( X' X) 1 X' ]y
 y ' y  y ' X( X' X) 1 X' y
(4.56)
(3) 統計量の分布
単回帰モデルを行列とベクトルで表すと
y  Xβ  ε,
ε~N(0,  2I n )
E (y )  E ( Xβ  ε)  E ( Xβ)  E (ε)  Xβ
V (y )  V ( Xβ  ε)  V ( Xβ)  V (ε)  V (ε)   2I n
y  AXが成り立つとき
E (y )  E ( AX )  AE ( X)  Aμ
V (y )  AΣΣ '
(3.50)
(3.51)が成り立つ
(3) 統計量の分布
E (βˆ )  E (( X' X) 1 X' y )
 ( X' X) 1 X' E (y)
V (βˆ )  V (( X' X) 1 X' y )
 ( X' X) 1 X'V (y ) X( X' X) 1
 ( X' X) 1 X' 2 I n X( X' X) 1
1
 ( X' X) X' Xβ  β
  2 ( X' X) 1
 βˆ ~N(β,  2 ( X' X) 1 )
1/ n
0
( X' X)  [
]
0 1/S xx
1
(4.54)より
αˆ 0~N( 0 ,  2 / n)
βˆ ~N( ,  2 / S )
1
1
Cov(αˆ 0 , βˆ1 )  0
xx