多変量解析第2回ゼミ

Transcript 多変量解析第2回ゼミ

多変量解析
第４章単回帰分析
新納浩幸
単回帰分析とは？



x,yについて直線的な
関係を前提とした解析
説明変数が１つの物
→単回帰分析
右図は単回帰分析として
扱えるデータの一例
図１成分Ａの含有量ｘと
収率ｙのデータと散布図
解析の流れ
1.
2.
3.
4.
5.
単回帰モデルを想定、回帰母数を
最小２乗法より推定
寄与率と自由度調整済寄与率より
回帰式の評価
回帰係数の検定と推定
残差とテコ比の検討
得られた回帰式からの予測
１．回帰式の推定

取得できるデータには
ばらつきがある。


近似直線を求める必要有り
（最小２乗法を用いる）
単回帰モデル式
図２単回帰モデルの考え方
ˆ  0  1x   i ,  i ~ N (0, 2 )
y
右上図は単回帰モデルを
示している
・・・式（１）
最小２乗法（１）

最小２乗法とは・・・


実測値と予測値の差（残
差）の平方和が最小になる
パラメータを求めること
予測値
yˆi  ˆ0  ˆ1xi

残差
ei  yi  yˆi  yi  (ˆ0  ˆ1xi )
図３残差と単回帰モデル
最小２乗法（２）

実際に解くために・・・



残差平方和から正規方程式を導く
正規方程式を解いてパラメータを得る
残差平方和
n
n
2
ˆ
ˆ
Se  e  {yi  (0  1xi )}
i 1
2
i
i 1
最小２乗法（３）

パラメータの偏微分

正規方程式
n
Se
 2 ( yi  ˆ0  ˆ1 xi )  0
ˆ0
i 1
n
Se
 2 xi ( yi  ˆ0  ˆ1 xi )  0
ˆ1
i 1
ˆ0n  ˆ1  xi   yi
2
ˆ
ˆ
0  xi  1  xi   xi yi
（上記方程式より単回帰式の推定式を得る）
最小２乗法（４）

正規方程式より求まるパラメータ導出式
x
y
ˆ0  y  ˆ1x
(ただし、 x   , y   )
i
ˆ1
( x  x )( y  y) S



S
(x  x)
i
i
xy
2
i

n
xx
単回帰式の推定式
yˆ  ˆ0  ˆ1x  y  ˆ1 ( x  x )
i
n
S xy   ( xi  x )( yi  y)
(ただし、
)
2
S xx   ( xi  x )
２．寄与率と自由度調整済寄与率（１）

求めた単回帰式の推定式
→有用かどうかを評価しなければならない

評価指標の寄与率Ｒ２を求める

寄与率とは・・・・


全変動のうち回帰によって説明できる変動の割合
計算結果が１に近いほど良い
２．寄与率と自由度調整済寄与率（２）

寄与率を求めるのに必要なパラメータ
目的変数yの平方和（yの全変動）
 推定した回帰式から求まる回帰による平方和
この２つのパラメータの割合によって求められる。


ｙの平方和を求める
n
S yy   ( yi  y)2
i 1
S yy  { yi  (ˆ0  ˆ1 xi )}2  {(ˆ0  ˆ1 xi )  yi }2
S yy  ˆ1S xy  Se
・・・式（２）
・・・式（３）
２．寄与率と自由度調整済寄与率（３）

回帰式より求める平方和
2
S
SR  {(ˆ0  ˆ1xi )  y}  ˆ1Sxy ( xy )
Sxx
2

寄与率
Se
SR
R 
 1
S yy
S yy
2
・・・式（５）
・・・式（４）
２．寄与率と自由度調整済寄与率（４）

各平方和にはそれぞれ自由度が対応している
→自由度を調整した寄与率も必要になる

それぞれの平方和に対する自由度
Syy ：φT = n-1
SR ：φR = 1
Se ：φe = n-2
２．寄与率と自由度調整済寄与率（５）

自由度を調整した寄与率：自由度調整済寄与率
Se e
R 1
S yy T
*2
・・・式（６）
この式は重回帰分析の時も有用
３．回帰係数の検定と推定（１）

求められた回帰式のパラメータ
̂1 は統計量
→確率分布から回帰係数の検定と推定を行う

母分散σ２の推定量
Se
ˆ  Ve  
e n  2
2
Se
・・・式（７）
３．回帰係数の検定と推定（２）

回帰係数 ̂1の確率分布
2



ˆ
1 ~ N  1, 
 S xx 

・・・式（８）
確率分布の標準化
ˆ1  1
2
u
~
N
(
0
,
1
)
 2 S xx
・・・式（９）
３．回帰係数の検定と推定（３）


式（９）の標準式に式（７）を代入
ˆ1  1
t
~ t (e ) (e  n  2)
Ve Sxx
この式を用いて検定を行う
→帰無仮説、対立仮説を立てる
 帰無仮説Ｈ０：   0
1
 対立仮説Ｈ１： 1  0
・・・式（１０）
３．回帰係数の検定と推定（４）

検定統計量
̂1
t0 

Ve S xx
・・・式（１１）
計算結果が|t0|≧t(φe,α)の時


有意水準αで有意である
帰無仮説Ｈ０は棄却される
３．回帰係数の検定と推定（５）

分散比
ˆ12
SR
F0  t 

 F (1,e ; )
Ve Sxx Ve
2
0

β１の信頼率９５％の信頼区間
Ve
ˆ
1  t (e ,0.05)
S xx
４．残差とテコ比の検討（１）

各サンプルにおける残差が推定回帰直線と比べ
異常に大きい（または小さい）
→何らかの問題がある可能性

残差の標準化：標準化残差
ek
e'k 
Ve
標準正規分布Ｎ(0,12)に近似的に従う
４．残差とテコ比の検討（２）

各データが予測値に対しての影響力を測る
→テコ比を求める

第ｋサンプルの予測値を求める
yˆ k  y  ˆ1 ( xi  x )
 hk1 y1  hk 2 y2   hkk yk   hkn yn
このときの係数ｈｋｋをテコ比と呼ぶ
４．残差とテコ比の検討（３）

テコ比の性質
n
h
k 1
kk
 1  1  2( (説明変数の個数)  1)
1
 hkk  1
n
５．得られた回帰式の利用

回帰式の推定量の確率分布
2




1
(
x

x
)
2
ˆ0  ˆ1x ~ N  ˆ0  ˆ1x,  
 
S xx  
n

母回帰の区間推定、予測区画を構成できる

多変量解析 第2回ゼミ

Transcript 多変量解析 第2回ゼミ

Directory

多変量解析第2回ゼミ

Transcript 多変量解析第2回ゼミ