Transcript ecnmtrcs06

回帰分析
重回帰(3)
内容
• 分散不均一性
– 分散不均一性とは何か
– Heteroskedsticity robust estimator
– 分散不均一性の検出
– 加重最小二乗法 (Weighted Least Square)
•
•
•
•
誤差項の系列相関
多重共線性
説明変数の誤差
誤差項と説明変数の相関
回帰分析の前提
• モデルの線型性
• ui~N(0,s2) i.i.d.
– 誤差項の期待値は0
– 誤差項は互いに独立(系列相関は無い)
– 誤差項の分散は一定(分散均一性)
– 誤差項は正規分布(t検定,F検定のための前提)
• 説明変数と誤差項は独立
• 説明変数の行列Xはfull rank
分散不均一性
heteroskedasticity
• 分散均一性(homoskedasticity)
var( u i )  s
– 誤差項は互いに独立で同一の分布に従う
2
• 回帰係数bの分布はこの仮定に依存
b  
 (x
i
i
 x )ui
S xx
E( b )   , var( b ) 

( xi  x ) ui
2
i
S xx
b
s . e .( b )
2
2
1
 s S xx
2
~ t n  ( k  1) 
• 分散均一性の仮定が満たされなくても不偏性は成立。bの分散は上の式
のようにはならない。 t 検定,F検定は正しくない。
分散不均一性(2)
• 誤差項の分散が説明変数の大きさと何らかのシステマ
ティックな関係があると分散均一性の仮定は成立しない。
• 例)賃金方程式で,高学歴者ほど賃金の分散が大きくな
る。経験年数の長い人ほど,賃金の分散が大きくなる。
• 誤差項の系列相関も,広い意味での
heteroskedasticity
• ただし,誤差の分散は,ここで想定しているようなものと
少し異なる
分散不均一性(3)
• Eviewsなどの統計パッケージでは,最小二乗法のoptionで,
heteroskedasticity robust estimator を算出してくれる
• OLSの残差から適切な分散を計算
– EviewsではWhiteの方法とHAC(Newey West)の方法が選択できる
– HACは誤差項に系列相関がある場合の方法
• robust t estimator 漸近的に正しい統計量(サンプルサイズ
が十分に大きいとき)
var( b ) 
2 2


x

x
ei
i i
S xx
2
Heteroskedasticity robust estimator:
OLSの残差をeとして,左のように計算
Heteroskedasticity robust
estimator
Menuから
Quick /Estimate Equation
でspecicficationに回帰式を
書き(method はLS),
options のタブをクリック
Coefficient covariance
matrix でWhiteを選択する。
(optionはEstimation Default
で通常のOLS,White,HAC)
通常のOLSと
heteroskedasticity robust
estimatorのs.e. やt値を比較
せよ。
分散不均一性の検出
• 残差の平方と説明変数またはyの予測値の間にあ
る関係
– 例)
– y=a+x+u, s2=kx
• 残差と説明変数x(あるいは被説明変数yの予測値)
は,最小二乗法では直交
– e’x=0
– 残差を,説明変数(yの予測値)に回帰してもその係数は
ゼロ
– 残差の平方と,xやyの予測値との間にシステマティック
な関係があるかどうかを調べる。
分散不均一性の検出(2)
• Breusch and Paganのテスト
estimate : y i  a   1 x1 , i   2 x 2 , i     k x k , i  u i
save : e i  y i  a  b1 x1 , i  b 2 x 2 , i    b k x k , i
2
compure
ei
estimate
: e i   0   1 x1 , i   2 x 2 , i     k x k , i  v i
2
test H 0 :  1   2     k  0
( RSS  TSS ) / k
RSS /( n  ( k  1))

ESS / k
RSS /( n  ( k  1))
~ F  k , n  ( k  1) 
分散不均一性の検出(3)
• Whiteのテスト
• 残差の平方 e2 を被説明変数
• 説明変数:xjをそのままいれず,xjの平方,xj
とxhの交差項を加える
• これらの説明変数の係数が全て0という仮説
を検定する
• 簡便な方法
– yの予測値,その平方を説明変数に加える
分散不均一性への対処
• 分散不均一性のテストは検出のみ
– どのような方法で対処すべきかは教えてくれない
• 実際には多くの場合
– var(u|x)=s2 f(x) が成立している
– f(x)の形状がわかれば (多くの場合はf(x)=x)
y i  a   xi  u i
yi
f ( xi )
a
1
f ( xi )

xi

f ( xi )
ui
f ( xi )
この式を推計すればよい Weighted Least Square
Estimate Equations でmethodはLS を指定。Options タブでWeights  この場合
はWeights のtypeにinverse std dev. を指定し,weight series を f(x)とする
Breusch and Pagan の検定 メニューから
選択する方法
回帰式を推定し
た後,
View/ Residual
Diagnostics/
Heteroskedastici
ty Tests
を選択
Breusch and
Pagan test
White testなどの
Optionがある
Whiteの検定
回帰分析の後,
View/ Residual
Tests/
Heteroskedasticit
y tests
を選択
Whiteのtestを選
択すると,自動的
に説明変数のクロ
ス項,平方を説明
変数のリストに加
えてくれる
Whiteの検定
残差の平方を被説明変数に
説明変数の係数が全て0という仮説は棄
却される
分散不均一性が検出された
問題1
• wage1.rawで賃金方程式を推計し,分散不
均一性のテスト(Breusch and Pagan test)を
行いなさい
• Whiteのテストを行いなさい
• 分散不均一性が検出された場合,適切な変
数変換をして回帰を行い,最初の回帰と結果
を比較しなさい。
問題2
• HPRICE1.RAW
• 次のモデルを推計せよ
– 被説明変数:price(住宅価格)
– 説明変数:lotsize, sqrft, bdrms
– 分散不均一性のテストを行え
• 上のモデルを対数形で推計せよ
– 被説明変数: log(price)
– 説明変数:log(lotsize), log(sqrft), log(bdrms)
– 分散不均一性のテストを行え
分散不均一性の検定
メニューを使わない方法
• Breusch and Pagan
– 残差の平方を計算
• series res2 = resid^2
• コマンドウィンドウで上のコマンドをタイプ
– res2 を被説明変数にして回帰分析
– 説明変数の係数=0のF検定
• Whiteの検定
– 残差の平方を計算
– 被説明変数の予測値を計算
• series res =resid
• series fit = lnwage - res
– Res2を被説明変数に,fit , fitの平方を説明変数にした回
帰分析を行い,F検定
Weighted Least Square
y i  a   1 x 1 , i     k x k , i  u i (1 )
(1)式のモデルで,誤差項の分散が次のように表されるとする
var( u i )  h ( x )s
2
(1)式を次のように変換すれば,分散は均一になる
yi
h ( xi )

a
h ( xi )
 1
x 1 ,i
h ( xi )
   k
x k ,i

h ( xi )
w i y i  a w i   1 w i x 1 ,i     k w i x k ,i  v i
vi  ui
h ( xi ) ,
wi  1
h ( xi )
ui
h ( xi )
Quick/ Estimate
Equation で最小二乗
法LSを選択
Options のタブで
Weights を
選択
Type は
None,
Inverse variance,
Inverse std dev.
variance
std dev
から選択
None →通常のOLS
Weight Seriesに
weight変数名を記入
古いversionだと,Typeの選択ができないかもしれません。
その場合,weight変数名に,1/sqr(EDUC)といれればい
いでしょう。詳しくはマニュアルを参照してください。
誤差項の系列相関
• 回帰分析の前提:誤差項は互いに独立
• 誤差項に系列相関がある場合
– 回帰係数bの分散がs2(X’X)-1にならない
– クロスセクションデータの場合には問題にならな
い
• オブザベーションの並び方が,隣接した地域や人の順
番になっている場合には意味がある場合あり。
– 時系列データの場合には意味がある
• ある時点で生じたショックがしばらく尾をひく(誤差項の
系列相関アリ)
Durbin Watson検定
• 1階の系列相関を調べる検定
 t  2 e t
T
DW 



T
t2
2

 e t 1
T
t 1
2
現在では,誤差項
はもっと一般的に
AR(p)過程に従う
として,推計がで
きる
et
et 
2
T 1


t 1
T
et  2 
t 1
2
et
T 1
t 1
e t e t 1
2
 2 (1   )
DW比は多くの統計パッケージでは自動的に出力される
経済データでは,>0のケースが普通 (は1階の相関係数)
大雑把なルールではDW比が1に近いと系列相関あり
また,時系列デー
タの分析では,説
明変数が定常過
程か非定常過程
かの区別が重要
多重共線性 multicolinearity
• 説明変数間の相関が高い場合,回帰分析では,個々の変数
の影響を分離して推計することができなくなる
• 実験データ
– 個々の変数の影響が十分に分離できるように実験計画を立てる
• 経済データ
– 上のようなことは不可能
– 分析のレベルの再検討
• 例)地方政府の行動(支出)を,地域の財政状況(債務残高,
税収,国からの補助金,交付税額),地域の属性(山間地,
豪雪地帯,..),所得,面積等で説明
– 国からの補助金は,その地域属性によって決まる
– 個々の変数の効果が捉えられない
説明変数の誤差
真のモデル
yi  a   x  ui
*
i
説明変数xi*は観察できない:そのかわりxiが観察できる
xi  xi  vi
*
E v i   0 , cov( u i , v j )  0 for all i , j
y i  a    x i  v i   u i  a   x i  u i   v i 
 a   xi  wi
誤差項wiの期待値は0,分散は一定。しかし,wiとxiには相
関がある
説明変数の誤差(2)
• 説明変数の誤差誤
差項と説明変数の相関
• 最少二乗推定量
b  (X ' X )
1
X ' y    (X ' X )
1
X 'w
• 特に単回帰の場合
plim b   
cov( x , w )
var( x )
 
s v
2
s x*  s v
2
2
cov( x  v , u   v )
*
 
var( x  v )
*
2

s x*
 
s 2 s 2
v
 x*




説明変数の誤差(3)
• 例)恒常所得仮説
C i  kY i  u i
P
Yi  Yi  Yi
P
   0,
E Yi
T
T

P
cov Yi , Y i
T
  cov Y
T
i

, ui  0
Y:観察される所得, YP: 恒常所得, YT:変動所得
消費は観察不可能な恒常所得に比例する(kはほぼ1に近い)
消費関数を推計すると,消費性向はケインズ型消費関数の消費性向(0.6~
0.7)と推定される
説明変数の誤差操作変数法(Instrumental Variables Method)
説明変数の誤差,誤差項と説明
変数の相関 対処方法
• 誤差項と説明変数の相関の問題は,連立方
程式モデルでも発生
• 操作変数法(Instrumental Variable Method)
• IVについては後述