Transcript ecnmtrcs05

回帰分析
重回帰(2)
仮説検定
仮説検定
• 単一の制約
– t検定
– メニューから行う方法
• 複数の制約
– F検定
– メニューから行う方法
– F統計量を実際に求める
• 構造変化
• 最適なモデルの決定
回帰分析の前提
linearity y  X  u
u ~ N (0,  I )
2
X : full rank
最小二乗推定量
b  ( X ' X ) 1 X ' y    ( X ' X ) 1 X ' u
ˆy  Xb  X ( X ' X ) 1 X ' y  Py
e  y  yˆ  I  P  y  My
X 'e  0
e' e
SSR
s 

n  (k  1) n  (k  1)
2
最小二乗推定量(2)

b ~ N  ,  2 ( X ' X ) 1
bj   j
 a jj
e' e
2


~ N (0,1)
RSS
2

n  (k  1) s 2

2
~ X 2 n  (k  1) 
個々の係数に関する検定
H0 :  j  
bj  
0
j
s.e.(b j )
0
j
~ t n  (k  1) 
s.e.(b j )  s a jj
両側検定
臨界値の両側に落ちる
確率をとして検定
-3
-2
-1
0
1
2
3
片側検定
臨界値の片側に落ちる
確率をとして検定
-3
-2
-1
0
1
2
3
H0: ある変数の係数が0
係数の標準誤差
t 値 = b / b(s.e.)
係数の真の値が0
だとして計算
p値 (両側確率)
通常は,0.05より小さ
ければ0と有意に異な
ると判断
EDUCの t 値は12.56
t分布に従う確率変数
が(絶対値で) 12.56
より大きな値をとる確
率
仮説検定 単一の制約
• t分布
• 特に,「係数が0に等しい」という仮説は,回帰分析
のoutputをみるだけでよい
• p値  output の Prob. 欄
• wage1.rawの回帰分析の結果では,educのp値は
0.0000。educの係数の真の値が0だとすると,
(絶対値で)0.09209以上の推定値を得る確率が
0.0000だということ
• 一般的には,p値が0.05未満なら,係数=0の仮説は
棄却される
• 注意: Eviews のp値は両側確率
educ の係数の信頼区間を求める
b j   0j
s.e.(b j )
~ t n  (k  1) 
educの係数は自由度522の t 分布をする
df = オブザベーション数(526) – 説明変数の個数(4) = 522
• 片側5%の臨界値t分布の95%点
• 両側5%の臨界値t分布の97.5%点
– 例えば,両側5%の場合,臨界値を t0.975 とすれば,bjの
信頼区間は次の通りになる
 0j  t0.975  s.e.(b j )  b j   0j  t0.975  s.e.(b j )
educの係数の信頼区間を求める(2)
Eviewsの関数を用いて行うには,
@qtdist(p, df) 累積分布がpになるt値を返す(自由度df)
@coefs(i)
i番目の係数(定数項は1番目とカウント)
@stderrs(i) i番目の係数の標準誤差
を用い,コマンド行で次のようにタイプする(ただし, j0 =bjとした
場合)。scalar tc = @qtdist(0.975, 522)
scalar b_low=@coefs(i) –tc * @stderrs(i)
scalar b_up= @coefs(i) + tc * @stderrs(i)
i は実際の数字を入れる
計算すると,b_low = 0.077629, b_up= 0.106429
任意のj0 については,上の式の@coef(i)に想定した値を代入
回帰分析の結果のメニューから
ViewCoefficient Diagnostics  Confidence Intervals
をたどっても信頼区間を求められる。
Excel を用いることもできる
問題
• Wage1.rawのデータを用いた先ほどのOLSで,次
の仮説をそれぞれ検定せよ。
• EDUCの係数が0.06に等しい
• EXPERの係数が0.005に等しい
• TENUREの係数が0.02に等しい
–
–
–
–
それぞれの場合のt値を求めること
この場合のt分布の自由度は?
@coefs, @stderrsを用いる
または,OLSを行った後,menuから View/Coefficient
Diagnostics/Wald Test Coefficient Restrictions
複数の制約
RRSS  URSS  r ~ F (r , n  (k  1))
URSS n  (k  1) 
• RRSS (Restricted Residual Sum of
Squares: 制約付きの残差平方和)
• URSS (Unrestricted Residual Sum of
Squares: 制約無しの残差平方和)
• r : 制約の数
• n-(k+1): 制約無しの回帰での自由度
F Distribution: Numerator df = 5, Denominator df = 100
臨界値よりも大きな値をとる場合に
仮説H0を棄却
0
1
2
3
f
4
5
複数のjに関する制約(単一の制約)
• Kane and Rouse(1995)
– 短大と4年生大学: 賃金差はあるか
• ln(wage)=+1*jc +2*univ+ 3*exper + u
– jc 短大の教育年数
– univ 4年生大学の教育年数
– exper 卒業後の年数(労働市場にでてからの年
数)
• H0: 1=2
複数のjに関する制約(単一の制約) 続き
1. ln(wage) =  + 1*jc + 2*univ + 3*exper + u
H0: 1=2
1.で2= 1+d とおくと
ln(wage) =  + 1*jc + (1+d)*univ + 3*exper + u
これより
2. ln(wage) =  + 1*(jc + univ) + d*univ +
3*exper + u
H0: d=0
univの係数が0という制約に帰着
Eviews 係数の制約
ここをクリックし,coefficient
diagnostics  Wald tests
- coefficient restrictions ..
をたどると,係数の制約の
テストの画面が表れる。
複数の制約も可能。
個々の係数=0の検
定はここをみる
この値からF検定を行うこともできる。 E-views で
は直前の回帰の残差平方和は@ssrに保存される
説明変数の全て(educ,
exper, tenure)の係数が0
かどうか
EviewsでのF検定
View/ Coefficient diagnostics/ Wald test –
Coefficient Restrictions を選択
c(3)=0, c(4)=0 で制約式を指定(複数の制約式
は , で区切る)
c(3)は3番目の説明変数の係数(定数項を1番目
とカウント)
H0: exper,tenureの係数がとも
に0
検定のための統計量は,自由
度が (2,252) のF統計量
5%水準の臨界値は3.03
H0は棄却される
自由度
(2,252)のF
分布に従う
確率変数が
49.685よりも
大きな値をと
る確率は
0.0000
F検定(コマンドを打ち込む方法)
• 制約無しの回帰分析URSS を求める
制約なしの回帰後,コマンドウィンドウで scalar urss= @ssr
• 制約付の回帰分析RRSS を求める
制
約つきの回帰後,コマンドウィンドウで scalar rrss= @ssr
• F統計量を計算
分子は (rrss-urss)/(制約の数),分母はurrs/(制約なしの回帰の自由
度) で計算した変数を作る(以下では,ffとした)
コマンドウィンドウで次のようにタイプ
scalar f1= (rrss –urss)/制約の数
scalar f2 =urss/(@regobs-定数項を含んだ説明変数の個数)
scalar ff =f1/f2
ff の累積分布を求める(@cfdist(ff,df1,df2)を用いる
Excelでも同様の計算ができる
問題1
• wage1.raw
被説明変数 ln(wage)
説明変数 educ, exper, tenure, female
• 次の仮説を検定せよ
1. H0 : 全ての説明変数の係数が0に等しい
2. H0 : 女性と男性の賃金格差は無い(定数項ダミー
だけでよい)
3. H0 : exper と tenure の係数が共に0である
2.と3.については,制約なしの残差平方和と制約付の
残差平方和の値を求める方法でも計算せよ。
問題2
• 問題1と同じデータで次の仮説を検討せよ。
– 説明変数にfemale ダミーと学歴(educ),勤続年数
(tenure)の交差項を加える。
• 女性と男性の賃金格差(定数項)は無いし,学歴の
効果の違いも無いし,勤続年数の効果の違いも無
い。
問題 3
• MLB1.RAW
• 次の回帰式を推定
– 被説明変数:log(salary)
– 説明変数: years, gamesyr, bavg, hrunsyr, rbisyr,
runsyr, fldperc, allstar, firstbase, scndbase, thrdbase,
shrtstop, catcher,(baseはoutfield)
– 次の仮説を検討せよ。
• 他の要因を一定にした場合,捕手と外野手の年俸は同じ
• 他の要因を一定にした場合,守備位置の違いは年俸に影響を与
えない
Chowテスト
• 構造変化の検定
– 例)消費関数,投資関数
の推計
– T個の時系列データ
– 時点s以降で構造変が
起きたかどうかの検定
yt   xt  g Dt xt  ut
t  1,.., s
0
Dt  
1 t  s  1,..., T
( RRSS  URRS ) / k
• 全体を二つの期間に分 URRS / T  2k ~ F (k , T  2k )
割
– 時点ダミーを導入して
g=0の検定を行う
kは説明変数の個数(定数項も
含めて)
最適なモデルの決定
• F検定
– nested modelの場合
• adjusted R2を用いる方法
• AIC基準 (Akaike Information Criteria)
AIC=-2ln(L)+2k
ln(L): 対数尤度, k: パラメータの数(説明変数の数)
AICを最小にするようなモデルを選ぶ
たいていの統計パッケージでは自動的に出力される
• 変数増減法(stepwise regression)
• RESET (regression specification error test)
– 回帰式 非線形性のテスト
• J テスト
– non nested model
RESET
y   0  1 x1     k xk  u (1)
上のモデルを推計し,yの予測値を得る。
yの予測値の平方,3乗の項,...を説明変数に加えた次の
モデルを推計する
y   0  1 x1     k xk  g 1 yˆ 2  g 2 yˆ 3  u ( 2)
H0: (1)の定式化が正しい  g1=g2=0
EviewsでのRESET
(1)式をOLSで推計
View/ Stability Diagnostics/ Ramsey RESET Test
Number of Fitted Terms で(2)式にFitted valueをいくつ入れるかを設定
1 2次の項まで, 2 3次の項まで
Non nested model
• MLB1.rawのMLB選手の年棒の回帰分析では,
hrunsyr(ホームラン数)とrbisyr(打点)はともに,有意ではな
かった(二つの変数の単相関は0.89と非常に高いため)。
• そこで,次の二つのモデルのどちらが適切かを選択する必
要に迫られたとする。
H1 : log( salary )   0  1 years   2 gamesyr   3bavg
  4hrunsyr  u
H 2 : log( salary )   0  1 years   2 gamesyr   3bavg
  4 rbisyr  u
J test
• どちらか一方のモデルが正しいモデルであれば,他方のモデ
ルで得られた予測値は説明力を持たない
• (例)H2で推定したモデルの予測値(y2hat)を説明変数として
H1に代入して,5=0の検定を行う
log( salary )   0  1 years   2 gamesyr   3bavg
  4hrunsyr   5 y 2hat  u
• 同様に,H1で推定したモデルの予測値(y1hat)を説明変数とし
てH2に代入して,5=0の検定を行う
• 両方のテストとも棄却される場合がある別のモデル
Eviewsでの統計関数
• @c--:cumulative distribution function(CDF)
• @d--:density function
• @q--:quantile( inverse CDF)
• @r--:random number generator
-----------------------------------• @cfdist(x,df1,df2),@qfdist(x,df1,df2) F分布
• @cnorm(x), @qnorm(p) 正規分布
• @ctdist(x,df), @qtdist(p,df) t分布
• Eviewsで,自由度(2,522)のF分布に従う変数の95%点を求
めるためには
scalar ff= @qfdist(0.95, 2, 522)
をコマンド行に打ち込む
Eviewsでの回帰分析
•
•
•
•
•
•
•
•
@coefs(i) : i番目の係数
@stderrs(i):
標準誤差
@tstats(i):
t値
@coefcov(I,j): i番目のj番目の係数の共分散
@f : F統計量
@se: standard error of the regression
@ssr: 残差平方和
@regobs: 回帰分析でのオブザベーション数