Transcript ecnmtrcs04

回帰分析
重回帰(1)
項目
• 重回帰モデルの前提
• 最小二乗推定量の性質
– 仮説検定(単一の制約)
– 決定係数
• Eviewsでの回帰分析の実際
• 非線形効果
• ダミー変数
– 定数項ダミー
– 傾きのダミー
– 3つ以上のカテゴリー
重回帰モデル
multiple regression model
• 説明変数が2個以上
y    1x1  2 x2   k xk  u
y
i 
xi
他の説明変数を一定に保ってお
いて,xi だけを1単位増加させた
ときに y が何単位増えるか
他の要因をコントロールした xi 固
有の影響
重回帰モデル
前提
yi    1 x1i  2 x2i   k xki  ui
1.
2.
3.
4.
5.
線型モデル(パラメータに関し)
誤差項の期待値は0
誤差項は互いに独立
誤差項の分散は一定(分散均一性)
誤差項は正規分布に従う
– BLUEの成立のためにはこの条件は不要
最小二乗法
• 残差平方和を最小にするようにパラメータを決定
– a,b1,b2,..,bk : 未知パラメータ ,1,2,..k の推定値
– ei : 残差
n
S (a, b1 , b2 ,..,bk )   ei
2
i 1
n
   yi  a  b1 x1i  b2 x2i    bk xki 
i 1
2
最小二乗推定量
E (b j )   j
var(b j )   2 a jj 
2
S xxj
Sxxj : 説明変数 xj の平方和
(xj を他の説明変数に回帰し
たときの残差の平方和)
誤差項の分散の推定量
n
1
1
2
2
s 
RSS 
ei

n  (k  1)
n  (k  1) i 1
SER (standard error of the regression)
k+1は説明変数の個数(定
数項とx)
仮説の検定
H0: j=j0
b
 S xx
2
bj   j0
s.e.(b j )

j
~ N 0,1
bj   j0
s 2 S xx
j
~ t n  (k  1) 
k+1は説明変数の個数(定数項とx)
当てはまりの良さ
• TSS=ESS+RSS
説明変数の数kを増やしてい
けば,R2は単調に増加する
決定係数
ESS
RSS
R 
 1
TSS
TSS
2
自由度修正済み決定係数
adjusted R2
説明変数の増加にペナル
ティーを課すように修正したR2
2
RSS
/(
n

k

1
)
s
R 2  1
 1
TSS /(n  1)
TSS /(n  1)
単回帰での結果 wage1.raw
重回帰での結果
16
12
12
8
8
RESID
16
4
4
0
0
-4
-4
-8
-8
0
4
8
12
0
16
4
8
12
16
20
EDUC
WAGEHAT
16
16
12
12
8
8
RESID
-4
RESID
RESID
重回帰での結果(2)
4
4
0
0
-4
-4
-8
-8
0
10
20
30
EXPER
40
50
60
0
10
20
30
TENURE
40
50
被説明変数をln(wage)にした場合
ここをクリックすると,
Representation
Estimation output
Coefficient Diagnostics
Residual Diagnostics
などのメニューが表れる
(この画面はEstimation
Output)
• Educが1年増加する
と賃金は9.2%上昇
• Experが1年増加す
ると賃金は0.4%増
加
• Tenureが1年増加す
ると賃金は2.2%増
加
1.5
1.5
1.0
1.0
0.5
0.5
0.0
RESID
-0.5
-0.5
-1.0
-1.0
-1.5
-1.5
-2.0
-2.0
-2.5
-2.5
0.4
0.8
1.2
1.6
2.0
2.4
0
2.8
4
8
12
16
20
EDUC
LWAGEHAT
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
RESID
RESID
RESID
0.0
-0.5
-0.5
-1.0
-1.0
-1.5
-1.5
-2.0
-2.0
-2.5
-2.5
0
10
20
30
TENURE
40
50
0
10
20
30
EXPER
40
50
60
非線形効果
説明変数xの2次の項を説明変数として加える
y  a  b1x  b2 x2  b3 z  e
係数の意味
y
 b1  2b2 x
x
xが1単位増加したときyに与える効果
xの水準に依存する
係数の意味の直感的な把握の仕方
• b1,b2の値をもとに xが与えられた場合の ∂y/∂x の大きさを計算する(Excelの活用)
• Eviewsの中では,例えば,xが平均値をとる場合の効果についてはコマンドラインで
scalar dydx = @coefs(i) + @coefs(i+1)* @mean(x)
とするとスカラー変数 dydxが作成される(@coefs(i) 直前の回帰のi番目の係数(xの係
数:定数項は1番目とする), @coefs(i+1): x^2の係数,@mean(x) 変数xの平均値)
tenureの2乗項を加えた回帰
Eviewsでの回帰分析の統計量
• スカラー変数
@regobs オブザベーション数,@f F統計量,@ssr 残差平方和
その他 @aic, @coefs(i), @stderrs(i), @tstats(i), @dw, @r2,
@rbar2
• ベクトル変数
@coefs 係数ベクトル @coefs(i) でi番目の説明変数の係数(定数項
が1番目),@stderrs 係数の標準誤差,@tstats t値
コマンド行で
scalar var1 = @ssr
vector var2 = @coefs
とタイプするとvar1やvar2@ssr, @coefsの中身が保存される
問題(1)
• ln(wage)を被説明変数にし,educ, exper, tenure,
tenureの2乗を説明変数にして回帰分析を行え。
– wage1.rawのデータを用いる
• tenureの範囲を調べよ。
• tenureが1年増加したとき,wageは何%増加するか
– tenure=0, 5, 10, 20, 30, 40のそれぞれの場合について
• 上の回帰分析の係数の値を用い,tenureとwageの
関係をグラフで表せ。
• educの2乗を説明変数に加えるとどうなるか。
ダミー変数
• 質を表す変数
– 女性ならば1,そうでなければ0
– 結婚していれば1.そうでなければ0
– 大学卒ならば1,そうでなければ0
• educ, wage, experはこれに対し連続変数
• 一般に,0または1をとるような変数をダミー変
数と呼ぶ
ダミー変数(2)
• 定数項ダミー
• 傾きに関するダミー
• 3つ以上のカテゴリーを持つ変数の場合
– 学歴
• 中卒または高校中退
• 高卒,大卒未満
• 大卒以上
– 職業
•
•
•
•
事務職
研究職
営業
現場
定数項ダミー
ln(wage)
ln(wage)  a  b1  female b2  educ
female=0の場合
ln(wage)  a  b2  educ
b2
a
female=1の場合
ln(wage)  a  b1  b2  educ
b2
図はb1<0の場合
a+b1
educ
傾きのダミー
ln(wage)  a  b1  female b2  educ b3   female educ
ln(wage)
female=0の場合
ln(wage)  a  b2  educ
female=1の場合
b2
ln(wage)  a  b1  (b2  b3 )  educ
a
a+b1
b2+b3
図はb1<0,b3>0の場合
educ
問題 (2)
• femaleダミー変数を説明変数に加えた回帰を
行え
– 被説明変数 ln(wage)
– 説明変数 educ, exper, tenure, female
• 賃金の男女格差は存在するか
• 学歴の効果に男女格差が存在するか
– educ とfemaleの交差項を作成する
• exper, tenureの効果に男女格差が存在する
か
問題 (3)
• 次の回帰を行う
• 被説明変数 ln(wage)
• 説明変数 educ, tenure, exper, female,
female*educ, female*tenure, female*exper
• 男女別に回帰分析を行う
– EViewsのメニューでsampleを選択 If condition..のボ
ックスに条件式を記入
– female=0 とすれば男性のみ,female = 1 とすれば女性
のみ; 戻すときはsample で条件式を消す
– 説明変数を educ, tenure, exper として回帰
– ダミー変数を用いた回帰と結果を比較せよ。
3つ以上のカテゴリー
中卒
高卒
大卒
D1
0
1
0
D2
0
0
1
• 例)学歴
– 中卒, 高卒(短大卒を含む), 大卒 の3つのカテゴリー
• この場合,2つのダミー変数をつくる
–
–
–
–
–
中卒をベースにした効果
D1: 中卒とした比較した高卒の効果
D2: 中卒と比較した大卒の効果
高卒と大卒の比較は?
3つダミー変数を作るとどうなるか?
• N種類のカテゴリー  N-1 個のダミー変数
問題(4)
• 結婚ダミーが賃金に与える影響を調べよ
– married(結婚していれば1)
• 結婚が賃金に与える影響は男女間で異なるかもしれない
– 結婚×男女 の組み合わせで4通り
– married と female のそれぞれの組合せの観測度数を調べよ
• 二つの変数(married と female)を選択して,グループとして開く
• Menuから View/N way tabulation クロス集計票
– 被説明変数 ln(wage), 説明変数 female, married, female*married,
+ educ, exper, tenure として回帰
– female*married  適当な名前で新しい変数を作る
– female, married, female*married の係数の意味は
– 定数項の大きさは?
• 男性既婚,男性独身,女性既婚,女性独身
問題(5)
• 教育年数の影響は,連続変数で捉えるのではなく,学歴
別に調べた方がよいかもしれない
• 教育年数の分布を調べよ
• 教育年数から次のような学歴ダミー変数を作れ
• 高卒未満 ( educ < 12)
• 高卒以上 大卒未満 (12 <= educ <16)
• 大卒 以上 (16 <= educ)
• 次の回帰分析を行え
– 被説明変数:ln(wage),説明変数:学歴ダミー,その他の
変数 (exper, tenure, female)
変数の作成方法
メニューの Genr ボタンをクリック新変数を作成する画面で次
のように記述
ED1 = (educ<16) and (educ>=12)
ED2 = (educ>=16)
ED1は高卒ダミー,ED2は大卒ダミー(中卒がベース)
(educ<16)等は論理式
( ) の中が真なら1,偽なら0
and / or
ED1は educが12年以上かつ16年未満の時に限り1,それ以
外は0。
ED2はeducが16年以上の時に限り1,それ以外は0。