回帰分析入門

Download Report

Transcript 回帰分析入門

第5章 回帰分析入門
統計学 2010年度
Ⅰ 経済の統計的分析
a)
b)
c)
経済学における統計学の役割
相関関係と因果関係
計量経済分析とは
Ⅱ 記述統計としての回帰分析
a)
回帰係数の導出
1) 最小2乗法
2) 予測値と残差
b)
決定係数
Ⅲ 回帰分析の統計的推論
a)
b)
c)
撹乱項
回帰係数の区間推定
回帰係数の有意性検定
Ⅳ 重回帰分析入門
a)
b)
c)
d)
重回帰分析とは
3変数(説明変数が2つ)の場合の重回帰モデル
自由度修正済み決定係数
仮説検定
Ⅰ 経済の統計的分析
a) 経済学における統計学の役割
経済学における統計学の果たす役割としては主に2つある。
• 統計データによる現実経済の理解
– 各世帯の貯蓄額をヒストグラムであらわす
– 失業率の誤差がどの程度か考える
– 目標精度にあわせた標本調査の設計
• 経済理論の検証
– 経済理論における因果関係の分析
記述統計、推測統計ともに経済学に貢献をしている。
b) 相関関係と因果関係
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
所得(X ) 消費(Y)
212
173
217
181
223
187
228
192
234
198
243
205
248
214
259
225
271
236
280
246
290
252
296
257
300
260
306
265
314
271
322
279
320
280
321
278
(単位: 兆円)
データ出典: 内閣府経済社
会研究所『国民経済計算』
左の表は日本の実質家計可処分所得
(所得(X)と記述)と、実質家計最終消
費支出 (消費(Y)と記述)の、1981年か
ら1998年までのデータである。
このデータを横軸に所得、縦軸に消費
をとった散布図であらわすと、下の図
のようになる。
所得と消費
300
280
260
消費
年
240
220
200
180
160
200
220
240
260
280
所得
300
320
340
<参考> 「第1章 記述統計の復習」より
正の相関(r>0)
負の相関(r<0)
•Xが大きな値をとる
ほど、Yも大きな値を
とる。
•Xが大きな値をとる
ほど、Yは小さな値を
とる。
無相関(r=0)
•Xの値とYの値に一
定の傾向がみられな
い。
所得と消費の散布図を見ると、「所得と消費の間には正の相関があ
る」といえる。
– 所得が多くなれば、消費も多くなる。
– 所得が少なくなれば、消費も少なくなる。
• 所得と消費の関係は相関関係だけではなく、所得を原因、消費を結
果とする因果関係が成り立っている。
• 因果関係
– 一方が原因となって、もう一方が結果となる関係。原因と結果を
反対にすることはできない。
(例)所得が高い(原因)⇒消費が多い(結果)
相関関係
因果関係
※ 風が吹くと桶屋が儲かる
風が吹くと砂ぼこりが立つ
→ 砂ぼこりで目を痛めて失明する人が増える
→ 失明した人はよく三味線を弾くのでその需要が増える
→ 三味線には猫の皮を張るので猫が捕獲されて数が減る
→ するとねずみが増えるので桶がたくさんかじられる
→ だから桶屋が儲かる
いくつもの因果関係が連鎖したもの。
最終的には
風が吹く(原因) ⇒ 桶屋が儲かる(結果)
となる。
c) 計量経済分析とは
• 経済理論はこのような因果関係の積み重ねである。
(例) 「利子率を下げると消費が拡大し、需要が喚起される」
このような論理の積み重ねによって、経済の現状把握・予測
をおこなうことを定性的分析という。
• これから一歩踏み込んで、
「利子率を○%下げると消費が拡大し、○○円程度の需要が喚起される」
というように、数量的な把握をするものが定量的分析である。
• このような定量的分析をおこなうために、統計データが用い
られる。
(例) 風速○メートルの風が吹けば、失明する人が○人増えて (中略)
桶屋が○○円儲かる。
• 統計データを用いた定量的分析のことを、計量分析という。
経済分析における計量分析が計量経済分析である。
• 計量経済分析をおこなうことによって、経済理論が現実経済
に合致しているかどうかのチェックをおこなうことができる。
• 因果関係の定量的分析には回帰分析という統計手法がよく
用いられる。
Ⅱ 記述統計としての回帰分析
a) 回帰係数の導出
1) 最小2乗法
•
Xが原因で、Yが結果であるという因果関係が成り立っている場合、数
式の形(回帰モデルという)で表し、分析をおこなう。
• 回帰モデルの例
(どのような式が最適かは、散布図や経済理論などから総合的に判断される)
Y=a+bX2
Y=a+bX
3
2.5
2
1.5
1
0.5
Xを独立変数(説明変数)とよび、Yを従属変数(被説明変数)とよぶ。
20
18
16
14
12
10
8
6
4
X
2
20
18
16
14
12
8
10
6
4
0
2
0
20
18
16
14
12
10
8
6
4
X
Y=5/(X+2)のグラフ
Y
900
800
700
600
500
400
300
200
100
0
2
50
45
40
35
30
25
20
15
10
5
0
0
Y=5+2X 2のグラフ
Y
0
Y=5+2Xのグラフ
Y
Y=a/(X+b)
X
• 回帰係数の推定値は最小2乗法という方法で求めることがで
きる。
• 最小2乗法はデータの各点と直線との距離(これを残差とい
う)の2乗和が最小となるように直線を引く方法である。
11
10
9
推定値は次のような式
で求められる。
n XY   X  Y
bˆ 
n X  ( X )
 ( X  X )(Y  Y )

(X  X )
 X  Y   X  XY
aˆ 
n X  ( X )
2
8
7
2
2
6
2
5
2
4
3
6
9
12
15
 Y  bˆX
2
2) 予測値と残差
• あるXに対応する直線上の点を予測値(または理論値)といい、
Yˆ であらわす。
• 予測値は、すべてのデータが推定された回帰直線上にある
とした場合に、あるXに対応したYの値であり、データとして現
有していないXに対するYの値の予測となる。
11
Y
Yˆ
残差はYから Yˆ を引い
たものである。
10
9
8
7
6
5
4
3
6
9
12
15
• 所得と消費の例ではY=a+bXという線形のモデルを考える。
このモデルはケインズ型消費関数といわれるモデルである。
回帰係数の推定値は
所得と消費
bˆ  0.945
aˆ  23.21
280
260
消費
となる。
1981年のXは212なので、
-23.21+0.945×212=177.13
が予測値となる。
残差は
173 - 177.13 = -4.13
である。
300
240
220
Y=-23.21+0.945X
200
180
160
200
220
240
260
280
所得
300
320
340
b) 決定係数
• 決定係数は回帰モデルのあてはまり具合を示す尺度である。
次のような数値例を考えてみよう。
例1
X
例2
X
Y
10
8
13
9
11
14
6
4
12
7
5
8.1
7.1
9.5
7.5
8.4
10
6
5
9
6.4
5.5
Y
10
8
13
9
11
14
6
4
12
7
5
9.3
8.3
8.2
7.5
7.1
10.7
6.7
5.7
9.7
5.1
4.2
• この2つの例に回帰分析を適用すると、ともにY=3+0.5X とい
う回帰直線が導出される。ところで、散布図に回帰直線を書き
入れたものが下図である。
11
11
10
10
9
9
8
8
7
7
6
6
5
5
4
3
6
9
12
15
4
3
6
9
12
15
• この2つの図を比べると、データに対する回帰直線のあては
まりが異なることがわかる。それを数値で表したものが決定
係数R2であり、左はR2=0.998、右はR2=0.685である。
• 決定係数は、
R2 
回帰によって説明され る変動
Yの全変動
と解釈することができ、0と1の間の値をとる。決定係数が1に
近いほど回帰直線のあてはまりはよく、決定係数の値が小さ
い場合(0.5とか0.6以下の場合)には、分析の妥当性を検討す
る必要がある。
• 具体的には、すべての点のYの平均の線を引き、各点と平均
の差の2乗和と、回帰直線上の点(予測値)と平均の差の2乗
和の比をとったものである。
11
10
9
8
7
6
5
4
3
6
9
12
15
— Yの平均の線
} 各点と平均の差、これの2乗和がY
の全変動となる。
{ 回帰直線上の点(予測値)と平均の
差、この2乗和が回帰によって説明さ
れる変動となる。
この2つの比が決定係数R2となる。
決定係数の式は次のようになる。
R
2
(Yˆ  Y )


 (Y  Y )
2
2
※ 分散分析との関係
• 家電のチェーン大手4社の、ある夏のエアコンの価格は下の表のように
なった。
(単位: 万円)
A
B
C
D
7.1
7.2
7.5
7.0
7.5
7.7
7.8
7.3
7.4
7.3
7.4
7.0
7.7
7.8
7.9
7.4
7.8
7.7
7.8
7.5
7.0
7.1
7.3
6.9
7.5
7.6
7.8
7.3
7.7
7.6
7.5
7.4
このデータには分散分析を適用することができるが、それは下式のよう
な線形モデルで表現できる。
Yij    ai   ij
↑
↑
全平均 グループ平均と全平均の差
• 一方、回帰分析は
Yi  a  bXi   i
となっており、a  bX i の部分が、X i に対応して、X との差となる。
Ⅲ 回帰分析における統計的推論
母集団(個体数 N)
標本(個体数 n)
× ×
×
×
×
× ×
× ×
× × ×
Y=a+bX
真の回帰関係
推論
Yˆ aˆ ˆb X
推定された回帰式
a) 撹乱項
• 所得と消費などの2つの経済変数の動きを考えると、完
全に直線の形で表されることはまれであり、実際の値を
表した点と直線との間にズレが生じる。
• 理由としては
– 説明変数以外の他の要因が考えられる。
– 人間の行動は理論どおりにいかない。
– 測定誤差の問題。
などが考えられる。
• これらのさまざまな理由を全て吸収したものを u という確
率変数で表して、Y = a + bX + u というモデルを考える。
• このuのことを撹乱項(または誤差項)とよぶ。
• YとXのデータの組み合わせが1,2,…,n 個あったとする。
• 撹乱項は、あるXに対する直線上の値と、実際のYの値
とのズレを確率変数としてあらわしたものである。
• 撹乱項もu1,u2,…,unというように、各X1,X2,…,Xnに対して
存在する。
• 撹乱項の性質として
–
–
–
–
その分布が正規分布
平均値がゼロ
分散がσ2
撹乱項は相互に独立
un
u2
u1
という仮定がおかれる。
X1
X2
Xn
Y
推定された回帰式(その2)
真の回帰式 Y=a+bX
×
残差
推定された回帰式(その1)
残差=撹乱項の実現値の推定値
X
真の回帰直線と推定された回帰直線
(仮説例による)
280
240
200
160
120
真の回帰直線
推定された回帰直線
80
100
150
200
250
300
b) 回帰係数の区間推定
各点における残差を ei  Yi  Yˆi
とし、
e12    en2
s 
n2
2
(誤差項uiの分散σ2の
不偏推定量)
を考えると、
t
bˆ  b
s 2 ( x12    xn2 )
が自由度n-2のt分布にしたがう。
よって、回帰係数bを信頼係数95%で区間推定すると、信頼区間は
(bˆ  t0.95
2
s2
s
, bˆ  t0.95
)
2
2
2
2
( x1    xn )
( x1    xn )
となる。
(ここで、t0.95は自由度n-2のt分布の95%点)
c) 回帰係数の有意性検定
• 回帰係数の推定値 aˆ , bˆ は、最小2乗法によって求めるこ
とは、計算式に当てはめれば簡単に求めることができる。
• しかし、定数項や説明変数が回帰式の中で本当に意味
を持つものであるかどうか、検定する必要がある。
• 良くおこなわれる検定は次の2つである。
1 H0: a=0 vs. H1: a≠0 の検定
定数項が0であるかどうかの検定。
H0が成り立つとき、X=0の時のYは0となる。この場合、回帰線
は原点を通る。
消費関数でH0が成り立てば、所得が0の時の消費は0となる。こ
の検定は経済理論の検証の場合が多い。
2 H0: b=0 vs. H1: b≠0 の検定
Y=a+bXにおいてH0: b=0 が成立した場合、この回帰式はY=a
となる。
この式は、「Yの大きさはXの値にかかわらず一定値aをとる」と
いうことを表している。
回帰分析は、Xの大きさが大きくなることが原因となってYが大
きくなる(または小さくなる)ときに行う分析であるので、 H0が採
択された場合には、「この分析は行う意味がなかった」ということ
になってしまう。
Y
Y= a
a
X
• H0: b=0の検定について、
t
bˆ  b
s (x  x )
2
2
1
2
n

bˆ
s 2 ( x12    xn2 )
という統計量を考えると、tは自由度n-2のt分布にしたがう。
よって、
 t0.95  t  t0.95のとき、 H0を採択し、
t  t0.95または t  t0.95のとき、 H0を棄却する。
• またH0: a=0 の検定には
t
aˆ  a
1
X2
s (  2
)
2
n x1    xn
2
が自由度n-2のt分布にしたがうという性質を用いればよい。
※ p値
• Excelの分析ツールをはじめとする、回帰分析をおこなうソフ
トウエアでは、仮説検定の際にp値が表示される。
• p値は「その統計量が採択域と棄却域の境界値となる仮説
検定の有意水準」である。
Ⅳ 重回帰分析入門
a) 重回帰分析とは
所得と消費との間に、
Y(消費) = a + b X(所得)
↑
結果
↑
原因
という因果関係が存在することを、ケインズが提唱した。
これは、
消費額の大小は、所得の大小が原因となっている。
ということである。
(例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万
円の人のほうが多く使うことができる。
しかし、消費額の大小を決定する原因は所得だけでよいであろうか?
(例) 毎月のバイト代収入が5万円の人と、3万円の人では、一般的に5万
円の人のほうが多く使うことができる。
ここで、毎月のバイト代が5万円の人が2人いたとしよう。その2人のう
ち1人は貯蓄が0円、もう1人は100万円の貯蓄があったとする。
この2人の所得は等しい。なので、消費額は同じぐらいになるはずで
あるが、100万円の貯蓄がある人は、その貯蓄を崩して消費することも可
能である。
すなわち、消費額の大小は、所得だけでなく、資産(預貯金以外に、
株式などを含めたもの)の大小によって決定されるのではないであろう
か?
Y(消費) = a + b X(所得) + c W(資産)
↑
結果
↑
原因1
† このようなモデルはトービンによって提唱された
↑
原因2
•
説明変数が複数ある回帰モデルのことを重回帰モデルとい
い、重回帰モデルを用いた分析のことを重回帰分析という。
(説明変数が1つのモデルは単回帰モデル(または単純回帰モデル)と
いい、単回帰モデルを用いた分析のことを単回帰分析(または単純
回帰分析)という)
•
重回帰モデルは次のような式で表される。
1. Y = a + bX + cW + dZ + ・・・
2. Y = a + b1X1 + b2X2 + b3X3 + ・・・
(説明変数とその係数を添え字つきの変数で表したもの)
3. Y = b0 + b1X1 + b2X2 + b3X3 + ・・・
(上の式の定数の部分も添え字つきの表現をしたもの)
•
重回帰モデルの中には説明変数が多数のモデルもあるの
で、別々のアルファベットで表現するには不十分となり、添
え字つきの変数で表現されることがある。
b) 3変数(説明変数が2つ)の場合の重回帰モデル
Y
3変数の場合には回帰直線ではなく、
回帰平面になる。
W
×
×
×
この場合、最小2乗法は各点と回帰平
面との垂直方向の距離(これが残差)
の2乗和が最小になるように平面を描く
ことである。
×
回帰平面 Y=a+bX+cW
最小2乗法で求めた回帰平面の係数推
定値は次のようになる。
X
aˆ  Y  bˆX  cˆW
 ( X  X )(Y  Y ) (W  W )   ( X  X )(W  W ) (W  W )(Y  Y )
 ( X  X )  (W  W )  ( ( X  X )(W  W ))
 (W  W )(Y  Y ) ( X  X )   ( X  X )(W  W ) ( X  X )(Y  Y )
cˆ 
 ( X  X )  (W  W )  ( ( X  X )(W  W ))
bˆ 
2
2
2
2
2
2
2
2
c) 自由度修正済み決定係数
• 単回帰分析において、回帰モデルのあてはまり具合の尺度
として決定係数を紹介した。
• 重回帰分析においても、決定係数は回帰モデルのあてはま
り具合の尺度となる。
• しかし、決定係数には次のような欠点がある。
決定係数は、説明変数の数を増やせば増やすほど、
説明変数と被説明変数の間に因果関係が見られな
くても1に近づく
すなわち、Y(消費)=a+bX(所得)+cW というモデルの変
数Wに、全く関係ないデータ(たとえば、阪神タイガースの順
位のデータとか、交通事故死亡者数のデータとか)を用いて
も、単回帰モデルより決定係数が1に近づく。
• そこで、決定係数に説明変数の数を考慮して修正を加えた、
自由度修正済み決定係数が用いられる。
• 自由度修正済み決定係数は次のように定義される。
R 2  1
残差の分散
Yの分散
ただし、
e12    en2
残差の分散 
nk
k: 変数の数
(Y1  Y ) 2    (Yn  Y ) 2
Yの分散 
n 1
である。
• 自由度修正済み決定係数と決定係数には、次のような関係
がある。
R 2  1
n 1
(1  R 2 )
nk
• 自由度修正済み決定係数 R 2 は負の値をとることもある。
(例) n=4, k=3,R2=0.5 のとき
4 1
R  1
(1  0.5)  1  3  0.5  0.5
43
2
• 自由度修正済み決定係数は、説明変数の数が異なる複
数のモデルで、どちらのモデルが回帰のあてはまりが良
いかを判断するときなどに用いられる。
• たとえば消費関数において、
Y(消費)  a  bX(所得)
Y(消費)  a  bX(所得)  cW(資産)
のいずれのモデルが良いかを判断するためには、決定係
数ではなく、自由度修正済み決定係数が有効である。
d) 仮説検定
• 重回帰分析においても、個々の回帰係数についての仮説検
定をおこない、それぞれの変数が回帰モデルに含まれるべき
かどうかを検討する。
(Y=a+bX+cWというモデルであれば、 H0: b=0 vs. H1: b≠0 の検定と、
H0: c=0 vs. H1: c≠0 の検定をおこなう)
• 重回帰モデルの場合は、複数の回帰係数が同時に0である
という検定もおこなうことが可能である。
• すなわち、 H0: b=c=0 という検定仮説の検定である。(対立
仮説は簡単に表現できない。各自考えてみよ)
• この場合、検定統計量がF分布にしたがうので、それを用い
た検定をおこなう。