Transcript 報告資料
小暮研究会2
第1章 ベイズのアルゴリズム
・尤度の優位
・事後分布の収束
・事後分布のサンプリング
・BUGSでの実例
・2乗誤差損失
総合政策学部3年 織田昌吾
尤度の優位
これまで見てきた事後分布以外の特徴として、観測
数がパラメーター数より相対的に多く、事前分布がΘ
の関連部分に確率0を与えない時、事前分布にほと
んど依存しないということである。
データが蓄積させることによって、尤度が変化し、増
加する傾向にあるが、事前分布は変化しない。
2
例として、対数値 exp{ (1 / 2 )Σ( y i ) } を持つn
n
個の独立した正規(μ)変量、 (1 / 2 ) i 1 ( y i ) 2
に対する尤度を考える。
尤度の優位
追加的な観測値を加える時、尤度の増加分は負でも
2
(
1
/
2
)
(
y
)
0でもない
であり、ほとんどのμに対
i
しての対数尤度は、観測値が増えるにつれて大きな
負の値になる。ゆえに、大標本において尤度が
p ( ) 0 である限り、数値的に優位な項である。
*この例は、依存あるいは一様分布ではないデータの
場合に機能する。
尤度の優位 例1.16
事前分布における事後分布の弱従属性
ns
・ 尤度 s 1
を
持つベルヌーイ試行を考え、
自然共益なベータ分布の中
で事前分布を変化させた結果
a 1
b 1
p ( ) (1 )
を考える。
図1.7
ベルヌーイパラメーターに対する3つの事前分布
尤度の優位
図1.8
図1.9
3つの事後分布:n=5、s=2
3つの事後分布:n=20、s=8
尤度の優位 まとめ
異なる事前の考えが、かなり制限された量の証拠を
考えた時に、急速に大まかな同意をもたらしうること、
また多くのデータが利用できるほどその同意が完全
であることを示している。
全く異なるが教義的でない事前の信念を持つ2人の
個人が証拠の蓄積によって同意することになると言
う点で、合理的で科学的な問いの過程とよく似ている。
事後分布の収束
それでは、標本サイズが大きくなると事後分布はど
のように変化するであろうか。
カルバック・ライブラー情報量
p(x | s )
p x | t
dx 0 for all s t .
p(x |t
この式の積分は、2つの確率分布 p ( x | t ) と p ( x | s )
の相違を測るものであり、 t と異なる の値から生
じる全てのありうるデータの分布(尤度)が p ( x | t )
と異なると言うことである。
事後分布の収束 理論
理論
lim p ( t | x ) 1
n
事後分布における全ての場合はパラメータ空間
におけるただ一つの点に集中することになる。
この理論は、全く異なった初期の信念(考え)を持
つ個人が証拠の蓄積によって、どの程度最終的
な結論をもたらすかに関する精度を形成する。
事後分布の収束 証明
証明
事前分布を各
s に対して
p ( s | x ) p s
p(x | s )
p( x)
p s 0と取ると、事後密度
は
n
, for p ( x | s )
p ( xi | s )
i 1
p s { p ( x |θs p ( x | t )}
ここで、 S j log
j
p j { p ( x | j ) p ( x | t )}
ps S s}
exp{log
j
exp{log
p j S j}
p(x | j )
p(x |t )
n
log
i 1
p ( xi | j )
p ( xi | t )
事後分布の収束 証明
しかし、右辺は独立で
同一な分布に従う確率
であることを示すので
、大数の強法則から、
p(x | j )
0 if j t
p ( x | t ) log
dx p
(
x
|
)
0 if j t
t
Sj
lim
E
n n
n
もし n として
p ( s | x )の極限値を求めるため
を適用するなら、
exp{log
Sj
ることがわかる。
値になるからである。
変数 n の合計
にこの結果
p j S j }のような項はゼロに収
j t の時を除いて、
S jはより大きな負の
束す
事後分布のサンプリング
事後分布をとり、そこからθに関する実現値の集
合を書くとき、 p ( 1 , 2 | y ) から実現値をnrep
個生成するようにプログラムすると、結果はnrep
行とθに関する要素と同じくらい多くの行を持つ行
列となる。
11
21
12
22
13
23
1 , nrep
2 , nrep
事後分布のサンプリング
データが与えられた元で 1 の分布 p 1 | y を調べ
るために2行目を単純に無視する。
の分布関数を調べるためにこの関数を結果として
出来た行列の行に適用すると、確率変数 g の一
連の実現値となる。
独立であろうと無かろうと、大数の法則が適用され、
それは のnrep個の実現値の標本から、 g の
モーメントがnrep→∞として g の分布のモーメン
トに収束する。
例1.17 プロビットの再訪
平均が2変数 x 1 と x 2 に依存する2値データ y を考える。
E Y | x , x
ここで x 0 1 x1 2 x 2 である。ゆえに、 0 , 1 , 2 は3
次元パラメータである。例えば、 x 1 に関する Y 1 が x の
代替的な選択を評価したという確率の導関数に関する事後
分布を知りたいかもしれない。これは経済的に興味深いもの
であるかもしれないので、最もありそうな値かその期待値、も
しくはそれが負である可能性を知る必要がある。
プロビットの再訪
この場合、興味のあるパラメータは以下のようになる。
x
1 ( x )
x1
ここで必要とするのはその事後分布である。この分
布を求める現代的な方法は 0 , 1 , 2 の同時事後
分布をサンプリングし、次に3つの各実現値に対して、
普通はいくつかの興味あるベクトル x に対して
を計算することである。
BUGSでの実例
いくつかの人工データ
使って
を生成し、
0 , 1 , 2 に関する
成する。次に、それら
BUGS プログラムを
10,000 個の実現値の標本を生
の値を x ベクトル、例えば
x1 1,
x 2 1として
に対する式に代入した
データは、
n 50 , 0 0 , 1 0 . 5 , 2 0 . 5で生成された。
これを以下のようなプ
。
ログラムで記述する。
BUGSの実例
model
{f or(i
in 1:n){
y[i]~dbin(p[i],1)
mu[i]< -beta 0+beta1*x1[i]+be ta2*x 2[i]
p[i]<-phi(mu[i])}
beta0~dnorm(0,0.001)
beta1~dnorm(0,0.001)
beta2~dnorm(0,0.001) }
1~5行目は、尤度を与えるものである。
6~8行目はモデルに関する2つ目の要素を与え、こ
の場合以下で示されるβに対する事前分布である。
BUGSでの実例
これらは、βの3つの要素が平均0、標準偏差
1 0 . 001 31 を含むかなり低い精度を持つ独立し
た正規分布であることを示す。
y , x1 , x 2 の列値を含むデータ行列と、要求された実
現値の数、この場合nrep=10,000個を含む更なる
詳細を提供したあと、プログラムはβの3つの要素に
関する10,000個の実現値を含む出力行列を生み出
す。要素として、近似するために尤度と事前分布、
用意したデータに対応するβの同時事後分布からの
実現値を含んでいる。
BUGSでの実例
図1.10では 2 の周辺分布に関する実現値の分
布を与える。生成されたデータ 2 の値は 2 0 . 5
であった。プロット図は-0.22に集中している。 2 の
平均と中央値は共に-0.21であった。比較のため、
最尤推定値もまた-0.2であった。
各実現値の結論を述べるため、各10,000個の実現
値に対する x1 1, x 2 1 でのγの値を計算し、その分
布が図1.11で与えられる。連続確率における x 1
の影響が確実に正で確率0.17に集中していること
がわかる。
BUGSでの実例
図1.10
図1.11
決定
多くは、データを観測し、その後の事後分布に基づいて
決定をする。(→不確実性に合理的に対処するため)
例として、パラメータθを含むデータ y に対するモデル
を持っているとする。データを見たあとで、事後分布
p | y を得る。θについて1つの決定値 d に達すること
を要求される。この決定は、 d d yと表される。不確実
なパラメータが値θを取る時、 を決定するのに決定
d
理論アプローチは損失を与える損失関数 L d , の存在
を想定している。ベイズ決定は期待損失を最小にする。
dˆ arg . min
L d , p | y d for dˆ
例1.18 2乗誤差損失
損失関数が対称な形 L d , d (2乗誤差損
失)をとるとする。その時、 dˆ は事後平均 E | y である。
これを証明するため、期待損失は次式であることに注
意する。
2
L d , p
| y d
d p
2
| y d
d に関するわずかな違いが結果をもたらす。
応用として、例1.19がある。
例1.19
Y を0とθの間の一様分布とする。その密度関数は
fY y
1
,0 y
他の所は0である。デフォルトな(非正則)事前密度
p
1
n 1
, y max
ここで、 y max はn個の標本実現値の中で最も大きい値
である。
例1.19
前式は n 1 に対する事前密度のカーネルであり、
正規化定数を提供した後、以下のようになる。
p | y
n
ny max
n 1
, y max
2乗誤差損失のもとで、ベイズ決定は事後平均であ
る。積分をすると、n 1 に対して平均が存在し、以下
のようになる。
d y
n
n 1
y max
例1.19
したがって、2乗誤差損失のもとでのベイズ決定は、
データにおいて最も大きな観測値をとることやそれに
n n 1 をかける、すなわちわずかにそれを増加す
ること、そして結果として現れる数を報告することで
ある。
(参考として)
意思決定とベイズ推論に関する見通しを報告するこ
とは、計量経済学者が決定をするのではなく、エー
ジェントが決定をするので、ベイジアン計量経済学の
テキストにおいて強調されるべきである。
結論と要約
計量経済学に対するベイジアンアプローチは概念的
には簡単であり、最近では計算的にも容易である。ア
ルゴリズムに続いて、データと事前分布に対する条件
付き確率として理論を定式化しなければならない。こ
れは、 p y | p d p y 、つまりデータに対する確率
分布であるので、データが理論のように見えると考え
るものについて単に明言するに等しい。
結論と要約
次に、データを研究し、モデルが少なくとも大まかに証
拠と一致しているかどうかを調べ、一致していればモ
デルのパラメータについての見かたを修正する。デー
タがモデルのパラメータに一致していようがいまいが、
何かを学ぶであろう。