報告資料

Download Report

Transcript 報告資料

小暮研究会2

第1章 ベイズのアルゴリズム
・尤度の優位
・事後分布の収束
・事後分布のサンプリング
・BUGSでの実例
・2乗誤差損失
総合政策学部3年 織田昌吾
尤度の優位



これまで見てきた事後分布以外の特徴として、観測
数がパラメーター数より相対的に多く、事前分布がΘ
の関連部分に確率0を与えない時、事前分布にほと
んど依存しないということである。
データが蓄積させることによって、尤度が変化し、増
加する傾向にあるが、事前分布は変化しない。
2
例として、対数値 exp{  (1 / 2 )Σ( y i   ) } を持つn
n
個の独立した正規(μ)変量、  (1 / 2 )  i 1 ( y i   ) 2
に対する尤度を考える。
尤度の優位

追加的な観測値を加える時、尤度の増加分は負でも
2

(
1
/
2
)
(
y


)
0でもない
であり、ほとんどのμに対
 i
しての対数尤度は、観測値が増えるにつれて大きな
負の値になる。ゆえに、大標本において尤度が
p ( )  0 である限り、数値的に優位な項である。
*この例は、依存あるいは一様分布ではないデータの
場合に機能する。
尤度の優位 例1.16
事前分布における事後分布の弱従属性
ns
・ 尤度   s 1   
を
持つベルヌーイ試行を考え、
自然共益なベータ分布の中
で事前分布を変化させた結果
a 1
b 1
p ( )   (1   )
を考える。

図1.7
ベルヌーイパラメーターに対する3つの事前分布
尤度の優位
図1.8
図1.9
3つの事後分布:n=5、s=2
3つの事後分布:n=20、s=8
尤度の優位 まとめ


異なる事前の考えが、かなり制限された量の証拠を
考えた時に、急速に大まかな同意をもたらしうること、
また多くのデータが利用できるほどその同意が完全
であることを示している。
全く異なるが教義的でない事前の信念を持つ2人の
個人が証拠の蓄積によって同意することになると言
う点で、合理的で科学的な問いの過程とよく似ている。
事後分布の収束


それでは、標本サイズが大きくなると事後分布はど
のように変化するであろうか。
カルバック・ライブラー情報量

 p(x | s ) 
p  x |  t 
 dx  0  for all s  t .
 p(x |t 
この式の積分は、2つの確率分布 p ( x |  t ) と p ( x |  s )
の相違を測るものであり、  t と異なる  の値から生
じる全てのありうるデータの分布(尤度)が p ( x |  t )
と異なると言うことである。
事後分布の収束 理論

理論
lim p ( t | x )  1
n 
事後分布における全ての場合はパラメータ空間
におけるただ一つの点に集中することになる。

この理論は、全く異なった初期の信念(考え)を持
つ個人が証拠の蓄積によって、どの程度最終的
な結論をもたらすかに関する精度を形成する。
事後分布の収束 証明

証明
事前分布を各
 s   に対して
p ( s | x )  p s

p(x | s )
p( x)
p s  0と取ると、事後密度
は
n
, for p ( x |  s ) 

p ( xi |  s )
i 1
p s { p ( x |θs p ( x |  t )}


ここで、 S j  log
j
p j { p ( x |  j ) p ( x |  t )}
ps  S s}
exp{log

j
exp{log
p j  S j}
p(x | j )
p(x |t )
n

 log
i 1
p ( xi |  j )
p ( xi |  t )
事後分布の収束 証明
しかし、右辺は独立で
同一な分布に従う確率
であることを示すので
、大数の強法則から、
 p(x | j ) 
 0 if j  t
p ( x |  t ) log 

 dx  p
(
x
|

)
  0 if j  t
t 

Sj 

lim
 E 

n  n
n



もし n   として
p ( s | x )の極限値を求めるため
を適用するなら、
exp{log
Sj
ることがわかる。
値になるからである。
変数 n の合計
にこの結果
p j  S j }のような項はゼロに収
j  t の時を除いて、
S jはより大きな負の
束す
事後分布のサンプリング

事後分布をとり、そこからθに関する実現値の集
合を書くとき、 p ( 1 ,  2 | y ) から実現値をnrep
個生成するようにプログラムすると、結果はnrep
行とθに関する要素と同じくらい多くの行を持つ行
列となる。


11
21
 12
 22
 13
 23


 1 , nrep
 2 , nrep
事後分布のサンプリング



データが与えられた元で  1 の分布 p  1 | y  を調べ
るために2行目を単純に無視する。
 の分布関数を調べるためにこの関数を結果として
出来た行列の行に適用すると、確率変数 g   の一
連の実現値となる。
独立であろうと無かろうと、大数の法則が適用され、
それは  のnrep個の実現値の標本から、 g   の
モーメントがnrep→∞として g  の分布のモーメン
トに収束する。
例1.17 プロビットの再訪

平均が2変数 x 1 と x 2 に依存する2値データ y を考える。
E Y | x ,      x 


ここで x    0   1 x1   2 x 2 である。ゆえに、    0 ,  1 ,  2  は3
次元パラメータである。例えば、 x 1 に関する Y  1 が x の
代替的な選択を評価したという確率の導関数に関する事後
分布を知りたいかもしれない。これは経済的に興味深いもの
であるかもしれないので、最もありそうな値かその期待値、も
しくはそれが負である可能性を知る必要がある。
プロビットの再訪

この場合、興味のあるパラメータは以下のようになる。
 x 
 
  1 ( x  )
 x1

ここで必要とするのはその事後分布である。この分
布を求める現代的な方法は   0 ,  1 ,  2  の同時事後
分布をサンプリングし、次に3つの各実現値に対して、
普通はいくつかの興味あるベクトル x に対して 
を計算することである。
BUGSでの実例
いくつかの人工データ
使って
を生成し、
  0 ,  1 ,  2 に関する
成する。次に、それら
BUGS プログラムを
10,000 個の実現値の標本を生
の値を x ベクトル、例えば
x1  1,
x 2  1として
 に対する式に代入した
データは、
n  50 ,  0  0 ,  1  0 . 5 ,  2   0 . 5で生成された。
これを以下のようなプ
。
ログラムで記述する。
BUGSの実例
model
{f or(i
in 1:n){
y[i]~dbin(p[i],1)
mu[i]< -beta 0+beta1*x1[i]+be ta2*x 2[i]
p[i]<-phi(mu[i])}
beta0~dnorm(0,0.001)
beta1~dnorm(0,0.001)
beta2~dnorm(0,0.001) }
1~5行目は、尤度を与えるものである。
6~8行目はモデルに関する2つ目の要素を与え、こ
の場合以下で示されるβに対する事前分布である。
BUGSでの実例


これらは、βの3つの要素が平均0、標準偏差
1 0 . 001   31 を含むかなり低い精度を持つ独立し
た正規分布であることを示す。
y , x1 , x 2 の列値を含むデータ行列と、要求された実
現値の数、この場合nrep=10,000個を含む更なる
詳細を提供したあと、プログラムはβの3つの要素に
関する10,000個の実現値を含む出力行列を生み出
す。要素として、近似するために尤度と事前分布、
用意したデータに対応するβの同時事後分布からの
実現値を含んでいる。
BUGSでの実例


図1.10では  2 の周辺分布に関する実現値の分
布を与える。生成されたデータ  2 の値は  2   0 . 5
であった。プロット図は-0.22に集中している。  2 の
平均と中央値は共に-0.21であった。比較のため、
最尤推定値もまた-0.2であった。
各実現値の結論を述べるため、各10,000個の実現
値に対する x1  1, x 2  1 でのγの値を計算し、その分
布が図1.11で与えられる。連続確率における x 1
の影響が確実に正で確率0.17に集中していること
がわかる。
BUGSでの実例
図1.10
図1.11
決定


多くは、データを観測し、その後の事後分布に基づいて
決定をする。(→不確実性に合理的に対処するため)
例として、パラメータθを含むデータ y に対するモデル
を持っているとする。データを見たあとで、事後分布
p  | y  を得る。θについて1つの決定値 d に達すること

を要求される。この決定は、 d  d  yと表される。不確実
なパラメータが値θを取る時、 を決定するのに決定
d

理論アプローチは損失を与える損失関数 L  d , の存在
を想定している。ベイズ決定は期待損失を最小にする。
dˆ  arg . min

L  d ,   p  | y d  for dˆ  
例1.18 2乗誤差損失

損失関数が対称な形 L  d ,     d    (2乗誤差損
失)をとるとする。その時、 dˆ は事後平均 E  | y  である。
これを証明するため、期待損失は次式であることに注
意する。
2
 L  d ,   p 

| y d  
  d    p 
2

| y d 
d に関するわずかな違いが結果をもたらす。
応用として、例1.19がある。
例1.19

Y を0とθの間の一様分布とする。その密度関数は
fY  y  
1

,0  y 
他の所は0である。デフォルトな(非正則)事前密度
p   
1

n 1
,   y max
ここで、 y max はn個の標本実現値の中で最も大きい値
である。
例1.19

前式は n  1 に対する事前密度のカーネルであり、
正規化定数を提供した後、以下のようになる。
p  | y  

n
ny max

n 1
,   y max
2乗誤差損失のもとで、ベイズ決定は事後平均であ
る。積分をすると、n  1 に対して平均が存在し、以下
のようになる。
d y 
n
n 1
y max
例1.19


したがって、2乗誤差損失のもとでのベイズ決定は、
データにおいて最も大きな観測値をとることやそれに
n  n  1 をかける、すなわちわずかにそれを増加す
ること、そして結果として現れる数を報告することで
ある。
(参考として)
意思決定とベイズ推論に関する見通しを報告するこ
とは、計量経済学者が決定をするのではなく、エー
ジェントが決定をするので、ベイジアン計量経済学の
テキストにおいて強調されるべきである。
結論と要約

計量経済学に対するベイジアンアプローチは概念的
には簡単であり、最近では計算的にも容易である。ア
ルゴリズムに続いて、データと事前分布に対する条件
付き確率として理論を定式化しなければならない。こ
れは、  p  y |   p  d   p  y 、つまりデータに対する確率
分布であるので、データが理論のように見えると考え
るものについて単に明言するに等しい。
結論と要約

次に、データを研究し、モデルが少なくとも大まかに証
拠と一致しているかどうかを調べ、一致していればモ
デルのパラメータについての見かたを修正する。デー
タがモデルのパラメータに一致していようがいまいが、
何かを学ぶであろう。