Transcript Document
ノンパラメトリックベイズ
モデルの複雑さが不明な場合
これまでに説明してきたK-means、EM、変分ベイズなどは、
モデルの複雑さ、たとえばクラスタリングにおけるクラスタ数
は予め分かっているとしてモデル推定した。
しかし、実際はクラスタ数が不明の場合が多い。
ノンパラメトリックとは
観測データに応じてモデル自体の複雑さも学
習する
クラスタリングの場合は、クラスタ数が予め分かっ
ていない場合。観測データに適したクラスタ数も
推定
データから学習するということの直観
K
px | , k N x | k
( NP1)
k 1
有限個の正規分布を配分比πkでの混合モデル:式(NP1)
クラスタ数Kの値を観測データから最適化することによっ
て推定する。
基本的アイデア:無限次元の連続分布から観測データ
に適応した有限次元の離散分布を学習する。
無限次元からサンプリングして
有限次元へ
G0
px | , k N x | k
( NP2)
k 1
K
px | , k N x | k
( NP1)
k 1
基底測度という連続の確率分布G0から無限次元の
離散基底分布(NP2)で近似し、そこから有限次元の
離散分布G(NP1) を推定する。
連続ドメインの基
底測度 G0
連続ドメインの基底
測度を
可算無限次元の
離散分布 (NP2)
で近似して事前分布
とする。
有限次元離散分布
(NP1)
観測データから推
定
この密度は、G0の
密度分布に比例
Chinese Restaurant Process
観測データが到着するごとに無限次分布NP2からクラ
スタを生成していくにあたって、以下の2者択一
新しく生成 G0 に近い
既にあるクラスタに追加 観測データへの追従性
これによって、 G0 に観測データを組み合わせた事
後分布を得る
Chinese Restaurant Process
G0への近さを表すパラメターを集中度パラメター
(concentration papameter)
α0
イメージは次のスライドを参照
とする。
NP2(G0)
θ1
Z1
θ1
1
0 1
1のテーブル
につく確率
θ2
0
0 1
残ったテーブルのうちの一つにつく確率(ただし、
次の候補のテーブルはθ2に決まっているとす
る。)
….
G0
θ1
Z2
θ2
Z3
Z1
θ1
1
0 1
2
0 2
テーブル
につく確率
2
0 3
θ2
θ3
0
0 1
0
0 2
1
0 3
0
0 3
….
N+1人目が k のテーブルに着く確率p(ZN+1= k|Z1,…,ZN)
N人目までに着席したテーブル数 K
テーブルkに着席した人数をnkとすると
nk
N
p Z N 1 k | Z1 ,..., Z N 0
0
0 N
k 1,..., K
k K 1
α0が大きいほど、無限次元の分布G0に近い
α0が小さいほど、観測データに追従した
事後分布となる
テーブルをクラスタとみなすと、着席しているテー
ブルの数が観測データから推定されたクラスタ数
[Ferguson,1973]
基底測度G0においてドメインΩ=[0,1]上の分割
の確率測度:G(Ai)
A1 A2
0
θ1
A3
θ2
θ3
分割Aiをどのように作るか
はまだ分かっていない
A4 ……….
θ4 ……….
1
(G A1 , G A2 ,, G AK ) ~ Dir 0G0 A1 , 0G0 A2 ,, 0G0 AK
G ~ DP ( 0 , G0 )
~G
K
G ixi 1 ,
1,.., K
i 1
xi 0G0 Ai
A ~ B は、Bという生成過程でパラメター
を用いてAという分布が生成されるという意味
α0G0(Ai)に比例
する回数の
samplingによっ
て離散分布化し
xiを得る
xiを用いて、ディリ
クレ分布の確率変
数θiの値を得る
10
DPの構成定理
は
[Sethuraman,1994]
分割Aiに対応する配分比πi
を用いて
G
と構成可能
πi
配分比πi は次に述べる
Stick-breaking Processで実現可能
θi
11
Stick-breaking Process
• 長さ1の棒(stick)の切断(breaking)
V1
1-V1
π1
V2
π2=V2(1-V1)
π1
π2
1-V2
V3 1-V3
π3
π3=V3(1-V1)(1-V2)
θ2 θ3
θ1
Beta(1,α)
a b a 1
Beta | a, b
1 b1
a b
a b a 1 b1
Dirichlet 1 , 2 | a, b
1 2
a b
1 2 1
Beta | 1,
1
1 1
1
連続ドメインの基
底測度 G0
連続ドメインの基底
測度を
可算無限次元の
離散分布 G
で近似して事前分布
とする。
有限次元離散分布
観測データから推
定
この密度は、G0の
密度分布に比例
この高さはStickBreaking した棒の
長さ
while 収束するまで以下を繰り返す do
for n in randperm (1, ・ ・ ・ ,N) do
Xn をクラスタ(古い)Zn から削除してパラメータを更新
Zn ∼ p(Zn|X, Z−i) をサンプル(新しいZn)
Xn をクラスタZn に追加してパラメータを更新
end for
end while
Z1, ・ ・ ・ , ZN を出力
ギブスサンプリングによるznの推定.
randperm (x) はx のランダムな並び換えを表す.
Dirichlet 分布の事後分布
Multinomial分布
πの事前分布は
Dirichlet分布
| xi ~Dir '1 ,..., ' K
N
i 1
0 i ni
'i
0 N
ni は観測データにおけるiの出現回数
16
Dirichlet 分布の事後予測分布
17
Dirichlet Processの事後予測分布
[Blackwell and MacQueen,1973]
新たにサンプリングされる確率
既存のθが選ばれる確率
18
離散有限次元
ドメイン
μ
連続無限次元
ドメイン
θ
x1 x2 x3
π
π
K
G ixi 1
i 1
x1 x2 x3
x
~Dir 0 ,
1 ,..., K
K
x~Multi ixi
i 1
x x1 ,..., xK
θ
G~DP 0 , G0
~G
G~DP 0 , G0
~G
x~P x |
θ
θ
G~DP 0 , G0
x
~G
Dirichlet 混合過程
ixi 1
ixi
●このようにして得たθ
は事前分布。
●Xは観測データからサ
ンプルして、θなどのパ
ラメターの推定を収束す
るまで繰り返す(ex.
Gibbs Sampling)
●しかし、観測データを
考慮して事後分布にす
る推論方法はまだ分か
らない
そこでStick Breaking
クラスタkの
配分比
θ
xn
配分比に
従って潜在
変数:クラス
タZnをサン
プル
事前分布θkとサ
ンプルされたクラ
スタZnに対応す
るデータXnをサ
ンプル
Vk
θk
Zn
連続無限次元の基
底測度G0からサン
プルして事前分布
として可算無限の
離散分布を表すθk
を生成
xn
∞
Dirichlet 過程
Chinese Restaurant Process や混合正規分布の混合比:
πi (i=1,…∞)は、離散分布
離散分布で一般的なMultinomial あるいはその事前分布の
Dirichlet分布で考えていく。
Mult m1 , m2 ,.., mK | μ, N
N
K mk
k
m1m2 ..mK k 1
Emk N k
var mk N k 1 k
cov m j mk N j k
K
ただし、
i 1
k
1
1
μ
K
K
k 1
k
1
α
K
0 k 1
1
1 K K k 1
Dir |
k
1 K k 1
E k
k
1 K
参考文献
[1]Sethuraman. A Constrauctive Definition of
Dirichlet Prior. Statistica Sinica (4), 639650. 1994
[2]持橋大地. 最近のベイズ理論の進展と応用
(III) ノンパラメトリックベイズ. 電子情報通信
学会論文誌 (to be published)