Transcript ppt

6.混合分布
『分布を混ぜる.』とはどんな考えだろうか?
例えば,血が混じる,混血とはどう違うのだろうか?
混合分布モデルの説明は意外と難しい.この困難さを乗り越
えて7章,8章で展開されるパタン認識の問題の理解の
ひとつの礎になることを目指す。
江口 真透
要論B 講義日程
12/18
12/19
12/20
12/21
1. Overview,ニューラルネット
(福水)
2. グラフィカルモデル
(土谷)
3. 主成分分析
(南)
4. 独立成分分析
(南)
5.射影追跡法、 層別逆回帰分析
(栗木)
6.混合分布
(江口)
7.サポートベクター,ロジスティック (江口)
8.Boosting
(福水)
混合分布
確率モデルとして,分布が混合されることのクリアな説明を試みる.
○ 潜在変量=グループ・ラベルの理解
○ 最尤推定値を求める EM アルゴリズムの紹介
○ 例題として,神経回路の量子解析のシナプス可塑性
サポートベクター
分類の問題を考えるとき,確率モデルを考える必要性をする.
確率モデルは混合分布モデルの類似性から導入する.
○ ベイズルールの最適性を示す.
○ パラメトリックモデル,特に線形モデルを仮定して,プラグインルールの説明をする.
このフレイムワークの下で ロジスティック判別は自然に導入されることを示す.
○ トレーニング・ロス,汎化誤差の説明をする.
○ サポートベクター・マシンの説明
○ VC次元の説明
○ カーネル法の説明
混合分布モデル
混合比
成分分布
混合分布
パラメーター
の次元は,d R + ( R-1) である。ここで d は の次元を表す.
分布を混ぜるって何?
1-成分
・
・
・・
r-成分
・
・
・
R-成分
次の設定で,正規分布を混ぜてみよう
パラメータの次元は 7
0.175
0.15
0.125
0.1
0.075
0.05
0.025
-6
-4
-2
1
24 412343344
2
2
3
4
6
4
8
前の設定で,2次元正規分布を混ぜてみよう
パラメータの次元は 11
0.06
0.04
0.02
5
0
0
-5
0
5
-5
0.06
0.04
5
0.02
0
0
-5
0
5
-5
混合分布モデル
混合比
成分分布
混合分布
ダミー(潜在)変数 Z の導入
x が与えられた時の Z = r の条件付密度は,
EMアルゴリズムはこの性質を利用して作られる.
最尤推定
パラメータ
データ
が得られたら
の最尤推定が実行できる
EM アルゴリズム
初期点:
E- ステップ:
M- ステップ:
, データ
2次元正規混合(ガウシアンミクスチヤ-)
2次元ガウス分布
n(x, μ,V ) 
1
d
2
2  det V 
1
2
 1

exp  x  μ T V 1 x  μ , (d  2)
 2

3成分ミクスチュアー分布
p(x,  )  p1n(x, μ1 ,V1 )  p2 n(x, μ 2 ,V2 )  p3n(x, μ3 ,V3 )
 p1   0.2 
   
 p2    0.3 
 p   0.5 
 3  




 μ1 ,V  


μ
,
V
 2 
 μ ,V  
 3 3 



1
  2
0
  2 ,

 
0
 1.98
0 , 
 
 0.36
 2 ,
1.25
2 
 1 .2
 





 0.36 


1 

1.2  
2.21 

0
1
0.08
0.08
0.08
0.06
0.06
0.06
0.04
4
0.02
2
0.04
4 0.04
0.02
0.02
0
2
0
0
-5
-2.5
2.5
2
0
0
-5
-2.5
-2
0
4
2.5
-4
-2.5
-2
0
0
-5
2.5
-4
5
-2
0
-4
5
5
0.08
0.08
0.06
5
0.04
0.02
2.5
0
0
-5
-2.5
0
5
-5
0.06
0.04
4
0.02
2
0
0
-5
-2.5
-2
0
2.5
-4
5
3成分ミクスチュアー
条件付き分布
1
1
1
0.75
0.75
0.5
4
0.25
0
2
0
-5
-2.5
-2
0
2.5
-4
5
0.75
0.5
0.5
0.25
0
2
0
-5
-2.5
-2
0
4
4 0.25
0
2
0
-5
-2.5
-2
0
2.5
2.5
-4
5
-4
5
4
2
-6
-4
-2
2
-2
-4
4
6
1
0.8
0.6
0.4
0.2
20
40
60
80
100
カーネル型密度推定
1
K h (x) 
h
x

f 
h
1
pˆ h ( x ) 
n
n

i 1
1
h

 x  xi
f
 h
1
f (t) 
d
2
 
h:バンド幅

,

(
exp 
( 2 ) det( S )
n
x i i 1
カーネル関数
1 T 1
t S t
2
)
~ p( x )
pˆ h (x )  p(x ) a.e. x
if
n  , h  0
2
1.5
4
1
0.5
2
0
0
-5
-2.5
-2
0
2.5
-4
5
カーネル型密度推定
1 n 1  x  xi 
pˆ h (x )   f 

n i1 h  h 
EMアルゴリズム
1.初期値




0  




2.条件付き確率
p ( Z  r | x, θ 0 ) 

を計算する




,





pr n(x, μ r ( 0) ,Vr (0) )
pr det(Vr

s

 0.33


 0.33


 0.34


pmix (x, θ0 )
1
( 0)  2
)
p s det(Vs









( r  1, 2, 3 )
1
( x  μ r ( 0) )Vr ( 0) 1 ( x  μ r ( 0) )
2
1
exp  ( x  μ s ( 0) )Vs ( 0) 1 ( x  μ s ( 0) )
2
(
exp 
1
( 0)  2
)
0
0
 
0
1
 
1
0
 
(
)
)
3
更新値
 p1(1)   μ1 ,V 

 (1)  
θ1   p2 ,  μ2 ,V 
 p3(1)   μ3 ,V3 



を
n

1
p( Z  r | x i , θ 0 )
 pr (1) 
n i 1


n
1

(1)
μ

x i p( Z  r | x i , θ 0 )

r
(1)
npr i 1


n
(1)
(1)
 V (1)  1
p
(
Z

r
|
x
,
θ
)
x

μ
x

μ
i 0
i
r
i
r
(1)
 r
npr i 1




4 反復
θ0  θ1


とおいて,ステップ2に戻る

T











計算する
0.1
0.075
0.05
0.025
0.08
0.06
0.04
0.02
0
4
2
0
0
-5
2
0
-5
-2.5
-2.5
-2
0
2.5
0.08
0.06
0.04
0.02
0
4
-2.5
2.5
-4
0
-5
-2
0
4
2
-4
-2
0
5
5
2.5
-4
5
反復数11
反復数1
0.08
0.06
0.04
0.02
0
0.08
0.06
0.04
0.02
0
4
2
0
-5
-2.5
2.5
4
2
0.08
0.06
0.04
0.02
0
0
-5
-2
0
反復数21
-2.5
2.5
5
0
-5
-2.5
-2
0
-4
4
2
-2
0
2.5
-4
5
反復数31
反復数41
0.075
-4
5
反復数51
0.1
0.05
4
0.025
2
0
0
-5
-2.5
-2
0
2.5
-4
5
反復数61
0.075
0.075
4
0.05
0.025
2
0
0.05
4
0.025
2
0
0
-5
-2.5
-2
0
2.5
-4
5
反復数71
0
-5
-2.5
-2
0
2.5
-4
5
反復数81
同時モデル
ミクスチュアーモデル
次元
スコア‐
-600
-500
-400
-300
-200
-100 0 100
共同研究
吉岡耕一氏 ( 東京医科歯科大学 )
シナプス
受容体
まんが
日経2000
『夢の技術展』@東京ビッグサイト
parallel fiber
Molecular
Layer
GABA
GABA
Basket
Cell
Granule
Cell
mossy fiber
b -agonists
5-HT
Glutamate
Purkinje Cell
Layer
Purkinje
Cell
Granular
Layer
climbing fiber
シナプチィック伝達の量子解析
p
N個
N
: 反応ユニットの総数
p
: 励起確率
q
: 量子反応サイズ
q
Nonparametric
Structural MLE (m=3.3, q=-53.1, sq2=54.5, sn2=103.0)
MPLE (R=9, l = 0.86; EDF = 6.1)
0.006
ACV
Components
1050
1045
1040
7
Density
0.005
8
9 10 11 12 13
R
0.004
0.003
0.002
0.001
0
0
-100
-200
-300
-400
-500
0
-100
-200
-300
-400
-500
Nonparametric
Structural MLE (m=3.3, q=-53.1, sq2=54.5, sn2=103.0)
MPLE (R=8, l = 0.72; EDF = 8.0)
ACV
Components
1050
0.006
1045
1040
7
Density
0.005
8
9 10 11 12 13
R
0.004
0.003
0.002
0.001
0
0
-100
-200
-300
-400
-500
0
-100
-200
-300
-400
-500
KLダイバージェンスの等高線
0
0.8
0.8
0.6
0.6
。
0
0.4
。
0.4
0.2
0.2
-1
-0.5

0
0.5
同時層別 D
(J)
1
-1
-0.5
0.5
 ミクスチュアー D
識別不能
 0
0
1
(M)
EMの収束性
Wuの十分条件 : レベル集合
{    :  ( M ) ( )  c} が任意の c に対してコンパクト集合
の非成立.
正規混合モデル
 r st s r 2  0
In M- ステップ:
MLE density
  0 1  2 

1 2 
 02
2
2
 s 0 s 1 s 2 
0.2
0.15
E
0.1
0.05
-2
2
4
6
8
( 0)
M
  0 1  2 

1 2 
 02
2
2
 s 0 s 1 s 2 
(1)
s 02
true 0.5
mle 0.06
参考文献
[1] D.M. Titterington, A.F.M. Smith, U.E. Makov,
STATISTICAL ANALYSIS OF FINITE MIXTURE
DISTRIBUTIONS (1995) Wiley.
ISBN 0471907634
[2] J.W. Kay, D.M. Titterington, Statistics and Neural
Networks (1999) Oxford University Press.
ISBN
0198524226
[3] G. J. McLachlan, T. Krishnan,
The EM Algorithm and (1997) Wiley.
ISBN 0471123587
ISBN
0471006262
混合分布
確率モデルとして,分布が混合されることのクリアな説明を試みる.
○ 潜在変量=属性ラベルの理解
○ 最尤推定値を求める EM アルゴリズムの紹介
○ 例題として,神経回路の量子解析のシナプス可塑性
混合分布 から
分類の問題へ