Transcript Document

ベイジアンネットワーク概説
第3章 ベイジアンネットワークモデルの
数学的基礎
3.5 情報量基準を用いた構造学習
岩崎唯史
3.5.1 情報量基準
現象を説明する複数のモデルがあった場合、
どのモデルがよいか/選択すべきか?
→ 情報量基準を基に選択
(1) 期待対数尤度からのアプローチ
例:AIC、TIC、CAIC
(2) 予測分布からのベイズアプローチ
例:BIC、MDL、ABIC
3.5.1 情報量基準: 最大対数尤度利用 (1)
■ AIC (Akaike information criterion):
データとの適合度
(モデルのあてはめ誤差)
パラメータ数多のペナルティ
(モデルの複雑さ)
AIC m   2 l m ( m | X )  2 k m
 m:モデル
(3.8)
m のパラメータ
l m ( m | X :データ
)
ときの最大対
X を所与した
数尤度
k m:パラメータ数
※2は対数尤度比検定との兼ね合いから
最適なモデルとは → AICを最小にするモデル
(尤度大、パラメータ数少)
3.5.1 情報量基準: 最大対数尤度利用 (2)
■ TIC (Takeuchi information criterion):
パラメータ数多のペナルティ
をAICより精密に評価
TIC
m
  2 l m ( m | X )  tr { J
1
R}
(3.9)
2



J  E
l ( | X ) 
t m
  m  m

   l ( | X )    l ( | X )  t 
 m
 
R  E   m







 
m
m

 
※ J=Rのとき tr{J-1R}=km となりAICに一致
3.5.1 情報量基準: 最大対数尤度利用 (3)
-問題点-
AIC、TICは漸近的一致性(データ数N→∞で推
定値 m/θ→真の値 m*/θ*)が欠如
■ CAIC (consistent Akaike information criterion):
CAIC
m
  2 l m ( m | X )  k m (log N  1) (3.10)
パラメータ数多のペナルティ
はデータ数Nに依存
3.5.1 情報量基準: ベイズ的アプローチ (1)
ーベイズ的アプローチによる情報量基準ー
•最大対数尤度を介さない
•モデルの集合(ありうるモデルの集まり)を考える
モデルmに対し、(モデルの集合上の)事前分布
p(m)が与えられた場合の事後分布
p (m | X ) 
p (m ) p ( X | m )

m'
p (m ' ) p ( X | m ' )
予測分布: p ( X | m ) 

パラメータの重み
(事前分布)
p ( X |  m , m ) p ( m ) d  m
m
→ -E[log p(m|X)]最小のモデルを選択
3.5.1 情報量基準: ベイズ的アプローチ (2)
■ BIC (Bayesian information criterion):
BIC
m
  2 l m ( m | X )  k m (log N )
(3.11)
• 情報理論的アプローチからのMDL
(minimum description length)基準に一致
[事前分布(条件付確率)の積極的解釈]
• 漸近的一致性をもつ
3.5.2 数値例 (1)
癌転移
p ( X 2  1 | X 1  1)  0 . 8
1
p ( X 2  1 | X 1  0 )  0 .2
p ( X 1  1)  0 . 8
p ( X 3  1 | X 1  1)  0 . 8
p ( X 3  1 | X 1  0 )  0 .2
血清中のカルシ
2
ウム量の増加
3 脳腫瘍
p ( X 5  1 | X 3  1)  0 . 8
p ( X 4  1 | X 2  1, X 3  1)  0 . 8
p ( X 5  1 | X 3  0 )  0 .2
p ( X 4  1 | X 2  0 , X 3  1)  0 . 6
p ( X 4  1 | X 2  1, X 3  0 )  0 . 6
4
p ( X 4  1 | X 2  0 , X 3  0 )  0 .2
昏睡状態
5
激しい頭痛
図3.1 ベイジアンネットワークの因果モデル例
3.5.2 数値例 (2)
図3.1+表3.1でN'ijk=1(事前分布に一様分布)を仮定
5
l m ( m | X ) 
対数尤度:
5
パラメータ数:
km 
qi
1
N
i 1
q
i
ijk
log
10
 ijk   25 . 76
j 1 k  0
 11
i 1
N  20
データ数:
AIC
m
CAIC
  2 l m ( m | X )  2 k m  73 . 53
m
  2 l m ( m | X )  k m (log N  1)  76 . 84
BIC ( MDL ) m   2 l m ( m | X )  k m (log N )  65 . 84
3.5.3 ベイジアンネットワークの予測分布 (1)
モデルの予測分布が解析的に求まれば、高精
度のモデルを選択可能な情報量基準を作成す
ることができる
■ 事前分布p(Θ|Bs)が一様分布であるとしたと
きの予測分布
p ( X | Bs ) 

p ( X ,  | Bs ) p (  | Bs ) d 

n

qi

i 1
j 1
( ri  1)!
( N ij  ri
(3.12)
ri  1

 1)!
k 0
N ijk !
(3.13)
3.5.3 ベイジアンネットワークの予測分布 (2)
■ 事前分布p(Θ|Bs)がディレクレ分布である
としたときの予測分布
qi
n
p ( X | Bs ) 

i 1
j 1
 ri 1
   N ' ijk
 k 0




ri  1
  N ' 
ijk
k 0
n

qi
  N ' ij 
   N '
i 1
j 1
 ( )  (  1)!
N 'ijk  1
ij
 N ij
ri  1
  N '
ijk
 N ijk 
k 0
 ri 1
    N ' ijk  N ijk
 k 0
ri  1


k 0



  N ' ijk  N ijk 
  N ' ijk 
(3.14)
→ 式(3.14) = 式(3.13)
3.5.4 数値例
図3.1+表3.1でN'ijk=1(事前分布に一様分布)を
仮定した場合の予測分布
5
p ( X | Bs ) 

i 1

1
( 20  1)!
 4 . 85  10
qi
j 1
1
1
( N ij
 6! 14 !  

 1)!
N ijk ! k 0
1
( 3  1)!
 0! 3! 
 29
データ数が少ない場合、観測されない変数の
パターンが出現(Nijk=0)し、計算が困難な場合
がある