Transcript Document

「データ学習アルゴリズム」
報告者 佐々木 稔
2003年5月21日
第2章 学習と統計的推測
2.1 データと学習
2.1.1 学習とは
2.1.2 同時確率密度関数の学習
2.1.3 学習法の意味
2.1.4 学習の尺度
学習とは
入力 X  ( X1, X 2 ,, X M )
出力 Y  (Y1, Y2 ,, YN )
組(X, Y) が同時密度関数 q(x, y) をもつ確率変数
独立な n 回の試行での n 組の実現値
(データ、学習データ、サンプル)
(x , y )  x1, y1 , x2 , y2 ,, xn , yn 
n
n
学習データ
n
n
(x , y )
• X, Y に関する情報の獲得
• 獲得した情報からの予測
推定対象
• 真の密度関数 q(x, y)
• 条件付き密度関数 q(y | x)
• 回帰関数 y = E(Y | x)
☆目的によって推定対象も変化
例27
学習を利用した応用例
• 画像や音声の認識を行うシステム
• 時系列予測システム
• 信号の圧縮・復元を行うシステム
人間の言語獲得
生物の進化
広い意味で学習
同時確率密度関数の学習
p(x, y | w) : 同時確率密度関数
w : パラメータ(母数)
データを発生している確率変数の
(真の)密度関数 q(x, y) を推定
p(x, y | w) : 学習モデルの密度関数
p(x, y | w0) = q(x, y)
となるパラメータ w0 が存在
「学習モデルは真の密度関数を含む」
母集団全体の分布 p(x, y | w) は既知
分布を特徴付けるのパラメータ w は未知
パラメータ w
• 確率変数
条件付き確率 p(x, y | w)
• 確率変数ではない
p(x, y : w) または、 pw(x, y)
ここでは、両者は同じものとして p(x, y | w)
• 実問題では…
密度関数は複雑なことが多く、
学習モデルに含まれる保証はない
• アルゴリズムの考案時やその特徴解析時
モデルが真の密度関数を含むと仮定
真の密度関数を含む場合のモデルを
明らかにし、一般的な場合を考察
• 学習データは有限個
ある程度の解像度までの密度関数
しか分からない
学習データ
x1, y1 , x2 , y2 ,, xn , yn 
情報源
学習モデル
q(x, y)
p(x, y | w)
似てる?
学習結果
p(x, y | w0)
最尤推定法
損失関数
1 n
Ln (w)    log p( xi , yi | w)
n i 1
損失関数を最小にする ŵ (最尤推定量)
ˆ ) を q(x, y) の推定密度関数とする
p( x, y | w
事後確率最大化法
p(w) : パラメータ w に関する密度関数
損失関数
1 n
1
Ln (w)    log p( xi , yi | w)  log p(w)
n i 1
n
損失関数を最小にする ŵ(事後確率最大化推定量)
ˆ ) を q(x, y) の推定密度関数とする
p( x, y | w
ベイズ法
p(w) : パラメータ w に関する密度関数
損失関数
1 n
1
Ln (w)    log p( xi , yi | w)  log p(w)
n i 1
n
Ln(w) をエネルギー関数とするギブス分布
1
n (w)  exp nLn (w)
Zn
Zn : ρn(w) がパラメータ集合 Rd 上の
確率密度関数となる正規化定数
β : 逆温度と呼ばれる正の定数
ギブス分布の平均で作られる密度関数
pn ( x, y)   p( x, y | w) n (w)dw
pn(x,y) を q(x, y) の推定密度関数とする
• 固定したパラメータ w 定めない
パラメータ w も確率変数として扱う
•パラメータ w の密度関数 p(w) (事前分布)が必要
学習の目的により設定
(モデル選択、予測精度最大化)
例28
R1 上の確率変数から独立な学習データ
{xi; i = 1, 2, ・・・, n}
モデル(平均 a、分散 1 の正規分布)
2




1
x

a

p( x | a) 
exp 

2
2


3つの推定方法がどのくらい
異なる結果となるか比較
最尤推定法
 1
 ( xi  a)2 
1 n

Ln (a)    log
exp 
n i 1  2
2 

パラメータと関係のない項を省略して、
1 n
Ln (a)   ( xi  a)2
2n i 1
a に関して下に凸の2次関数なので

1 n
Ln (a)    xi  a
a
n i 1
これより、最尤推定量は
1 n
aˆML   xi
n i 1
a の事前密度関数 p(a)
 a2 
1
p(a) 
exp  
2
 2
事後確率最大化法より
 x  a2  1
 a2 
1 n
1
1
  log
Ln (a)    log
exp 
exp  

n i 1
2  n
2
2
 2


1 n
n 1
Ln (a)    xi 
a
a
n i 1
n
事後確率最大化推定量 âMAP
1 n
aˆMAP 
xi

n  1 i 1
ベイズ法の場合
 n (w) 
1
exp nLn (w)
Zn
 1 n

 exp    ( xi  a) 2  a 2  

 2  i 1
2
n
n
 1

1


2
2
 exp   n  1a  aˆ MAP  
  xi    xi  
 2
n  1  i 1  i 1  



a に関係しない項をまとめて
1
 n 1
a  aˆMAP2 
 n (w)  exp 
Z n
 2

pn ( x) 
 1  n 1 
1
2
exp  
x  aˆMAP 
Cn
 2 n2

学習法の意味
最尤推定法
データ (xn, yn) がモデル p(x, y | w) から得られる
確率密度(モデルの尤度)
n
p( xn , y n | w)   p( xi , yi | w)
i 1
モデルの尤度を最大化するパラメータを選択
事後確率最大化法
X, Y, W : 確率変数
同時確率密度関数
p( x, y, w)  p( x, y | w) p(w)
推定するモデルの密度関数
p( x, y)   p( x, y | w) p(w)dw
このモデルが真の密度関数であれば、
q(x, y) = p(x, y)
(xn, yn) が得られた条件の下での W の密度関数
n
n
p
(
x
,
y
| w) p(w)
n
n
p(w | x , y ) 
n
n
p( x , y )
P(w) : 事前確率密度関数
P(w | xn, yn) : 事後確率密度関数
P(w | xn, yn) を最大にする w を求める
ベイズ法
仮定は事後確率最大化法と同じ
1
n (w)  exp nLn (w)
Zn
β= 1 のとき、
(xn, yn) が得られた条件下
(X, Y) の密度関数
p( x, y | x , y )   p( x, y | w) p(w | x , y )dw
n
n
n
n
P(x, y | xn, yn) が求める確率密度関数
学習の尺度
これらの方法でなぜ学習が可能になるのか
カルバックの擬距離による最適化
• 最尤推定、事後確率最大化の場合
データ数 n が十分大きいとき、
1 n
Ln (w)    log p( xi , yi | w)
n i 1
  q( x, y) log p( x, y | w)dxdy
q( x, y)
  q( x, y) log
dxdy   q( x, y) log q( x, y)dxdy
p( x, y | w)
 K (q || pw )  S (q)
Ln (w)  K (q || pw )  S (q)
損失関数の最小化 ≒ K(q || pw) の最小化
• ベイズ法の場合
データ数 n が十分大きいとき、最尤推定と同様に、
n (w)  exp nLn (w)
 exp nK(q || pw )
p(x, y | w) が q(x, y) に近くなる w の近くに
集中する密度関数となる