P(t|y

Transcript P(t|y

PRML読書会@墨田社会福祉会館 2009/10/24
Pattern Recognition and
Machine Learning
6.4から6.4.4
田部井靖生
Twitter id: tb_yasu
Email: [email protected]
概要
 6.4 ガウス過程
 6.4.1 線形回帰再訪
 6.4.2 ガウス過程による回帰
 6.4.3 超パラメーターの学習
 6.4.4 関連度自動決定
6.4 ガウス過程とは
 学習データー {（xi, yi)}に対して、新しいデーター
xにおける予測値y(x)の事後分布P(y(x)|{xi},{yi})を確
率で表現する
- y(x)はxの関数
 利点
- 予測の分散（エラーバー）が出せる
 欠点
- 予測の際 O(N3)(N:データー数)の時間がかかる
6.4.1 線形回帰再訪
線形回帰もガウス過程と見ることができ
る 入力ベクトルxに対する線形回帰
y ( x )  w Tφ( x )
- w: 重みベクトル, Φ(x): 特徴ベクトル
N
{(
x
,
y
)}
i
i
i 1
 訓練データー集合
に対し
て、
y Φw
- y: yiを要素とするベクトル, w: 重みベクトル
- ΦはΦk(xn)を要素とする計画行列
6.4.1 線形回帰再訪
 wに対する事前分布 P(w)  N(w | 0,α I) を仮定
-1
 y: ガウス分布P(w)の線形結合で表現されるので、
ガウス分布に従う（演習2.31）
→平均と分散が決まれば分布が決まる
E [ y ]  Φ E [ w ]  0 ( 6 . 52 )
cov[ y ]  E [ yy ]  Φ E [ ww ]Φ 
T
T
T
1
α
ΦΦ  K ( 6 . 53 )
T
K:
を要素とするカーネル行列
 y(x1), y(x2),…,y(xN)に対して、同時分布を定義可
→ ガウス確率場、確率過程
1
T
K nm  k ( x n , x m )  φ( x n ) φ( x m )
α
演習2.31
 問題
- x,z:多次元確率ベクトル
- P(x)=N(x|μx|Σｘ), P(z)=N(x|μz|Σz)
- y=x+zとするとき、P(y)の分布をもとめよ。
6.4.2 ガウス過程による回帰
ガウス過程を回帰に適応
t n  y n εn
 目標変数ｙｎに含まれるノイズεnを考える
 tの同時確率分布 P( t )   P( t | y )P( y )d y
- ノイズはガウス分布に従うとするとP(t|y)
はガウス分布に従う
1
P ( t | y )  N ( t | y ,β I N )
P ( y )  N ( y | 0, K )
 上巻の(2.113)～(2.115)までの結果を使っ
てP( t )  N ( t | 0 , C ) C ( x n , x m )  k ( x n , x m ) β δnm
1
 訓練データーとして{(x1,t1),…,(xN,tN)}が与
えられているときに、新しいデーターxN+1
に対するtN+1を予測する
CN k 
P( t N 1 )  N ( t N 1 | 0 , C N 1 )

C N 1   T
k c 


- 行列CNの要素は、k(xn,xm)+β-1δnm
- ベクトルkの要素は、k(xn,xm)
- スカラーc = k(xN+1,xN+1)
 (2.81)と(2.82)の結果を使うとP(tN+1|t)は
T
1
平均：
m ( x N 1 )  k C N t
2
T
1
σ ( x N 1 )  c  k C N k
分散：
をもつガウス分布になる
- C-1を求めるためにO(N3)かかる
 良くつかわれるカーネル
k ( x n , x m )  θ0 exp{ 
θ1
2
|| x n  x m || } θ2 θ3 x n x m
2
T
ガウス過程による予測の例
演習6.21
 K(x,x’)が有限の既定関数で定義される場合
には、3.3.2節で得られた、ガウス過程の
観点から導いた線形回帰の結果を導くこ
とができることを示せ。
演習 6.23
 複数の目的関数への拡張
6.4.3 超パラメータθiの学習
対数尤度関数の微分を最大にするθを求め
1
1 T 1
る P (t | θ )  1
exp{  t C t }
( 2π)
D /2
1/ 2
| C N 1 |
max θ ln P ( t | θ )  
1
2
ln | C N | 
2
1
1
N
t C t
T
2
N
ln( 2π)
2
 θに関する勾配を使う

 θi
ln p ( t | θ )  
1
2
Tr ( C
1
N
C N
 θi
)
1
2
T
t C
1
N
C N
θ
1
CN t
6.4.4 関連度自動決定
カーネルを以下で定義し、ηiを求める。
k ( x , x ' )  θ0 exp{ 
1
2
2
 ηi ( x i  x i )}
'
i 1
ηiが小さくなるとカーネルの値の変化に対する感度が落ち
る
最適化は、共役勾配法でおこなう
度の特徴が分類に有効かどうかをしらべることができる
参考文献
・DAVID J.C.MACKAY, INTRODUCTION
TO GAUSSIAN PROCESSES

P(t|y

Transcript P(t|y

Directory