Transcript P(t|y
PRML読書会@墨田社会福祉会館 2009/10/24
Pattern Recognition and
Machine Learning
6.4から6.4.4
田部井靖生
Twitter id: tb_yasu
Email: [email protected]
概要
6.4 ガウス過程
6.4.1 線形回帰再訪
6.4.2 ガウス過程による回帰
6.4.3 超パラメーターの学習
6.4.4 関連度自動決定
6.4 ガウス過程とは
学習データー {(xi, yi)}に対して、新しいデーター
xにおける予測値y(x)の事後分布P(y(x)|{xi},{yi})を確
率で表現する
- y(x)はxの関数
利点
- 予測の分散(エラーバー)が出せる
欠点
- 予測の際 O(N3)(N:データー数)の時間がかかる
6.4.1 線形回帰再訪
線形回帰もガウス過程と見ることができ
る 入力ベクトルxに対する線形回帰
y ( x ) w Tφ( x )
- w: 重みベクトル, Φ(x): 特徴ベクトル
N
{(
x
,
y
)}
i
i
i 1
訓練データー集合
に対し
て、
y Φw
- y: yiを要素とするベクトル, w: 重みベクトル
- ΦはΦk(xn)を要素とする計画行列
6.4.1 線形回帰再訪
wに対する事前分布 P(w) N(w | 0,α I) を仮定
-1
y: ガウス分布P(w)の線形結合で表現されるので、
ガウス分布に従う (演習2.31)
→平均と分散が決まれば分布が決まる
E [ y ] Φ E [ w ] 0 ( 6 . 52 )
cov[ y ] E [ yy ] Φ E [ ww ]Φ
T
T
T
1
α
ΦΦ K ( 6 . 53 )
T
K:
を要素とするカーネル行列
y(x1), y(x2),…,y(xN)に対して、同時分布を定義可
→ ガウス確率場、確率過程
1
T
K nm k ( x n , x m ) φ( x n ) φ( x m )
α
演習2.31
問題
- x,z:多次元確率ベクトル
- P(x)=N(x|μx|Σx), P(z)=N(x|μz|Σz)
- y=x+zとするとき、P(y)の分布をもとめよ。
6.4.2 ガウス過程による回帰
ガウス過程を回帰に適応
t n y n εn
目標変数ynに含まれるノイズεnを考える
tの同時確率分布 P( t ) P( t | y )P( y )d y
- ノイズはガウス分布に従うとするとP(t|y)
はガウス分布に従う
1
P ( t | y ) N ( t | y ,β I N )
P ( y ) N ( y | 0, K )
上巻の(2.113)~(2.115)までの結果を使っ
てP( t ) N ( t | 0 , C ) C ( x n , x m ) k ( x n , x m ) β δnm
1
訓練データーとして{(x1,t1),…,(xN,tN)}が与
えられているときに、新しいデーターxN+1
に対するtN+1を予測する
CN k
P( t N 1 ) N ( t N 1 | 0 , C N 1 )
C N 1 T
k c
- 行列CNの要素は、k(xn,xm)+β-1δnm
- ベクトルkの要素は、k(xn,xm)
- スカラーc = k(xN+1,xN+1)
(2.81)と(2.82)の結果を使うとP(tN+1|t)は
T
1
平均:
m ( x N 1 ) k C N t
2
T
1
σ ( x N 1 ) c k C N k
分散:
をもつガウス分布になる
- C-1を求めるためにO(N3)かかる
良くつかわれるカーネル
k ( x n , x m ) θ0 exp{
θ1
2
|| x n x m || } θ2 θ3 x n x m
2
T
ガウス過程による予測の例
演習6.21
K(x,x’)が有限の既定関数で定義される場合
には、3.3.2節で得られた、ガウス過程の
観点から導いた線形回帰の結果を導くこ
とができることを示せ。
演習 6.23
複数の目的関数への拡張
6.4.3 超パラメータθiの学習
対数尤度関数の微分を最大にするθを求め
1
1 T 1
る P (t | θ ) 1
exp{ t C t }
( 2π)
D /2
1/ 2
| C N 1 |
max θ ln P ( t | θ )
1
2
ln | C N |
2
1
1
N
t C t
T
2
N
ln( 2π)
2
θに関する勾配を使う
θi
ln p ( t | θ )
1
2
Tr ( C
1
N
C N
θi
)
1
2
T
t C
1
N
C N
θ
1
CN t
6.4.4 関連度自動決定
カーネルを以下で定義し、ηiを求める。
k ( x , x ' ) θ0 exp{
1
2
2
ηi ( x i x i )}
'
i 1
ηiが小さくなるとカーネルの値の変化に対する感度が落ち
る
最適化は、共役勾配法でおこなう
度の特徴が分類に有効かどうかをしらべることができる
参考文献
・DAVID J.C.MACKAY, INTRODUCTION
TO GAUSSIAN PROCESSES