Transcript P(t|y
PRML読書会@墨田社会福祉会館 2009/10/24 Pattern Recognition and Machine Learning 6.4から6.4.4 田部井靖生 Twitter id: tb_yasu Email: [email protected] 概要 6.4 ガウス過程 6.4.1 線形回帰再訪 6.4.2 ガウス過程による回帰 6.4.3 超パラメーターの学習 6.4.4 関連度自動決定 6.4 ガウス過程とは 学習データー {(xi, yi)}に対して、新しいデーター xにおける予測値y(x)の事後分布P(y(x)|{xi},{yi})を確 率で表現する - y(x)はxの関数 利点 - 予測の分散(エラーバー)が出せる 欠点 - 予測の際 O(N3)(N:データー数)の時間がかかる 6.4.1 線形回帰再訪 線形回帰もガウス過程と見ることができ る 入力ベクトルxに対する線形回帰 y ( x ) w Tφ( x ) - w: 重みベクトル, Φ(x): 特徴ベクトル N {( x , y )} i i i 1 訓練データー集合 に対し て、 y Φw - y: yiを要素とするベクトル, w: 重みベクトル - ΦはΦk(xn)を要素とする計画行列 6.4.1 線形回帰再訪 wに対する事前分布 P(w) N(w | 0,α I) を仮定 -1 y: ガウス分布P(w)の線形結合で表現されるので、 ガウス分布に従う (演習2.31) →平均と分散が決まれば分布が決まる E [ y ] Φ E [ w ] 0 ( 6 . 52 ) cov[ y ] E [ yy ] Φ E [ ww ]Φ T T T 1 α ΦΦ K ( 6 . 53 ) T K: を要素とするカーネル行列 y(x1), y(x2),…,y(xN)に対して、同時分布を定義可 → ガウス確率場、確率過程 1 T K nm k ( x n , x m ) φ( x n ) φ( x m ) α 演習2.31 問題 - x,z:多次元確率ベクトル - P(x)=N(x|μx|Σx), P(z)=N(x|μz|Σz) - y=x+zとするとき、P(y)の分布をもとめよ。 6.4.2 ガウス過程による回帰 ガウス過程を回帰に適応 t n y n εn 目標変数ynに含まれるノイズεnを考える tの同時確率分布 P( t ) P( t | y )P( y )d y - ノイズはガウス分布に従うとするとP(t|y) はガウス分布に従う 1 P ( t | y ) N ( t | y ,β I N ) P ( y ) N ( y | 0, K ) 上巻の(2.113)~(2.115)までの結果を使っ てP( t ) N ( t | 0 , C ) C ( x n , x m ) k ( x n , x m ) β δnm 1 訓練データーとして{(x1,t1),…,(xN,tN)}が与 えられているときに、新しいデーターxN+1 に対するtN+1を予測する CN k P( t N 1 ) N ( t N 1 | 0 , C N 1 ) C N 1 T k c - 行列CNの要素は、k(xn,xm)+β-1δnm - ベクトルkの要素は、k(xn,xm) - スカラーc = k(xN+1,xN+1) (2.81)と(2.82)の結果を使うとP(tN+1|t)は T 1 平均: m ( x N 1 ) k C N t 2 T 1 σ ( x N 1 ) c k C N k 分散: をもつガウス分布になる - C-1を求めるためにO(N3)かかる 良くつかわれるカーネル k ( x n , x m ) θ0 exp{ θ1 2 || x n x m || } θ2 θ3 x n x m 2 T ガウス過程による予測の例 演習6.21 K(x,x’)が有限の既定関数で定義される場合 には、3.3.2節で得られた、ガウス過程の 観点から導いた線形回帰の結果を導くこ とができることを示せ。 演習 6.23 複数の目的関数への拡張 6.4.3 超パラメータθiの学習 対数尤度関数の微分を最大にするθを求め 1 1 T 1 る P (t | θ ) 1 exp{ t C t } ( 2π) D /2 1/ 2 | C N 1 | max θ ln P ( t | θ ) 1 2 ln | C N | 2 1 1 N t C t T 2 N ln( 2π) 2 θに関する勾配を使う θi ln p ( t | θ ) 1 2 Tr ( C 1 N C N θi ) 1 2 T t C 1 N C N θ 1 CN t 6.4.4 関連度自動決定 カーネルを以下で定義し、ηiを求める。 k ( x , x ' ) θ0 exp{ 1 2 2 ηi ( x i x i )} ' i 1 ηiが小さくなるとカーネルの値の変化に対する感度が落ち る 最適化は、共役勾配法でおこなう 度の特徴が分類に有効かどうかをしらべることができる 参考文献 ・DAVID J.C.MACKAY, INTRODUCTION TO GAUSSIAN PROCESSES