Transcript 発表資料
``Exponentiated Gradient Algorithms for LogLinear Structured Prediction’’
A.Globerson, T.Y.Koo, X.Carreras, M.Collins
を読んで
渡辺一帆(東大・新領域)
構成
1.Introduction
2.Primal and Dual Problems for Log-Linear Models(モデルと主、双対問題)
3.Exponentiated Gradient Algorithms(Kivinen & Warmuth, 1997)(アルゴリズム)
4.Convergence Results (収束性の証明)
4.1 Divergence Measures
4.2 Convergence of the Batch Algorithm
4.3 Convergence of the Online Algorithm
この辺りがメイン
4.4 Convergence Rate of the Batch Algorithm
4.5 Convergence for Max-Margin Learning
5. Structured Prediction with LLEG (ラベルが構造を持つ場合)
6. Related Work
7. Experiments(多クラス分類と係り受け解析で実験)
8. Conclusion
対数線形モデル(2節)
入力 x
ラベル y Y (xに依存しても良い)
時系列、木などの内部構造をもつ高次元データ
特徴ベクトル
( x, y) Rd
を用意
(条件付き)対数線形モデル
p( y | x; w)
1 w ( x, y )
e
Zx
w
○ x の分類は
y* arg maxw ( x, y)
y
○ ロジスティック回帰モデルを含む
:パラメータ
主問題と双対問題(2節)
n
学習データ ( xi , yi )i1
正則化された対数尤度を最大化
主問題
C
n
w arg max log p( yi | xi ; w) || w ||2
2
w
i 1
*
Q(α) とおく
双対問題
n
1
α arg mini , y log i , y
|| w(α) ||2
2C
α
i 1 y
*
n
w(α) i, y i, y
i 1
i, y (xi , yi ) (xi , y)
y
制約: 各 αi は確率分布 ( i, y 1)
y
( αi と書く)
導出
n
log p( yi | xi ; w)
i 1
n
C
|| w ||2
2
C
log expw( ( xi , y) ( xi , yi )) || w ||2
i 1
y
2
w i, y Zi exp w i, y
i , y
n
i, y log
i 1
y
1 w i , y
e
Zi w
(等号は i , y
e
e
y
n
C
log Zi || w ||2 L(w, α)
2
i 1
i ,y
w i , y
y
のとき)
1 n
w i, y i, y
C i1 y
L(w, α)
0
w
これを
L(w, α)
に代入してQを得る
とおく
Exponentiated Gradient(3節)
• Exponentiated Gradient Algorithm (Kivinen and Warmuth, 1997)
αt n を
t 1
i, y
1
it, y ei , y
Zi
i , y
Q(α)
i , y
双対問題のQだと
により更新
Zi it, yˆ e
i , yˆ
:学習係数
ˆ
y
オンラインだと
i , y
Q(α1t 1, αt21,...,αti 11, αti ,...,αtn )
i , y
とする
i , y 1 log i , y
1
w(α) i , y
C
ダイバージェンス(4.1節)
α, β n 間のダイバージェンス
• KL-ダイバージェンス
D[αi || βi ] i , y log
y
i , y
D[α || β] D[αi || βi ] i, y log
i, y
i
i
y
• Bregman ダイバージェンス
i , y
i, y
Qˆ (α) i, y logi, y
i
y
Qˆ (α):凸関数
ˆ (α) Q
ˆ (β) Q
ˆ (β) (α β)
BQˆ [α || β] Q
• マハラノビス距離
1
M A[α || β] (α β)T A(α β)
2
1
Qˆ (α) αT Aα
2
収束性の証明(4.2節)
Qˆ は任意の凸関数(具体的な形にはよらない)
D[αt 1 || αt ] BQˆ [αt 1 || αt ] のようにηをとれば
• Lemma 1
ˆ (αt ) Q
ˆ (αt 1 ) 1 D[αt || αt 1 ]
Q
EGの更新で Qˆ は単調減少する
双対問題のQだと
• Lemma 2
0
1
1 n | A |
1
| A | max(i, y),( j ,z) | A(i, y),( j,z) | max(i, y),( j,z) | i, y j,z |
C
ととれば
Q(αt ) Q(αt 1 )
1
D[αt || αt 1 ]
(略証)
BQ [αt 1 || αt ] D[αt 1 || αt ] M A[αt 1 || αt ] となることを使う
○ オンラインも同様に証明可能 (4.3節)
収束の速さ(4.4節)
• Lemma 4 (Kivinen & Warmuth, 1997)
任意の u に対し、
Q(αt ) Q(u) D[u || αt ] D[u || αt 1 ] D[αt || αt 1 ]
n
Q(αt 1 ) Q(u) D[u || αt ] D[u || αt 1 ]
Lemma 2
D[u || α1 ] D[u || αT 1 ]
Q(α ) Q(u)
T
T 1
t=1,…Tの和をとり
Qが単調減少することから
D[α* || α1 ]
Q(α ) Q(α )
T
T 1
u α*(最適解)とすると
*
1
Q(αT 1 ) Q(α* ) とするには T O
1
○ Max-Marginの場合( QMM (α) bT α αT Aα のとき)も同様 (4.5節)
2
構造があるとき(5節)
ラベル
はパーツ r の集合だとする
y
yR
( x, y) ( x, r )
ry
:パーツ全体
のように分解できるとする
αti の代わりに θti
変換は
を使う
θti {it,r | r R}
ry
t
it, y (θti ) exp
i ,r
it,r1 it,r
it,r
パーツの個数だけ
1
w(α(θt )) ( xi , r )
C
で更新できる。
(EGでの i, y はyに含まれるrに関する項のみきいてくるので)
実験(7節)
この例では(たまたま)
• 多クラス分類
w y x
p( y | x) e
y {1,...,10}
wy , x R
784
目
的
関
数
の
値
EG(primal)も単調増加(しかも速い)
分
類
精
度
共役勾配法、L-BFGSと比較
計算時間
計算時間
• 構造がある場合(係り受け解析)
特徴ベクトル ( x, h, m)
を単語のペア (h, m)に与える
目
的
関
数
の
値
解
析
精
度
計算時間
計算時間
結論
• 対数線形モデルに対し最適解への収束が保証され
たアルゴリズムを提案
• 証明のほとんどはBregmanダイバージェンスとKLダ
イバージェンスの間の関係に因る
• 他の関数Qについても同様の解析が可能であると
期待される
• オンラインアルゴリズムについても1/Tの収束の速さ
を証明するのは今後の課題