Transcript Document

Burr Settles and Mark Craven
In EMNLP 2008, pages 1069-1078
読み手: 岡崎直観(東大・辻井研)

系列ラベリングとして定式化されるタスクに,種々の能動
学習(active learning)戦略を適用
◦ 試した能動学習戦略は全部で15種類
 Expected Gradient Length (EGL) と Information Density (ID) は著者ら
の提案手法
 能動学習を概観するカタログとしても有用
◦ 評価に用いたコーパスは全部で8種類
 Information Density (ID) とSequence Vote Entropy (SVE) の性能が良さ
そうだが,突出して優れている手法は無かった

論文の著者はバイオNLPの研究者
◦ A Biomedical Named Entity Recognizer (ABNER) は有名
◦ EGLは2007年のNIPSで発表している

能動学習
◦ データ中のどのサンプルから学習を行うか,学習器自体がコントロー
ルできる枠組み
◦ 本研究では,学習器は少ない訓練例L を基に,ラベル付けされていな
いサンプル集合U から,ある戦略(基準)に基づいて,学習に有用と思
われる事例(クエリ事例)を選ぶ
ラベル付け
学習
選択
スパムメールの
学習データ
分類器
大量のメール
(スパムかどうか
は不明)

系列ラベリングに能動学習を適用する先行研究
◦ Uncertainty sampling (Scheffer et al., CAIDA-2001; Culotta and
McCallum, AAAI-2005; Kim et al., HLT-NAACL-2006)
◦ Query-by-committee (Dagan and Engelson, ICML-1995)

これらの従来研究は,外れ値(outliers)に弱いと言われて
いる (Roy and McCallum, ICML-2001; Zhu et al., ICML2003WS)
◦ 本論文は,ラベル付けされていないサンプル集合の分布を考慮し
た能動学習戦略を提案する

種々のコーパスを用い,能動学習の先行研究や提案手法
を比較・解析する

Uncertainty sampling
◦ Least Confidence (LC); Margin (M)
◦ Token Entropy (TE); Total Token Entropy (TTE)
◦ Sequence Entropy (SE); N-best Sequence Entropy (NSE)

Query-by-committee (QBC)
◦
◦
◦
◦

Vote Entropy (VE); Total Vote Entropy (TVE)
Kullback-Leibler (KL); Total Kullback-Leibler (TKL)
Sequence Vote Entropy (SVE)
Sequence Kullback-Leibler (SKL)
その他
◦ Expected Gradient Length (EGL)
◦ Information Density (ID)
◦ Fisher Information Ratio (FIR)

定式化 (Lafferty et al., ICML-2001)
◦ x = x1, …, xT: 入力トークン系列
◦ y = y1, …, yT: 出力ラベル系列
1
 T K

P ( y | x ) 
exp   k f k ( yt 1 , yt , xt ) 
Z ( x)
 t 1 k 1

素性の重み
素性関数
◦ 本研究では線形連鎖CRFを例に取り上げる

事後確率最大化によるパラメータ推定
 k2
l (L )   log P ( y | x )   2
l 1
k 1 2
L
K
(l )
(l )
Brown
promises
0.4
0.4
0.3
.2000
NN
NN
.1500
JJ
0.2
0.5
0.2
0.1
t=0
t=1
NN
0.6
JJ
0.2
0.1
0.1
0.1
.0030
.0200
VB
.0080
0.2
0.4
0.1
0.5
BOS
0.3
.0360
0.4
0.3
0.4
0.6
0.5
1
change
0.2
0.5
0.5
.0008
JJ
0.1
t=2
0.1
.0016
EOS
0.2
0.1
.0400
VB
0.1
0.2
0.5
.0072
0.1
VB
t=3
max operation
t=4
Brown
promises
0.4
0.4
0.3
.2000
NN
.0188
NN
.0070
.1500
JJ
0.1
0.2
0.6
0.2
0.1
.0054
JJ
0.2
0.1
.0200
VB
.0168
t=0
t=1
0.1
0.1
0.2
0.2
JJ
0.1
.0520
t=2
.0070
EOS
1
0.2
0.1
.0485
VB
0.1
.1000
0.5
0.5
(= Z)
0.1
.0017
.0600
0.5
NN
0.4
.0194
(= Z)
.0187
.2000
0.6
0.5
BOS
0.3
.0640
0.4
0.3
0.4
.0650
0.5
1
change
0.2
0.5
.0155
0.1
VB
.2000
t=3
t=4
P ( yt  i ) 
 t (i )  t (i )
Z
P( yt  j | yt 1  i ) 
Brown
 t 1 (i )et 1 ( j | i )vt ( j )  t ( j )
Z
promises
0.4
0.4
0.3
.2000
NN
.0188
NN
.0070
.1500
JJ
NN
0.6
0.2
0.4
0.1
0.2
0.1
0.1
.0054
JJ
.0194
0.2
0.2
JJ
0.5
.0520
t=2
.0070
EOS
1
0.2
0.1
.0485
VB
0.1
.1000
0.5
0.2
0.1
0.0640  0.0650
0.1
P ( y1  NN) 
 0.5943
.0200
0.0070
VB
0.1
.0168
0.0485  0.0520
P ( y1  VB) 
 0.3603
0.0070
t=0
t=1
0.1500  0.6  0.4  0.0650
P ( y2  NN | y1  JJ ) 
 0.3343
0.0070
0.2000  0.4  0.5  0.0520
P ( y2  VB | y1  NN) 
 0.2971
0.0070
0.1
.0017
.0600
0.5
.0187
.2000
0.6
0.5
BOS
0.3
.0640
0.4
0.3
0.4
.0650
0.5
1
change
0.2
0.5
.0155
0.1
VB
.2000
t=3
t=4
ラベル付けをすべき
事例に高いスコアを
与える評価関数
人手でラベル付け
ラベル付けの確信度が
低い事例を選ぶ

現在のモデルが事例 x ∈U をビタビ・アルゴリズムで
ラベル付けするとき,その確信度(確率推定値)が低
いものを選ぶ (Culotta and McCallum, AAAI-2005)
 LC ( x )  1  P ( y * | x )
推定された確率
◦ CRFでは,条件付き確率は前向き・後ろ向きアルゴリズムと,
ビタビ・アルゴリズムで計算される

現在のモデルが事例 x ∈U をラベル付けするとき,第
1位と第2位のラベルの確信度の差が小さいものを選
ぶ (Scheffer et al., CAIDA-2001)
 M ( x )  P ( y1* | x )  P ( y2* | x ) 
第1位の確率
第2位の確率
◦ 第2位の確率は,ビームサーチを用いたn-bestアルゴリズム
で求める (Schwartz and Chow, 1990)

現在のモデルが事例 x ∈U をラベル付けするとき,各
位置 t におけるラベル付け yt の曖昧さを,エントロ
x の長さ
ピーで計る
ラベルの数
T M
1
TE
 ( x )    P ( yt  m) log P ( yt  m)
T t 1 m 1
位置 t のラベル y が m で
トークンあたりのエン
トロピーを求める
t
ある確率(周辺確率)
◦ 周辺確率は前向き・後ろ向きアルゴリズムから求まる

Token entropy (TE) では,長い事例が過度に選ばれ
ないように,T に関して平均を取ったが,長い事例は,
そもそもラベル付けが難しい (Baldridge and Osborne,
EMNLP-2004; Hwa, CL-2004)
 TTE ( x)  T   TE ( x)
平均を打ち消す
(平均を取らない)

Token entropy (TE) はトークンに関するエントロピー
を計っているが,系列に関するエントロピーを計った
方がよいのではないか?
 SE ( x )   P ( y | x ) log P ( y | x )  H x ( y )
y
H x ( y )  H x ( y1... y T )
(前向き・後ろ向きアルゴリ
ズムの適用後は,x に依存
しないと考えて良い)
(連鎖律)
 H x ( y1 )  H x ( y2 | y1 )  H x ( y3 | y1 y2 )  ...  H x ( yT | y1... yT 1 )
(マルコフ性)
 H x ( y1 )  H x ( y2 | y1 )  H x ( y3 | y2 )  ...  H x ( yT | yT 1 )
◦ エッジの周辺確率が計算されていれば,系列全体の和を取
ることなく,条件付きエントロピーの和で計算できる

N-bestラベル付け系列に関するエントロピーを計る
(Kim et al., HLT-NAACL-2006)
 NSE ( x)    P ( y | x) log P ( y | x)

yYN*
YN*  y1* ,..., y *N

◦ こちらは,単純にn-best系列に基づいてエントロピーを計算
する
複数の分類器を作り,ラベル付けが
一致するかどうか調べる

Query-by-committee (Seung et al., CoNLL-1992)
◦ C 個のモデル C = {θ(1), …, θ(C)} があるとき,これらのモデルが異なる
ラベル付けを行う事例をアノテートする

Query-by-bagging (Abe and Mamitsuka, ICML-1998)
L 回サンプ
リング
L
ラベル付き
データ
L (1)
L (2)
…
L (C)
(サンプリングするときに重複する
事例を選んでも構わない)
θ(1)
θ(2)
学習
…
θ(C)
ラベル
付け
x ∈U
ラベル無し
データ
このラベル付けが揺
れるものを選ぶ

C 個のモデルが事例 x ∈U をラベル付けするとき,各
位置 t におけるラベル付け yt のばらつき具合を,エン
x の長さ
トロピーで計る
ラベルの数
位置 t のラ
T M
V ( yt , m )
V ( yt , m )
1
VE
 ( x )   
log
T t 1 m 1 C
C
トークンあたりのエン
トロピーを求める
各モデルが位置 t のラベル yt
を m であると投票した確率
◦ 各モデルはビタビ・アルゴリズムでラベル付けを行う
 TVE ( x)  T   VE ( x)
ベル yt を m
と予測したモ
デルの数

C 個のモデルが事例 x ∈U をラベル付けするとき,各位置 t
におけるラベル付け yt のばらつき具合を,平均的なラベル
付けからのKLダイバージェンスで計る
T
C
1
1
KL
(c)
 ( x )    Dt ( || C )
T t 1 C c 1
Dt (
(c)
M
P ( c ) ( yt  m)
m 1
PC ( yt  m)
|| C )   P ( c ) ( yt  m) log
yt のラベル付けに関する
全モデルC と θ(c) の距離
1 C
PC ( yt  m)   P ( c ) ( yt  m)
C c 1
全モデルC が y を m とラ
t
ベル付けする確率
位置 t におけるラベル付
けの,平均からのばらつき
具合
 TKL ( x)  T   KL ( x)

C 個のモデルがそれぞれ,事例 x ∈U をn-best解で
ラベル付けするとき,得られたラベル系列 y の確率分
布のばらつき具合(エントロピー)
 SVE ( x )    PC ( y | x ) log PC ( y | x )
yYNC
1 C
PC ( y | x )   P ( c ) ( y | x )
C c 1
C
YN   Y
C
c*
N
c 1
各モデルにn-best系列を
出力させ,その和集合を
とったもの
全モデルを使ったとき,事
例 x が y とラベル付けさ
れる確率

C 個のモデルがそれぞれ,事例 x ∈U をn-best解で
ラベル付けするとき,得られたラベル系列 y の確率分
布のばらつき具合(KLダイバージェンス)
C
P ( c ) ( y | x )
1
SKL
 ( x )    P ( c ) ( y | x ) log
C c 1 yYNC
PC ( y | x )
1 C
PC ( y | x )   P ( c ) ( y | x )
C c 1
C
YN   Y
C
c*
N
c 1
各モデルにn-best系列を
出力させ,その和集合を
とったもの
全モデルを使ったとき,事
例 x が y とラベル付けさ
れる確率

現在のモデルが事例 x ∈U のラベル y を知ったとき,モデル
を大きく修正する必要があるものを選ぶ (Settles et al.,
NIPS-2008)
◦ 実際にはラベル y は未知なので,n-best解による期待値で近似
 EGL ( x) 
 P ( y | x) l (L
 x, y
)
対数尤度の勾配
yYN*
l (L
 x, y
)  l (L )  l  x, y   l  x, y
尤度は対数尤度で,
各事例は独立
学習データに対する
対数尤度は0になっ
ているはず
◦ 勾配の計算には,CRFの学習の実装を再利用すればよい

○: ラベル無しサンプル
□: 正例
▲: 負例

ラベル無しサンプルAは分離境界面上にある
◦ ラベル付けの確信度が最も低いと考えられる

他のラベル無しサンプルの分布を見ると,AよりもBを
アノテートすべき
◦ Bの周辺にはラベル付けされた事例や,ラベル無しサンプル
がたくさん分布している

Sequence entropyを,中心性尺度で重み付け
1
 ( x)   ( x)  
U
ID
SE
sim( x , x ) 
(u )
xx

sim( x , x ) 

u 1

U
(u )

重み付けの重要度
(u )
x のU における中心性
| x |  | x (u ) |
KL距離やユークリッド距離も
試したが,コサイン距離とほと
んど変わらなかった
T
T

x   f1 ( x1 ),...,  f K ( x1 )
t 1
 t 1

素性数 K を次元とするベクトル
系列中の各点の素性値の
和を x のベクトルとする

事例 x ∈U を学習データに加えたとき,対数尤度の
期待値ができるだけ大きくなる事例を選ぶ (Zhang
and Oles, ICML-2000)
◦ Cramer-Raoの不等式により,これはモデルのパラメータの分
散をできるだけ下げることと等価


1
 ( x )   tr x ( ) 1 U ( )
2 Fisher information matrix
1 U
U ( )   x (u ) ( )
U u 1
FIR
対数尤度の期待値
2
( )ij    P( x ) P ( y | x )
log P ( y | x )
 i  j
x
y
2
x ( )ij    P ( y | x )
log P ( y | x )
 i  j
y
2
x ( )ii    P ( y | x ) 2 log P ( y | x )
 i
y
 


  P ( y | x )
log P ( y | x ) 
  i

y
対角要素のみで近似
(Nyffenegger et al., 2006)
確率として正規化されているこ
とから導かれる定理
2
 

  P ( y | x )
log P ( y | x ) 
yYN*
  i

x に関するFisher
Information matrix
y をn-best解で近似
2

以下の式を最小化する

tr x ( ) 1 U ( )

◦ x をn-best解でラベル付けしたとき,モデルの対数尤度の θi
に関する勾配は大きい方がよい
 モデルを大きく変更する可能性がある
◦ x をn-best解でラベル付けしたとき,モデルの対数尤度の勾
配は,すべてのラベル無しサンプルをn-best解でラベル付け
したときの勾配に近い方がよい
 外れ値のラベル付けはしないほうがよい

CoNLL-03 (Sang and DeMeulder, 2003)

NLPBA (Kim et al., 2004)

BioCreative (Yeh et al., 2005)

FlySlip (Vlachos, 2007)

CORA (Peng and McCallum, 2004)

Sig+Reply (Carvalho and Cohen, 2004)

SigIE
◦ Newswire記事の固有表現抽出(PER, ORG, LOC, MISC)
◦ 生命・医学文献の固有表現抽出(protein, RNA, cell-type)
◦ 生命・医学文献の固有表現抽出(gene mention)
◦ 生命・医学文献の固有表現抽出(gene mention)
◦ 論文のヘッダーからタイトル,著者名,所属情報を抽出
◦ 論文の参考文献から,BibTeXのフィールドを抽出
◦ メールからシグニチャと引用を認識
◦ メールからアドレス帳の情報(名前,メール,電話番号)を抽出
※ラベルはすべてIOB表記

CRFの素性は平均的なもの
◦ 単語素性,綴り素性(文字種など),品詞,…

能動学習のベースライン
◦ ランダムにサンプルを選択する (Random)
◦ 系列が長いサンプルから選択する (Long)

実験設定
◦
◦
◦
◦
◦
N-best近似は N = 15
QBC手法におけるデータ分割数 C = 3
Information densityにおける重み付け β = 1
教師有りデータはランダムに選んだ5事例からスタート
1回の能動学習ループにおける追加事例数 B = 5

明確な勝者はなし

◦ Information density (ID) が良い
 Sequence entropy (SE) をほぼ改善
 大きいコーパスでは効果あり
◦ Sequence vote entropy (SVE) も良さ
そう
◦ Uncertainty samplingでは,least
confidence (LC) と sequence entropy
(SE) が良さそう

トークンベースよりも系列ベース
の戦略のほうが良い
系列長の平均は要らない
◦ 長い系列は難しいと考えるべき

EGLやFIRは,理論的にはしっか
りしているが,近似(N-bestや対
角化)のためか,性能があまり良
くない

Uncertainty sampling戦略が一番速い
◦ トークンベースの戦略が系列ベースの戦略よりも若干速い

Query-by-committee (QBC) 戦略は,複数のモデルを訓
練しなければならないので,時間がかかる
◦ 5個のクエリを見つけるのに3~4分

EGLとFIRがもっとも遅い
◦ 1個のクエリを見つけるのに8~10分
◦ 素性の数 K に関して,処理時間が線形に増加してしまう

Information density (ID) ← 著者らのお薦め
◦ サンプルの中心性を事前に計算すれば,実行時間はSEと同じ
 中心性の計算を行うのに,30分から2時間くらいかかる