Bootstrapping, self-training and co
Download
Report
Transcript Bootstrapping, self-training and co
DMLA 2008-06-17
小町守
半教師あり学習
チュートリアル
本チュートリアルのねらい
(自分の博士論文に関係のある)半教師あり学
習についての紹介
長所と短所のサーベイ
半教師あり学習使ってみようという人を増やす
2
イントロダクション
半教師あり学習(Semi-supervised learning)
ラベルありデータとラベルなしデータの両方を利用し
た学習法全般
ラベルありデータ:
正解が付与されているデータ
ラベルなしデータ: 正解が付与されていないデータ
種類
クラスタリング、分類、回帰、ランキング、…
3
本チュートリアルで想定するNLPタスク
固有表現抽出タスク
新しい
新しい
NE 新しい
NE
NE
シード
NE
シード
パターン
大規模
データ
大規模
データ
大規模
データ
新たなパターン獲得
4
本チュートリアルで想定するNLPタスク
語義曖昧性解消タスク
シード
用例
分類器
大規模
データ
大規模
データ
大規模
データ
新たな用例獲得
5
半教師あり学習の目的
ラベルありデータとラベルなしデータが存在
ラベルなしデータを使って性能向上したい
(前提)
ラベルなしデータは大量に獲得可能
ラベルありデータは作成にコストがかかる
人手でつけるのは面倒
専門知識が必要
アノテーションツールが使いにくい(などなど……)
6
半教師あり学習が有効な場合(1)
前提
インスタンスがたくさんあるところに分離平面を引き
たくない
7
半教師あり学習が有効な場合(2)
前提: データのよい生成モデルがある
Gaussian Mixture のパラメータは EM で求めることができる
クラスのラベルは正解付きデータから推定
8
2つのアルゴリズム
分類器に基づく手法
初期分類器から始め、反復的に分類器を洗練
Self-training/co-training
データに基づく手法
データに備わっている構造を発見し、分類器を構築
する際に用いる
グラフベースの手法
9
分類器の予測結果に基づく手法
•
仮定
–
•
分類器の出した確信度の高い予測結果は正しい
アルゴリズム
ラベルありデータから分類器を教師あり学習
2. ラベルなしデータのラベルを予測
3. ラベルなしデータと予測結果(擬似的な正解ラベル)
をラベルありデータに追加
4. 繰り返し
1.
10
SELF-TRAINING
Yarowsky 1995
語義曖昧性解消(インスタンスは語義)
One sense per discourse の制約により新しいパターン獲得
11
実際の学習法
ラベルなしデータのラベルを予測
予測ラベルを正解と見なしてラベルありデータに
追加
閾値以上の確信度の予測結果のみを追加
確信度の上位k個の予測結果のみを追加
重み付きで全ての予測結果を追加
ラベルありデータ+予測ラベル付きラベルなし
データで分類器を教師あり学習
12
2015/9/29
ブートストラップ(固有表現抽出)
パターン抽出とインスタンス獲得を交互に繰
り返して少量のシードインスタンスを反復的に
増やす
インスタンス
MacBook Air
コーパス
パターン
アップルMacBook Air注文
アップル#注文
iPod touch
アップルiPod touch注文
MacBook Pro
アップルMacBook Pro注文
#:インスタンス
が入るスロット
13
特長と問題点
特長
複雑な仮定が不要
ラッパーとして用いることができる
既存の分類器との親和性が高い
NLP
で実際よく使われている
問題点
真の分布に基づく分類器の実現は困難
初期に間違えると間違いが増幅される
収束条件がよく分からない
14
SELF-TRAINING の問題点(CONT.)
高次元スパース空間(素性の数が膨大で、訓練
事例にはほとんど現れない場合)には不向き
NLP
では典型的には高次元スパース空間
本質的な性能の向上は見込めない
分類器自身が知っていることを再学習しても情報量
は増えない
(Cf.
能動学習 active learning)
ラベルなしデータの量を増やしても性能が向上しな
いことが多い
15
CO-TRAINING (MULTIVIEW LEARNING)
•
仮定
–
–
–
•
素性分割が可能
分割した素性それぞれで十分な分類器が学習可能
分割した素性が条件付き独立
アルゴリズム
–
–
–
–
–
分割した素性から2つの学習器を学習
ラベルなしデータをそれぞれの分類器で分類
分類器1の確信度上位k個を分類器2のラベルありデータに
追加
分類器2の確信度上位k個を分類器1のラベルありデータに
追加
繰り返し
16
CO-TRAINING
Blum & Mitchell 1998
ウェブページのラベル付け
View 1
による分類器
View1 の分類器
の予測ラベルを
View2 の分類器
の訓練事例に、
逆も同様にして反
復
View 2
による分類器
View1 ページにリンクしているハイパーリンクのテキスト
View2 ウェブページのテキストそのもの
17
CO-TRAINING の特長と問題点
特長
Self-training
より間違いに強い
タスクの特徴をうまく捉えた使い方をした場合、ラベ
ルありデータの数が少ない場合は性能が向上したと
いう報告あり
問題点
自然に素性を分割できる場合のみ有効
全素性を使って教師あり学習したほうがよい性能を得られ
る場合が多い(ランダムに素性を分割する話もある)
18
CO-TRAINING の兄弟
•
Co-EM
–
–
–
•
上位k個だけでなく全部の結果を追加する
各分類器が確率的にラベルなしデータを予測
ラベルなしデータと予測結果を重みP(y|x)で追加
Multiview Learning
–
–
–
–
素性分割なし
複数のタイプの分類器を学習
ラベルなしデータを全ての分類器で予測
ラベルの多数決の結果を追加
19
EM (DEMPSTER ET AL, 1977)
ラベルありデータとラベルなしデータの対数尤度
を最大化
log(P(y | )P(x | y ,)) log(P(y | )P(x
i
i
i
j
Ll:ラベルありデータの対数尤度
i
j
| y,))
y
Lu: ラベルなしデータの対数尤度
θ
π
x
y
20
STABLE MIXING OF INFORMATION
(CORDUNEANU 2002)
ラベルありデータとラベルなしデータの対数尤度
を線形補間
(1 )Ll Lu
EM で最適化することができる
最適なλの値を求めるためのステップが必要
21
EMの特長と問題点
特長
ラベルなしデータを自然に組み込むことができる
テキスト分類タスクではよい性能を示している
問題点
適切な生成モデルを使わないとよい性能は出ない
パラメータを決めるステップが入る
少量のラベルありデータのときは性能向上するが大
量にラベルありデータがあるときは性能が悪化する
という報告(Merialdo, 1994)もある
22
類似度グラフを用いる手法
仮定
類似サンプルは同一ラベルを持つ傾向にある
前提
サンプル間の類似度を定義可能
事前知識,
kNN
アイデア
類似度グラフに対してグラフベースのアルゴリズム
を用いてクラスタリング
23
類似度グラフによる手法の直感的解釈
Overlap がない状態でもpropagationでうまくいく
隣接するノードは類似のラベルを持つ(図は
Zhu 2007 より引用)
24
類似度グラフによるラベルなしデータの利用
25
グラフによる手法の特長と問題点
•
特長
–
–
•
グラフ理論など数学的な背景が確立
よいグラフが得られていればよい性能が得られる
問題点
–
–
–
適切なグラフ構造(やエッジの重み)を得ることが難しい
計算量が相対的に大きい
Transductive な方法が多い
•
•
Transductive: テスト事例が既知のときの学習
Inductive: 未知データを含む全データを対象
26
まとめ
Self/co-training
教師あり学習との親和性が高いのでよく使われてき
た
うまくいったりいかなかったり、タスクに応じて使わな
いといけない
グラフに基づく手法
NLP
タスクにおけるよいグラフは自明でない
計算量が相対的に大きい
27
資料
言語処理学会第14回年次大会チュートリアル:
半教師あり学習による分類法:—現状と自然言語
処理への適用—, 鈴木潤・藤野昭典
ICML 2007 Tutorial: Semi-supervised Learning,
Xiaojin Zhu.
NAACL 2006 Tutorial: Inductive Semisupervised Learning with Applicability to NLP, A.
Sarkar and G. Haffari.
28