A Graph-Theoretic Approach to Reducing Semantic Drift in a Family

Download Report

Transcript A Graph-Theoretic Approach to Reducing Semantic Drift in a Family

A Graph-Theoretic Approach to Reducing Semantic
Drift in a Family of Bootstrapping Algorithms
小町守(†), 工藤拓(‡), 新保仁(†), 松本裕治(†)
(†) 奈良先端科学技術大学院大学
(‡) グーグル株式会社
第7回SVM勉強会定例研究会 2008年8月31日
2015/9/24
背景
自然言語処理における機械学習の成功


教師あり手法


タグ付きコーパスが必要
整備された辞書が必要
人手コストがかかる
→できるだけコスト減らしたい
2
ブートスト
ラップ
教師なし手法
人手の介在を最小限に
しながら学習を行える
リソースがない言語でも
扱うことができる
9/24/2015
ブートストラップ
パターン抽出とインスタンス獲得を交互に繰り返して少
量のシードインスタンスを反復的に増やす

インスタンス
MacBook Air
コーパス
パターン
アップルMacBook Air注文
アップル#注文
iPod touch
アップルiPod touch注文
MacBook Pro
アップルMacBook Pro注文
3
#:インスタンス
が入るスロット
9/24/2015
ブートストラップの問題点
意味ドリフトの問題

シード
共起パターン
広末涼子
湯布院
熱海
ジェネリックパターン
=多数のインスタンスと共起するパターン
〜の写真
イチロー
……
意味ドリフト=いったんジェ
ネリックパターンを獲得して
しまうとそれ以降シードイン
スタンスと関連性の低いイ
ンスタンスを獲得してしまう
理論的裏付けに乏しい



4
パラメータ数が多く調整が難しい
タスク・ドメイン依存
9/24/2015
目的
1.
ブートストラップのグラフ理論による解析
•
•
2.
意味ドリフトと HITS (Kleinberg, 1999) のトピックドリフト
との関連性
•
3.
ブートストラップにおけるヒューリスティックの意義
グラフに基づくカーネルを用いた意味ドリフトの解決
•
5
Espresso (Pantel and Pennachiotti, 2006) のリンク解析的定式化
Espresso の収束解析
ジェネリックパターンの影響を抑えつつ関連性の高いインスタ
ンスを獲得する手法
9/24/2015
2015/9/24
ブートストラップの定式化
シードインスタンスのスコアベクトル i 0  0,...,1,...,0
パターン-インスタンス共起行列P 行列の(p,i)要素はパターンp


0

1

P
1

0
1
0
1
1
0
0
0
1
0

0
1

1
以下を反復
p  Mi


i  MT p
I と p が収束したら終了


7
とインスタンスiの共起

インスタンスの類似度行列をM=PTP
として、このステップを再帰的に行うと
in=Mni0
インスタンスとパターン
のベクトルを出力
9/24/2015
簡略化版 Espresso (simplified Espresso)
 シードインスタンスのスコアベクトル i 0  0,1,0,0
パターン-インスタンス共起行列 行列の(p,i)要素はパターンpと

0.001 0.6 0.001 0.001


0.6
0.001
0.001
0.001

P  

0.001 0.2 0.001 0.2 


0.3 0.001
0.001 0.3
以下を反復
p  Mi


i  MT p
iとpが収束したら終了


8

インスタンスiの正規化された
自己相互情報量
1 pmi(i,p)
MP P
I P maxpmi
T
パターン抽出はブートストラップにおいて
必須ではない(小町ら, 2008)
ブートストラップの反復の際スコア上位
のパターン・インスタンスを獲得するとい
うヒューリスティック
9/24/2015
意味ドリフトと HITS のトピックドリフトの関連性
各反復ごとにinを正規化しながらn→∞とすると、シードイ
ンスタンスベクトルi0によらずin→Mの主固有ベクトル



Pを隣接行列とするHITSが返す権威度ベクトルと一致
シードインスタンスによらずランキングは一定
ブートストラップの反復を繰り返していくと意味ドリフトは不可避?
HITSによるグラフ解析ではトピックドリフトと言われてい
る現象


ブートストラップはグラフ解析とは異なり反復の際スコア上位
のパターン・インスタンスのみ使うというヒューリスティック
足切りヒューリスティックは意味ドリフト抑制効果がある?
9
9/24/2015
意味ドリフトとトピックドリフトの評価実験


Senseval-3 English Lexical Sample タスクのデータ
Bank の語義を当てる
 訓練事例262個・評価事例132個
 評価事例中の再頻出語義は「土手」の意味の86個(F=0.674)
… the financial benefits of the bank(銀行) 's
employee package ( cheap mortgages and
pensions, etc ) , bring this up to …
In that same year I was posted to South Shields on
the south bank(土手) of the River Tyne and quickly
became aware that I had an enormous burden …
Possibly aligned to water a sort of bank(???) by a
rushing river.
10
訓練事例には人手でつけた
語義がついている
評価事例の語義を当てる
9/24/2015
ブートストラップによる語義曖昧性解消


シードインスタンス=語義を当てる対象の用例
システムの出力=スコアの高い順3インスタンスのうち多
数を占める語義(k=3 の k-nearest neighbour)
語義が同数の場合はスコアの一番高い語義
語義曖昧性解消に用いた素性



グローバル素性: パラグラフの bag-of-words

出現すれば1,出現しなければ0
ローカル素性: インスタンスの前後n単語(n=3)から作成した単語列
パターン
 (例) interest が対象のとき “sale of * interest in * *”
Espresso の足切りヒューリスティック(filtered Espresso)
 初期パターン数p=200 (反復ごとにp=p+1)
 初期インスタンス数m=100 (反復ごとにm=m+100)


11
9/24/2015
Espresso のヒューリスティックの比較結果
反復を繰り返しても意味ドリフトは
起きない
→足切りは意味ドリフトを抑えるた
めに必要な処理
徐々にジェネリックインスタンスに
高いスコアが割り振られ、意味ド
リフトが起きている
12
インスタンスの順番はHITSの重要度ランキングと一致
9/24/2015
→意味ドリフトとHITSのトピックドリフトは同じ原因
Filtered Espresso の学習曲線
最頻出語義の割合が増加
→意味ドリフトが起きている
足切りヒューリスティックを入
れても意味ドリフトは不可避
13
9/24/2015
グラフ解析を用いた意味ドリフトの解決

Espresso

意味ドリフトが避けられない



HITS 重要度の高いインスタンスを獲得してしまう
足切りヒューリスティックの効果は限定的
設定しなければならないパラメータが多い

最適化が大変
解決するための2つの手法
① ノイマンカーネル
② 正則化ラプラシアンカーネル
14
9/24/2015
ノイマンカーネル (Kandola et al., 2002)

拡散係数β(0≦β<λ)のノイマンカーネル行列K
β

K  A(I  A)  A A
1
n
n
n 0
A  PT P



Kβの(i,j)要素=インスタンスi,j間の類似度
シードインスタンスに対する相対的重要度が計算できる
共引用関連度と
HITS 重要度との混合を表現(伊藤ら,

2004)
15
9/24/2015
ノイマンカーネルはなにをするか?

A=PTPが表す共引用グラフ上での各ノード間の全ての経
路数の重み付き和


N次のパターン共起を考慮に入れている
(PTP)nの各行


Nが小さいとき→各ノード間の関連度
Nが大きいとき→HITS 重要度
〜の旅館
湯布院
16
熱海
〜の写真
広末涼子
〜のホームページ
イチロー
9/24/2015
……
ノイマンカーネルのパラメータ

ノイマンカーネル: n=1〜∞までの(PTP)nの重み付き和



拡散係数βが小さいとき→関連度
拡散係数βが大きいとき→HITSの重要度
βを小さめに設定すれば意味ドリフトを抑制・高次のパタ
ーン共起も考慮できるはず
あとで実験により検証
〜の旅館
湯布院
17
熱海
〜の写真
広末涼子
〜のホームページ
イチロー
9/24/2015
……
ノイマンカーネルの問題点の解決

ノイマンカーネルの問題点


βが小さいとき:高次のパターン共起を十分考慮できない
βが大きいとき:ジェネリックパターンに強い重みがつく
グラフラプラシアンを用いて解決できる
ジェネリックパターンと共起するイ
ンスタンスは関連度低くしたい
旅行パターンと共起するイン
スタンスは関連度高くしたい
〜の旅館
湯布院
18
熱海
〜の写真
広末涼子
〜のホームページ
イチロー
9/24/2015
……
正則化ラプラシアンカーネル

グラフ内の全経路の重み付き和


高次のパターン共起も考慮に入れることができる
負のラプラシアン -L はグラフ G の自己ループの重みを
変更したものに相当
グラフGのラプラシアンL
次数対角行列Dのi番目の対角要素
L  D A
D(i,i)   A(i, j)
A:隣接行列
β:拡散係数
j

正則化ラプラシアン行列Rβ

R   n (L)n  (I  L)1
ノイマンカーネル行列
n 0

K  A n An
n 0
19
においてAの代わりに-Lを使用、右辺第一項のAを削除

9/24/2015
グラフ解析を用いた意味ドリフト解決評価実験
提案手法が意味ドリフトの抑制に成功しているかどうか
グラフベースの語義曖昧性解消手法との比較
1.
2.
•
Agirre et al. (2006) との比較
•
HyperLex (Veronis, 2004) と PageRank (Brin and Page, 1998) を用いた実験
ノイマンカーネル・正則化ラプラシアンカーネルにおける
拡散係数の影響の比較
3.
•
20
本当にβが大きいときは大域的重要度に、小さいときは関連度
に偏った結果となっているか?
9/24/2015
Bank に対する予測ラベル(再現率)
Espresso は意味ドリフトが避けられない
アルゴリズム
MFS
Simplified Espresso
100.0 0.0
Filtered Espresso
100.0 30.2
Filtered Espresso (opt.)
94.4
67.4
ノイマンカーネル (β=10-5)
92.1
65.1
正則化ラプラシアン (β=10-2)
92.1
62.8
それ以外
ノイマンカーネルや正則化ラプラシアンは
意味ドリフトを回避している
21
9/24/2015
グラフベースの語義曖昧性解消(名詞のみ)
Espresso はパラメータのチューニングが必要
アルゴリズム
精度
再現率
F値
Most frequent sense
54.5
54.5
54.5
HyperLex
64.6
64.6
64.6
PageRank
64.5
64.5
64.6
Simplified Espresso
44.1
44.1
44.1
Filtered Espresso
46.9
46.9
46.9
Filtered Espresso (opt.)
66.5
66.5
66.5
ノイマンカーネル (β=10-5)
67.2
67.2
67.2
正則化ラプラシアン (β=10-2)
67.1
67.1
67.1
HyperLexやPageRankより数ポイント上
22
9/24/2015
拡散係数βに対する感受性
ノイマンカーネル
正則化ラプラシアンカーネル
パラメータによってかなり性能
に違い
パラメータによらずほとんど
性能に違いは見られない
24
9/24/2015
まとめ



グラフ理論によるブートストラップの解析を提案した
HITS におけるトピックドリフトとブートストラップにおける
意味ドリフトの類似性を指摘した
ブートストラップにおける意味ドリフトを防ぐために


ノイマンカーネル
正則化ラプラシアンカーネル
が使えることを語義曖昧性解消タスクで示した
今後の予定
 固有表現抽出タスクでも提案手法が適用できるか検証
 語義曖昧性解消タスクのドメイン適応
26
9/24/2015