先行詞 - 東京工業大学
Download
Report
Transcript 先行詞 - 東京工業大学
NLP2010 11th March, 2010
述語対の項共有情報を利用した
文間ゼロ照応解析
飯田 龍
徳永 健伸
東京工業大学 大学院情報理工学研究科
{ryu-i,take}@cl.cs.titech.ac.jp
1
NLP2010 11th March, 2010
研究背景
ゼロ照応解析
文章中の省略されている格要素(ゼロ代名詞)を検
出してその指し先(先行詞)を補完するタスク
先行詞
政府1は低所得者を(φ1ガ)支援する計画を
(φexoニ)発表した。
関係省庁2の協力を(φ1ガ)(φ2ニ)要請する。
ゼロ代名詞
情報抽出のような応用処理で必須となる要素技術
言語理解の実現度を見積る良い試金石
2
NLP2010 11th March, 2010
文内・文間のゼロ照応
ゼロ照応解析の問題を文内と文間の2つに分割
文内ゼロ照応
太郎は遅刻して(φガ)授業に遅れた。
統語的なパタン
local topicの遷移
文間ゼロ照応
そこにいたお年寄りたちは、ただボーッとしてい
るような感じの人がほとんどだった。
私は近づくのを躊躇った。
しかし、私が近くに行くと、とてもうれしそうに話
を(φガ)してくれ、笑顔を見せてくれた。
談話の挿入
global topicの遷移
文間の場合は統語的な手がかりが利用できず
解析が困難になる
3
NLP2010 11th March, 2010
本研究で新たに導入する手がかり
「Xガ 壊す Xガ 修理する」のような
述語対の項の共有情報の利用を考える
太郎が次郎を尋ねたとき、彼はラジオを修理
していた。
先週(φガ)落として(φガ)壊したらしい。
太郎は次郎がラジオを修理しているときに彼
の家を訪ずれた。
先週(φガ)落として(φガ)壊したらしい。
顕現性:高
次郎
太郎
4
NLP2010 11th March, 2010
関連研究
含意関係認識などで利用する事態間関係の
知識獲得
(Pekarら 2006, Abeら 2008, Szpektorら 2008, etc.)
教師無しであるパタンで出現している述語対を収集
相互情報量などの共起尺度で重み付け
共起事例を収集するための手がかり
述語の局所文脈の類似性
(Linら 2001, Szpektorら 2008)
アンカー(疑似共参照関係)
(Pekarら 2006)
並列表現
(鳥澤 2003)
5
NLP2010 11th March, 2010
アンカーを用いた知識獲得手法 (Pekarら 2006)
1.
文章中に出現する同一名詞句(アンカー)を
近似的に共参照関係とみなして,述語対を収集
共起事例収集の例
Mary bought a house.
The house belongs to Mary.
2.
{buy(subj:X), belong(obj:X)},
{buy(obj:X), belong(subj:X)}
頻度をもとにMIなどの共起尺度でランク付け
P( x, y )
MI( x, y ) log
P( x) P( y )
6
NLP2010 11th March, 2010
アンカーを用いた知識獲得手法の問題点
同一名詞句が共参照関係にあるとは限らない
共起にノイズが混入
ゼロ照応が頻出する
大規模に獲得できない可能性がある
ゼロ照応関係から知識獲得
どのようなパタンで出現した場合にも等価に扱っ
てよいのか?
人間は特徴的なパタンで出現している場合には1回
しか出現していない場合でも知識獲得できる
出現パタンの信頼度を導入
7
NLP2010 11th March, 2010
ゼロ照応関係を利用した項共有の知識獲得
ゼロ照応関係に関する述語対がどの程度項を
項共有スコア
共有するかのスコアを見積る
アジア一の国際リゾートを目指し
観光ビジネスに取り組む
地域課題解決を目指して
各市町村が問題解決に取り組んでいる
項共有
モデル
彼はマスコミを嫌っているので
インタビューを拒否した
彼が書類の作成を嫌ったため
会社Aは彼のイベントへの参加を拒否した
※先行詞が明示的に記述されていない場合も
※ガ格-ガ格の組み合わせのみ
述語対タイプの
スコア 算出
3.24
1.83
2.19
-1.05
目指す-取り組む:
3.51
嫌う-拒否する:
0.79
8
NLP2010 11th March, 2010
1. 項共有モデルの構築
機械学習に基づく項共有関係の2値分類
述語項構造のタグが付与されたコーパスを利用
分類対象
述語対が係り受け関係にある場合に限定
「ため」「ので」「が」のような接続表現が項共有を同定する
ための手がかりとなる (南, 1974)
彼女はお茶を飲みながら本を読んでいる
{ガ:飲む,
ガ:読む}
訓練事例
正例:
係り受け関係にある
述語対が同一の項を取る場合
負例: それ以外
9
NLP2010 11th March, 2010
1. 項共有モデルの構築: 素性
彼女は / お茶を / 飲みながら / 本を / 読んでいる
語彙的素性
vi
vi(vj)の述語(基本形)
vj
(例: 飲む)
統語的素性
vi(vj)を含む文節に出現する機能語
(例: ながら)
vi(vj)の間の文節に出現する機能語 (例: を)
vi(vj)の係り元の文節に出現する機能語 (例: は)
項共有の素性
vi
とvjが大規模コーパス中でどのくらい項を共有して
いるか
<名詞:格助詞>と<動詞>の共起をpLSIで次元圧縮して得ら
れるP(z|v
)のJS divergence
10
NLP2010 11th March, 2010
ゼロ照応関係を利用した項共有の知識獲得
ゼロ照応関係に関する述語対がどの程度項を
項共有スコア
共有するかのスコアを見積る
アジア一の国際リゾートを目指し
観光ビジネスに取り組む
地域課題解決を目指して
各市町村が問題解決に取り組んでいる
項共有
モデル
彼はマスコミを嫌っているので
インタビューを拒否した
彼が書類の作成を嫌ったため
会社Aは彼のイベントへの参加を拒否した
※先行詞が明示的に記述されていない場合も
※ガ格-ガ格の組み合わせのみ
述語対タイプの
スコア 算出
3.24
1.83
2.19
-1.05
目指す-取り組む:
3.51
嫌う-拒否する:
0.79
11
NLP2010 11th March, 2010
2. 述語対タイプの項共有スコアの計算
述語対のインスタンス( vik , v jk )について
求めたスコア
述語対のタイプ( vi , v j )についてのスコアへ
N ij
arg_share( vi , v j ) log( N ij 1) score( vik , v jk )
k
述語対タイプの頻度
インスタンスのスコア
12
NLP2010 11th March, 2010
評価実験
文間ゼロ照応解析の先行詞同定
1.
項共有のスコアのみで先行詞の順位を評価
2.
項共有のスコアを機械学習に基づく
モデルの素性に加えて評価
13
NLP2010 11th March, 2010
先行詞候補の順序付け: 実験設定 1/2
項共有モデルの学習事例
(NAISTテキストコーパス(飯田ら, 07)中の係り受け
関係にある述語対, ガ格-ガ格の組み合わせ)
正例: 8,543事例
負例: 29,244事例
述語対インスタンス
毎日新聞12年分から抽出
茶筌・CaboChaで形態素・係り受け解析
項共有学習・分類
Support Vector Machine (Vapnik, 98)
線形カーネル + デフォルトパラメタ
14
NLP2010 11th March, 2010
先行詞候補の順序付け: 実験設定 2/2
評価用データ
NAISTテキストコーパスの1部 287記事
(2,399文)の文間ゼロ照応394事例
評価指標
MRR 1 / N 1 / rank( n)
nN
15
NLP2010 11th March, 2010
MRRを用いた評価結果
モデル
ベースライン(ランダム)
アンカーを用いたスコア
提案手法のスコア
MRR
0.436
0.465
0.524
NA
--53
15
NA: スコアを計算できない事例数
収集できた述語対の数
アンカーに基づく手法:
提案手法:
1,651,118対
9,146,543対
約5.5倍
16
NLP2010 11th March, 2010
提案手法の学習曲線
訓練事例の規模を変化させた際の
MRRの変化を調査
さらに規模を増やすことで精度が向上する見
込みあり
17
NLP2010 11th March, 2010
評価データ中の述語対を各手法でスコア付けした結果
(上位10事例)
アンカーに基づく手法
述語対
スコア
9.49
適合する-適合する
8.72
亡くす-亡くす
7.75
着陸する-着陸する
7.17
見守る-すすり泣く
6.95
告訴する-告訴する
6.83
引き下げる-引き下げる
6.28
造る-造る
6.12
溶ける-溶かす
6.07
捨てる-捨てる
5.78
収容する-収容する
提案手法
述語対
逮捕する-捜索する
語る-示す
置く-始める
語る-表明する
語る-見せる
示す-けん制する
亡くす-する
亡くす-失う
訴える-示す
強調する-示す
スコア
5.96
3.71
3.40
3.32
2.89
2.61
2.55
2.46
2.35
2.05
18
NLP2010 11th March, 2010
先行詞同定における評価
文間先行詞同定
ゼロ代名詞が出現する文と異なる文に出現する先
行詞のみを対象に
先行詞同定モデル
トーナメントモデル(飯田ら, 2003)
先行詞候補間で比較を行い,最終的に最も先行詞らしい
候補を決定する
項共有のスコアを加えた場合の精度の変化を
調査
19
NLP2010 11th March, 2010
素性
ゼロ代名詞を項として持つ述語の情報
語彙・統語情報
先行詞候補の情報
語彙・統語・意味情報,出現位置
ゼロ代名詞が出現した状況での先行詞候補の
顕現性の情報
述語と先行詞候補の対から抽出可能な素性
選択選好,述語と先行詞候補の距離など
20
NLP2010 11th March, 2010
先行詞同定の結果
モデル
精度
a)ベースラインモデル
0.668
b) a+ アンカーを用いたスコア 0.689
c) a+ 提案手法のスコア
0.696
d) a+ アンカーを用いたスコア 0.705
+ 提案手法のスコア
項共有のスコアを導入することで
ベースラインより精度向上
21
NLP2010 11th March, 2010
先行詞同定の結果
モデル
精度
a)ベースラインモデル
0.668
b) a+ アンカーを用いたスコア 0.689
c) a+ 提案手法のスコア
0.696
d) a+ アンカーを用いたスコア 0.705
+ 提案手法のスコア
アンカーを手がかりとするより,
項共有のモデルを導入することが
精度向上に貢献した
22
NLP2010 11th March, 2010
先行詞同定の結果
モデル
精度
a)ベースラインモデル
0.668
b) a+ アンカーを用いたスコア 0.689
c) a+ 提案手法のスコア
0.696
d) a+ アンカーを用いたスコア 0.705
+ 提案手法のスコア
それぞれのスコアを素性として導入することが
相補的に役立った
23
NLP2010 11th March, 2010
まとめと今後の課題
述語対の項共有モデルを利用したゼロ照応解
析手法
ゼロ照応解析タグ付きコーパスを用いて項共有モデ
ルを構築
そのモデルの出力するスコアを素性として利用する
ことにより,先行詞同定で4%の精度向上
今後の課題
病気ニなる」のような句と句の粒度
で事態間の関係を捉える
「体調ヲ崩す
24