Transcript Document
照応・共参照解析を利用した
文章の首尾一貫性の評価
(修正版)
飯田龍 徳永健伸
SIGNL204-11 (Nov 22 2011)
はじめに
2
談話の首尾一貫性(意味的なつながりの良さ)の
推定は談話理解の研究で必須となる課題
応用先
複数文書要約の後処理
文章のの自動採点・推敲支援など
研究の動機: 談話レベルの推敲支援
1:本稿では,文の構造情報を利用した照応解析2の手法を提案する.
3
2:照応関係1とは文章中の表現がある表現を指す関係をいう.
修正前
3:本研究では(φ2の)問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分けて
考える.
4:(φ1の)指し元側の表現を照応詞,(φ1の)指し先側の表現を先行詞という.
5:照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほと
んど着目されていなかった.
6:機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用されてきた.
2:照応関係とは文章中の表現がある表現を指す関係をいう.
4:このうち,指し元側の表現を照応詞,指し先側の表現を先行詞という.
修正後
6:これまでの機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用
されてきた.
5:照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほと
んど着目されていなかった.
3:そこで,本研究3では問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分け
て考え,
1:前者の問題については,(φ3では)文の構造情報を利用した照応解析2の手法を提案する
研究の動機: 談話レベルの推敲支援
1:本稿では,文の構造情報を利用した照応解析2の手法を提案する.
4
2:照応関係1とは文章中の表現がある表現を指す関係をいう.
修正前
部分問題
3:本研究では(φ2の)問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分けて
考える.
首尾一貫性の良さの評価
4:(φ1の)指し元側の表現を照応詞,(φ
1の)指し先側の表現を先行詞という.
5:照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほと
んど着目されていなかった.
談話単位(e.g.
文,節)の順序並び換え
6:機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用されてきた.
2:照応関係とは文章中の表現がある表現を指す関係をいう.
照応・共参照関係の解析・生成
4:このうち,指し元側の表現を照応詞,指し先側の表現を先行詞という.
修正後
6:これまでの機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用
されてきた.接続関係の同定と必要に応じた接続
5:照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほと
表現の挿入・修正・削除
んど着目されていなかった.
3:そこで,本研究3では問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分け
て考え,
1:前者の問題については,(φ3では)文の構造情報を利用した照応解析2の手法を提案する
関連研究
5
談話単位(e.g. 節or文)の間の関係をどう考えるか
修辞構造理論(Mannら
1988)に代表される談話関係
に関する議論
定義された関係のセットの妥当性 / 文章の構造を木
とグラフのどちらで考えるか?
談話単位(e.g. 名詞句)の文章内の遷移から(局所
的な)首尾一貫性の特徴を捉える
(Barzilayら 2008): 文法役割に関す
る遷移を利用した首尾一貫性モデルを提案
entity-gridモデル
entity-gridモデル (Barzilayら 2008)
6
S1 さきがけの武村正義代表は 五日、地元の滋賀県で記者会見し、今夏の参院選に
ついて、党公認候補として選挙区で八、九人を擁立する方針を初めて表明した。
S2 武村代表は「改選数三以上の東京、大阪、神奈川、埼玉、愛知と、改選数一の三、
四県で公認候補を擁立し、比例区にも候補者を立てたい」と語った。
S3 さきがけは同日、参院選滋賀選挙区に、県議の奥村展三氏を公認候補として擁立
すると発表した。
entity-grid
さきがけ 武村代
表
五日 方針 ...
S1 X
S
X
O
...
S2 −
S
−
−
...
S3 S
−
X
−
...
S: 主語 / O:目的語 / X:その他 / −:出現しない
首尾一貫性の高い文章で
P(SS)やP(OSX)など
それぞれの遷移がどの程
度起こるのか
首尾一貫性の低い場合で
も同様にP(..)を計算し,
順序学習する
関連研究: entity-gridモデルの拡張
7
日本語への適用 (横野ら 2010)
文法役割の4クラス:
subj/obj/other/ 主題を加えた5クラス: は/が/に,を/その他/-
Penn Discourse Treebank(PDTB)(Prasadら 2008)の
利用
文法役割ではなくPDTBで定義された談話関係におい
て談話要素がどのように出現するか
例: S1:Comp.Arg1S3:Temp.Arg1S4:Exp.Arg2
本研究のアイデア
8
「首尾一貫性の高い文章を書く際は,
照応・共参照関係を適切に多用する傾向がある」
という考えを採用
具体例
9
首尾一貫性: 高い
首尾一貫性: 低い
社会党は今年,(φガ)党の尊保をかけた「民
主リベラル新党」構想の実現に取り組む.
社会党は今年,(φガ)党の尊保をかけた「民
主リベラル新党」構想の実現に取り組む.
(φガ)21日に開く臨時党大会で新党結成方
針を決定し,(φガ)他団体に働きかける.
しかし,旧民主党は大半の議員が新進党に
参加し,さきがけとの連携も流動的で連携
相手は不確定だ.
しかし,旧民主党は大半の議員が新進党に
参加し,さきがけとの連携も流動的で連携
相手は不確定だ.
• 社会党についての記述が局所
的にまとめられている
• その後に旧民主党についての
話題が記述されている
21日に開く臨時党大会で新党結成方針が
決定され,(φガ)他団体に働きかける.
• 社会党 旧民主党 社会党
と頻繁に主題が交替する
• 不必要な交替のため,談話要素
が明示的に出現しない
本研究のアイデア
10
「首尾一貫性の高い文章を書く際は,
照応・共参照関係を適切に多用する傾向がある」
という考えを採用
「適切さ」「多用する」の推定
照応・共参照解析の結果を利用
照応・共参照関係の適切さ/多用の
推定
11
適切さ
首尾一貫性の高い文章にタグ付けされた照応・共参照
関係をもとに構築された照応・共参照モデルを利用
期待できること
このモデルを首尾一貫性の高い文章へ適用
適切に照応・共参照関係を同定できる
首尾一貫性の低い文章へ適当
相対的に照応・共参照関係を同定できない
多用
照応・共参照解析モデルの出力する照応・共参照関係
の個数
提案する首尾一貫性スコア
12
文章 T,文章中に出現する照応詞候補 j,
照応詞候補の総数をNとする
N
1
coherence(T )= å is_coref( j)
N j
ì 1 j が先行詞を持つ
is_coref( j) = í
î 0 それ以外
文章
T に何個照応関係が出現するかを
首尾一貫性の指標とする
首尾一貫性の高い文章と低い文章で同じスコアと
なる場合が多くなることが容易に想像できる
提案する首尾一貫性スコア
13
文章 T,文章中に出現する照応詞候補 j,
照応詞候補の総数をNとする
N
1
coherence(T )= åscore_coref( j)
N j
e.g.
score_coref( j) = -logmax P(COREF | i, j)
i
文章
T に出現する照応詞候補 j がどの程度の信頼
度で前方文脈に先行詞を持つかという情報を参照
照応・共参照解析モデルの利用
14
独立に2種類のモデルを導入し,どちらの解析結果が
どのように首尾一貫性のスコアに影響するかを調査
名詞句共参照モデルにはIida
解析モデルを利用
照応性判定/
ゼロ代名詞検出モデル
score_coref( j) =
先行詞
同定モデル
-log
&Poesio (2011)の
max P(COREF | i, j) + P(ANAPH | j)
i
2
P(ANAPH | j): 探索先行分類型モデル(飯田ら 2005)
評価実験
15
データ生成
首尾一貫性の高い文章の文をランダムに並び変えた
(相対的に)首尾一貫性の低い文章を生成
1文章につき20の文章を作成
1.
2.
照応・共参照解析の評価
首尾一貫性の評価
評価用データ
16
NAISTテキストコーパス 1.4ß (飯田ら 2010)
既存研究(Taira
et al. 2010,Imamura et al. 2009など)
で採用されている事例の分割方法に従い訓練・評価
用事例を作成
データ種別
訓練用
評価用
記事数 総文数
1,753 24,263
696 9,287
名詞句
共参照
10,206
4,396
実験1: 照応・共参照解析
17
首尾一貫性の評価の前に本研究で利用する
名詞句共参照解析の性能を評価
首尾一貫性の高い文章
T と低い文章T’iでどのくらい
解析精度に差があるのかを調査
実験1: 評価結果(名詞句共参照解析)
18
T’1〜T’20までの結果はほどんど同じなので
T’1〜T’5までの結果を示す
首尾一貫性
T
高
T’1
T’2
T’3
低
T’4
T’5
再現率
0.477
0.409
0.405
0.412
精度
0.792
0.751
0.750
0.746
F値
0.595
0.530
0.523
0.531
0.413
0.406
0.746
0.744
0.532
0.525
首尾一貫性が高い文章のほうがより正しく解析できて
いることがわかる
実験2: 首尾一貫性の評価
19
Barzilayら(2008)と同様の評価
首尾一貫性の高い文章と低い文章の対を入力とし,
どの程度首尾一貫性の高い文章を選択できるか
比較するモデル
entity-gridモデル
(共参照解析あり/なし)
文法役割は横野らが利用した[は/が/に,を/その他/-]
の5種類を採用
首尾一貫性スコア
上記2つの組合せ
(名詞句共参照解析)
実験2: 評価結果
20
モデル
random
entity-grid (-coref)
(a) entity-grid (+coref)
(b) 首尾一貫性スコア:
名詞句共参照解析
(a)+(b)
精度
0.500
0.673
0.707
0.761
0.782
首尾一貫性モデルの適用例:
名詞句共参照解析
21
首尾一貫性: 高い
首尾一貫性: 低い
S1 十四日午前一時三十五分ごろ、東京都世田
谷区代沢二の区道で、乗用車が電柱に衝
突して逃げた、 と一一〇番通報があった。
S’1
(=S4)
運転していたのは俳優の坂上忍容疑者
で、酒酔い状態だったため、 同署は道
路交通法違反の現行犯で逮捕した。
S2 北沢署であて逃げ事件とみて捜査したとこ
ろ、前部が壊れた乗用車を発見。
S’2
(=S6)
同乗の女優にけがはなかった。
S3 逃走したためパトカーが追跡、運転していた
男を取り押さえた。
S’3
(=S1)
十四日午前一時三十五分ごろ、東京都
世田谷区代沢二の区道で、乗用車が電
柱に衝突して逃げた、 と一一〇番通報
があった。
S4 運転していたのは俳優の坂上忍容疑者で、 S’4
酒酔い状態だったため、 同署は道路交通法 (=S2)
違反の現行犯で逮捕した。
北沢署であて逃げ事件とみて捜査したと
ころ、前部が壊れた乗用車を発見。
S5 坂上容疑者は二週間のけが。
S’5
(=S5)
坂上容疑者は二週間のけが。
S6 同乗の女優にけがはなかった。
S’6
(=S3)
逃走したためパトカーが追跡、運転して
いた男を取り押さえた。
まとめ
22
照応・共参照関係の自動解析の結果に基づく首
尾一貫性モデルの提案
名詞句共参照の結果から首尾一貫性スコアを計算
そのスコアをもとに首尾一貫性の良さを推定する手
法を提案
日本語新聞記事コーパスを対象とした首尾一貫
性の評価で78.2%の精度を得た
今後の課題
23
新聞記事は社説などの記事を含むため,想定す
る首尾一貫性に関連する記述とはなっていない
学生の作成した小論文(宇佐美 2011)を対象とした
評価を実施
首尾一貫性モデルの改善に向けて
同一実体を指していない場合でも関連する談話要素
が文章中に偏在しており,それらをどう考慮すべきか
を検討すべき