Transcript 首尾一貫性の高い文章
照応・共参照解析に基づく 文章の首尾一貫性の指標 (修正版) 飯田龍 徳永健伸 東京工業大学 NLP2012 (March 14 2012) はじめに 2 談話の首尾一貫性(意味的なつながりの良さ)の 推定は談話理解の研究で必須となる課題 応用先 複数文書要約の後処理 文章の自動採点・推敲支援など 研究の動機: 談話レベルの推敲支援 1:本稿では,文の構造情報を利用した照応解析2の手法を提案する. 3 2:照応関係1とは文章中の表現がある表現を指す関係をいう. 修正前 3:本研究では(φ2の)問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分けて 考える. 4:(φ1の)指し元側の表現を照応詞,(φ1の)指し先側の表現を先行詞という. 5:照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほと んど着目されていなかった. 6:機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用されてきた. 2:照応関係とは文章中の表現がある表現を指す関係をいう. 4:このうち,指し元側の表現を照応詞,指し先側の表現を先行詞という. 修正後 6:これまでの機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用 されてきた. 5:照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほと んど着目されていなかった. 3:そこで,本研究3では問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分け て考え, 1:前者の問題については,(φ3では)文の構造情報を利用した照応解析2の手法を提案する 研究の動機: 談話レベルの推敲支援 1:本稿では,文の構造情報を利用した照応解析2の手法を提案する. 4 2:照応関係1とは文章中の表現がある表現を指す関係をいう. 修正前 部分問題 3:本研究では(φ2の)問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分けて 考える. 首尾一貫性の良さの評価 4:(φ1の)指し元側の表現を照応詞,(φ 1の)指し先側の表現を先行詞という. 5:照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほと んど着目されていなかった. 談話単位(e.g. 文,節)の順序並び換え 6:機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用されてきた. 2:照応関係とは文章中の表現がある表現を指す関係をいう. 照応・共参照関係の解析・生成 4:このうち,指し元側の表現を照応詞,指し先側の表現を先行詞という. 修正後 6:これまでの機械学習に基づく解析には冠詞や語の類似度など表層的な手がかりが利用 されてきた.接続関係の同定と必要に応じた接続 5:照応解析の手がかりには文内の構造が有効だと考えられるが,これまでの研究ではほと 表現の挿入・修正・削除 んど着目されていなかった. 3:そこで,本研究3では問題を照応詞と同一の文内に先行詞がある場合とそれ以外に分け て考え, 1:前者の問題については,(φ3では)文の構造情報を利用した照応解析2の手法を提案する 関連研究 5 談話単位(e.g. 節or文)の間の関係をどう考えるか 修辞構造理論(Mannら 1988)に代表される談話関係 に関する議論 定義された関係のセットの妥当性 / 文章の構造を木 とグラフのどちらで考えるか? 談話単位(e.g. 名詞句)の文章内の遷移から(局所 的な)首尾一貫性の特徴を捉える (Barzilayら 2008): 文法役割に関す る遷移を利用した首尾一貫性モデルを提案 entity-gridモデル entity-gridモデル (Barzilayら 2008) 6 S1 さきがけの武村正義代表は 五日、地元の滋賀県で記者会見し、今夏の参院選に ついて、党公認候補として選挙区で八、九人を擁立する方針を初めて表明した。 S2 武村代表は「改選数三以上の東京、大阪、神奈川、埼玉、愛知と、改選数一の三、 四県で公認候補を擁立し、比例区にも候補者を立てたい」と語った。 S3 さきがけは同日、参院選滋賀選挙区に、県議の奥村展三氏を公認候補として擁立 すると発表した。 entity-grid さきがけ 武村代 表 五日 方針 ... S1 X S X O ... S2 − S − − ... S3 S − X − ... S: 主語 / O:目的語 / X:その他 / −:出現しない 首尾一貫性の高い文章で P(SS)やP(OSX)など それぞれの遷移がどの程 度起こるのか 首尾一貫性の低い場合で も同様にP(..)を計算し, 順序学習する 関連研究: entity-gridモデルの拡張 7 日本語への適用 (横野ら 2010) 文法役割の4クラス: subj/obj/other/ 主題を加えた5クラス: は/が/に,を/その他/- Penn Discourse Treebank(PDTB)(Prasadら 2008)の 利用 文法役割ではなくPDTBで定義された談話関係におい て談話要素がどのように出現するか 例: S1:Comp.Arg1S3:Temp.Arg1S4:Exp.Arg2 (逆接) (順接) (詳述) 本研究のアイデア 8 「首尾一貫性の高い文章を書く際は, 照応・共参照関係を適切に多用する傾向がある」 という考えを採用 具体例 9 首尾一貫性: 高い 首尾一貫性: 低い 社会党は今年,(φガ)党の尊保をかけた「民 主リベラル新党」構想の実現に取り組む. 社会党は今年,(φガ)党の尊保をかけた「民 主リベラル新党」構想の実現に取り組む. (φガ)21日に開く臨時党大会で新党結成方 針を決定し,(φガ)他団体に働きかける. しかし,旧民主党は大半の議員が新進党に 参加し,さきがけとの連携も流動的で連携 相手は不確定だ. しかし,旧民主党は大半の議員が新進党に 参加し,さきがけとの連携も流動的で連携 相手は不確定だ. • 社会党についての記述が局所 的にまとめられている • その後に旧民主党についての 話題が記述されている 21日に開く臨時党大会で新党結成方針が 決定され,(φガ)他団体に働きかける. • 社会党 旧民主党 社会党 と頻繁に主題が交替する • 顕現性を反映しないゼロ照応の 利用 本研究のアイデア 10 「首尾一貫性の高い文章を書く際は, 照応・共参照関係を適切に多用する傾向がある」 という考えを採用 「適切さ」「多用する」の推定 照応・共参照解析の結果を利用 照応・共参照関係の適切さ/多用の 推定 11 「適切さ」 首尾一貫性の高い文章にタグ付けされた照応・共参照 関係をもとに構築された照応・共参照解析のモデルを 利用 期待できること このモデルを首尾一貫性の高い文章へ適用 適切に照応・共参照関係を同定できる 首尾一貫性の低い文章へ適当 相対的に照応・共参照関係を同定できない 「多用」 照応・共参照解析モデルの出力する照応・共参照関係 の個数 提案する首尾一貫性スコア 12 文章 T,文章中に出現する照応詞候補 j, 照応詞候補の総数をNとする N 1 coherence(T )= å is_coref( j) N j ì 1 j が先行詞を持つ is_coref( j) = í î 0 それ以外 文章 T に何個照応関係が出現するかを 首尾一貫性の指標とする 首尾一貫性の高い文章と低い文章で同じスコアと なる場合が多くなることが容易に想像できる 提案する首尾一貫性スコア 13 文章 T,文章中に出現する照応詞候補 j, 照応詞候補の総数をNとする N 1 coherence(T )= åscore_coref( j) N j e.g. score_coref( j) = -logmax P(COREF | i, j) i 文章 T に出現する照応詞候補 j がどの程度の信頼 度で前方文脈に先行詞を持つかという情報を参照 名詞句共参照解析モデルの利用 14 名詞句共参照解析のモデルを導入し,その結果が どのように首尾一貫性のスコアに影響するかを調査 名詞句共参照のモデルはIida 解析モデルを利用 照応性判定/ ゼロ代名詞検出モデル score_coref( j) = 先行詞 同定モデル -log &Poesio (2011)の max P(COREF | i, j) + P(ANAPH | j) i 2 P(ANAPH | j): 探索先行分類型モデル(飯田ら 2005) 評価実験:首尾一貫性の良さの評価 15 Barzilayら(2008)と同様の評価 首尾一貫性の高い文章と低い文章の対を入力とし, どの程度首尾一貫性の高い文章を選択できるか? データ生成 首尾一貫性の高い文章: オリジナルの文章 首尾一貫性の低い文章:首尾一貫性の高い文章の文を ランダムに並び変えたもの 1文章につき20の文章を作成 データ: NAISTテキストコーパス 1.4ß (飯田ら 2010) データ種別 訓練用 評価用 記事数 1,753 696 総文数 24,263 9,287 共参照関係 10,206 4,396 比較するモデル 16 entity-gridモデル 共参照解析を利用して同一実体を指す要素を同定 文法役割は横野らが利用した[は/が/に,を/その他/-] の5種類を採用 首尾一貫性スコア (提案手法) 名詞句共参照解析を利用 or ゼロ照応解析を利用 上記2つの組合せ entity-gridモデルの素性の1つにスコアを加える 実験結果 17 モデル random (a) entity-grid (+coref) (b) 首尾一貫性スコア: 名詞句共参照解析 (a)+(b) 精度 0.500 0.707 0.761 0.782 首尾一貫性モデルの適用例: 名詞句共参照解析 18 首尾一貫性: 高い 首尾一貫性: 低い S1 十四日午前一時三十五分ごろ、東京都世田 谷区代沢二の区道で、乗用車が電柱に衝 突して逃げた、 と一一〇番通報があった。 S’1 (=S4) 運転していたのは俳優の坂上忍容疑者 で、酒酔い状態だったため、 同署は道 路交通法違反の現行犯で逮捕した。 S2 北沢署であて逃げ事件とみて捜査したとこ ろ、前部が壊れた乗用車を発見。 S’2 (=S6) 同乗の女優にけがはなかった。 S3 逃走したためパトカーが追跡、運転していた 男を取り押さえた。 S’3 (=S1) 十四日午前一時三十五分ごろ、東京都 世田谷区代沢二の区道で、乗用車が電 柱に衝突して逃げた、 と一一〇番通報 があった。 S4 運転していたのは俳優の坂上忍容疑者で、 S’4 酒酔い状態だったため、 同署は道路交通法 (=S2) 違反の現行犯で逮捕した。 北沢署であて逃げ事件とみて捜査したと ころ、前部が壊れた乗用車を発見。 S5 坂上容疑者は二週間のけが。 S’5 (=S5) 坂上容疑者は二週間のけが。 S6 同乗の女優にけがはなかった。 S’6 (=S3) 逃走したためパトカーが追跡、運転して いた男を取り押さえた。 まとめ 19 照応・共参照関係の自動解析の結果に基づく首 尾一貫性モデルの提案 名詞句共参照の結果から首尾一貫性スコアを計算 そのスコアをもとに首尾一貫性の良さを推定する手 法を提案 日本語新聞記事コーパスを対象とした首尾一貫 性の評価で78.2%の精度を得た 今後の課題 20 新聞記事は社説などの記事を含むため,想定す る首尾一貫性に関連する記述(議論的な内容)で ない場合がある 学生の作成した小論文(宇佐美 2011)を対象とした 評価を実施 首尾一貫性モデルの改善に向けて 同一実体を指していない場合でも関連する談話要素 が文章中に偏在しており,それらをどう考慮すべきか を検討すべき