根拠(帰結) - 東京工業大学

Download Report

Transcript 根拠(帰結) - 東京工業大学

根拠情報抽出の
課題設計と予備実験
東京工業大学
飯田 龍
概要
意見や命題などの根拠情報抽出の問
題を設計,そのタグ付きコーパスの構
築した
作成したコーパス中の根拠情報を自動
抽出する実験を行い,誤り事例につい
て調査した結果を報告する
奈良先端科学技術大学院大学
乾健太郎
松本裕治
背景と目的
解析の具体例
入力テキスト
 談話関係の仕様の発展とそのタグ付きコーパスの出現
修辞構造理論(Mann&Thompson, 1988)の談話関係の定義に基づくタグ付きコーパス
(Carlson et al., 2001), Hobbs(1985)の談話関係の定義に基づくタグ付きコーパス
(Wolf&Gibson, 2005), Penn Discourse Tree Bank (Miltsakaki et al., 2004)
昨日は○○というレストランに行ってきました。
ピザは焼き立てでおいしかったけど、パスタはあまりおいしくなかった。
もう行かないと思う。
 命題間の関係の自動同定の必要性
読み手の判断に役立つ結果を出力
Web上に記述されたある内容に関して対立,含意,根拠関係を持つ内容を読み手に提示
(e.g. 言論マップ (村上ら, 2008))
関連付けら
れた意見の 根拠
断片を抽出 〈○○, ピザ,焼き立て〉
 根拠-帰結関係を対象に自動同定の技術の確立を目指す
帰結
〈○○, ピザ, おいしい〉
〈○○, φ, 行かない(書き手の判断)〉
〈○○, パスタ, おいしくない〉
関連研究
Penn Discourse Tree Bank (Miltsakaki et al., 2004)
修辞構造理論 (Mann&Thompson, 1988)
主に明示的に出現している接続表現に対し,どのセグメントがどのセグメントと
対応するかを接続表現の項としてタグ付与する
根拠関係タグ付与の際の基準
nuclear (帰結) 側の制約: 書き手が満足できるほど読み手が帰結について
信じていないかもしれない
satellite (根拠) 側の制約: 読み手は根拠を信じられる,もしくは根拠に信憑
性がある
After [arg2 adjusting for inflation] the Commerce Department said
[arg1 spending didn’t change in September]
帰結と根拠の組み合わせについての制約: 読み手の根拠への理解が帰
結についての信念を増す
書き手の意図: 読み手の帰結への信念を増す
根拠情報とすべきか否かは読み手が帰結箇所を信じるための情報の増加に
影響するかどうかが重要視されている
根拠タグ付与の仕様
隣接しない文間にはタグ付与しないなど網羅性の問題がある
Wellnerら(2007)の解析手法: 談話セグメントを同定する代わりに
各セグメントの係り受け構造の主辞を同定する
(e.g. ‘adjusting’と ‘change’をそれぞれarg2, arg1として同定する)
基準 1
関係は広く原因・理由・動機・根拠・目的などを含めた関係に付与する
帰結側の表現の種類によって根拠の種類が異なる
帰結: 意見 「iPod touchに満足している」
根拠: ユーザの判断 「iPod touchが多機能である」
 帰結: 命題 「内閣支持率が低下している」
根拠: 定量的な数値 「不支持が前回より9%増加した」
根拠: 不満の内容 「内閣の経済政策への不満が高
まっている」
 帰結: 行為 「太郎が医者になった」
根拠: 動機 「病気で苦しむ人々を救いたい」
(どのようなテンス・アスペクト・モダリティで出現していても抽出対象とする)
基準 2
談話のセグメントは明示的に決定せず,各セグメント相当箇所の主辞間に
タグを付与する
e.g.) [焼き立て根拠, おいしい帰結], [おいしくない根拠, 行かない帰結]
 さまざまな関係が応用処理によっては必要となる
最初から主辞間の関係を同定する問題として定義
自動抽出のモデル
根拠(帰結)単体から抽出される素性
根拠側から帰結を探すか? or 帰結側から根拠を探すか?
帰結側から根拠を探す場合
その後、 19世紀末に 近代捕鯨導入とともに、 日本、 ロシアなどによる 朝鮮半島沿岸での
捕獲が 増加して もともと 多くなかった 群れの 急激な 減少を もたらした。
1step:帰結→根拠 根拠候補が根拠になるか否かと帰結候補
が根拠を持つか否かを同時に分類
根拠候補間で比較を行い,最も根拠らしい
候補を出力.次にその候補と帰結候補を
2step:帰結→根拠 用いて根拠-帰結の関係にあるかを判定
その後、
その後、
増加して
帰結候補
増加して
もたらした。
根拠
候補
について,スコアが閾値より
大きい場合はその対を出力.そ
れ以外の場合は帰結候補は根
拠を持たないと判断する
もたらした。
増加して
...
...
減少を
19世紀末に
分類器の出力するスコアSが最
も大きかった対
①
最尤根拠
同定モデル
...
...
根拠
候補
作業対象と作業経過
 5億文コーパス(河原ら, 2006)を対象に
 文章に復元し9種類のキーワード(e.g. 捕鯨
問題, 再販問題)を含む前後2文のみを付与
対象に
 作業者1人, 2954の抜粋に対して作業
 帰結4333箇所に対して根拠4350箇所タグ
付与
素性
共参照解析のアナロジーで考える (Soon et al. 2001, Ng&Cardie 2002, Iida et al. 2005)
19世紀末に
原ら(2008)の事実性解析の技術を適用する
ことで,例えば,実際に起こった行為の根拠を抽
出する,などを想定
減少を
帰結候補
もたらした。
評価実験
増加して
対
最尤根拠候補
増加して
②
根拠-帰結関係
同定モデル
もたらした。
の根拠-帰結関係
同定モデルの出力
するスコアが閾値
より大きい場合に
根拠-帰結関係とし
て出力する
文頭か否か,文末か否か,主辞の品詞,
主辞の見出し語,候補が述語か否か,
候補文節内の機能語
帰結候補と根拠候補から抽出される素性
根拠(帰結)候補が帰結(根拠)候補に係るか否か,
根拠(帰結)候補が帰結(根拠)候補より前に出現す
るか否か,帰結候補と根拠候補の間の係り受けの
パス中の主辞の品詞とすべての機能語
根拠側から帰結を探す場合
※ 1step:根拠→帰結 , 2step:根拠→帰結 に
ついても左図の根拠と帰結を入れ替えて同
様に解く
誤り分析と今後の課題
 同一文内に出現している場合のみを対象に5分割交差検定 (タグ付与した全体の94%,4053事例)
 任意の文節の組み合わせが根拠-帰結関係であるか否かを判断する問題を解く
ベースラインモデル(BM):‘ため’,‘ので’,
‘から’で係り受け関係となる2つの文節を抽出
帰結(根拠)が存在する場合の根拠(帰結)同定の精度
モデル
BM
精度
0.540
(2188/4053)
1step:根拠→帰結
0.722
(2927/4053)
1step:帰結→根拠
0.808
(3276/4053)
2step:根拠→帰結
0.680
(2755/4053)
2step:帰結→根拠
0.814
(3298/4053)
再現率-精度曲線
2step:帰結→根拠
2step:根拠→帰結
1step:帰結→根拠
1step:根拠→帰結
BM
BMで解けない問題
誤りの約4割: 係り受け解析誤りの影響
誤りの約35%: 連用中止/テ形接続で出現
「後継者が いなくなっていて根拠 困っているそうです帰結」
「実態が 明らかにされ、根拠 失望している帰結」
残り25%:倒置 「死刑制度を容認する帰結理由は...のため根拠」,
理由を表す表現 「ドラフト制度の占める意義が大きいとい
う根拠事を理由に...と考えた帰結」 などさまざまな問題を含む
人手で整備された,もしくは自動獲得された
述語間の関係知識を導入する必要がある
作業品質の調査と問題の再設計
one-class SVMなどで解析対象の外れ値(つまり解析するのが現状
で困難な事例)を探してさらに吟味する,など