Transcript precond

テキストから獲得可能な因果関係知識の類別
およびその自動獲得の試み
-接続助詞「ため」を含む文を中心に-
乾孝司 乾健太郎 松本裕治
奈良先端科学技術大学院大学
[email protected]
概要(1分サマリー)
【目的】 接続標識を含む文から
因果関係知識を獲得する
よく晴れたため洗濯物が早く乾いた。
cause (〈よく晴れる〉, 〈洗濯物が早く乾く〉)
【論点1】「ため」複文から獲得可能な因果関係には
どのような種類があるか?
【知見1】 「ため」複文全体の約90%から、
cause, effect, precondition, means 関係の
いずれかの事例が獲得できる。
【論点2】どの程度の精度と量の因果関係知識が
自動的に獲得できるのか?
【知見2】 約97%の精度で、新聞記事1年分から
約35,000件の因果事例が獲得できる見通し
を得た。
目的
因果関係知識を
テキストから
自動的に
獲得する
因果関係知識:推論の基盤/テキスト理解/プ
ラン認識
テキスト:大量の電子化テキストの存在
自動的:人手獲得(例えばCYC)⇒拡張性の問題
因果関係知識の例
地震が起こったから津波が発生したのだ。
cause (〈地震が起こる〉,〈津波が発生する〉)
洗濯物を干したのに乾かなかった。
effect (〈洗濯物を干す〉,〈洗濯物が乾
く〉)
本棚が一杯になったので蔵書を捨てる。
precond (〈本棚が一杯になる〉,〈蔵書を捨て
る〉)
切符を買うため切符売り場へ行った。
means (〈切符売り場へ行く〉, 〈切符を買う〉 )
知識獲得の方針(接続標識が手掛かり)
バングラディシュではマングローブを
破壊したため、大水害が発生した。
effect (〈バングラディシュでマングローブを破壊する〉,〈大水害が発生する〉)
本棚が一杯になったので蔵書を捨てる。
precond (〈本棚が一杯になる〉,〈蔵書を捨て
る〉)
切符を買うため切符売り場へ行った。
means (〈切符売り場へ行く〉,〈切符を買う〉)
さまざまな標識が利用可
同じ標識で異なる因果関係をもつ事例が存在
⇒獲得可能な因果関係ごとに文を分類する
因果関係の類型
類型基準:意志性
事態=(意志的行為|非意思的事態)
Act
因果関係
SOA
言語テストの例
cause
(SOA1,SOA2)
SOA1が起こった結果としてSOA2が起こった。
effect(Act1,SOA2)
precond
(SOA1,Act2)
Act1した結果、SOA2が起こる。
means(Act1,Act2)
Act2を達成する手段としてAct1した。
enable(Act1,Act2)
主体X1がAct1すれば、主体X2がAct2できる。
必要条件
SOA1でないなら、Act2できない。
SOA1が成り立っている状況ではしばしば
Act2する。
(緩やかな)十分条件
【論点1】
ある接続標識(「ため」)を含む文から獲得可
能な因果関係にはどのような種類がある
か?
従属節
主節
最頻の因果関係
SOA
SOA
cause(SOAs,SOAm)
Act
SOA
effect(Acts,SOAm )
SOA
Act
precond(SOAs,Actm )
Act
Act
means(Actm,Acts )
96%
93%
90%
85%
(220/229)
(149/161)
(202/225)
(323/379)
「ため」複文全体の約90%から、 cause, effect,
precond, means 関係のいずれかの事例が獲得できる。
【論点2】
どの程度の精度と量の因果関係知識が
自動的に獲得できるのか?
機械学習アプローチ(Support Vector Machine)
素性
means
Precision
ALT-J/E翻訳システム用辞書(NTT)
EDR概念辞書 意志性 格
日本語語彙大系(NTT) モダリティ
cause
0.96
effect
約97%の精度で、
新聞記事1年分から
約35,000件の因果事例が
獲得できる見通しを得た。
0.90
precond
0.50
Recall
応用例:感情的テキスト理解
太郎はパーティーを 楽しんだ
明示的
キーワードスポッティング
快
洗濯物を干したのに、乾いていなかった。
非明示
因果関係知識による推論
不快
期待されるゴール が成立しない
effect (〈洗濯物を干す〉,〈洗濯物が乾
因果事例の項について
切符を買う ため 切符売り場へ行っ た
×
means (〈切符売り場へ行く〉, 〈切符を買う〉 )
自然言語で表現する(形式言語は用いない)
モーダル情報は捨象される
⇒文から文への変換⇒言い換え
獲得
修辞関係との比較
認識
REASON
晴れたため
洗濯物が早く乾いた。
CONTRAST
晴れなかったのに
洗濯物が早く乾いた。
cause (〈晴れる〉,
〈洗濯物が早く乾く〉)
* 晴れたのに
洗濯物が早く乾いた。
本研究での因果関係は、修辞関係ではなく、
その修辞関係を成り立たせる(より抽象度が高い)関係
因果関係知識の獲得に関する関連研究
資源
手掛かり
コスト
(自動化)
テキスト
接続標識
[Girju et al. 2002] テキスト
Causative
verb
○
○
関係の
類型
×
×
[佐藤 他 1998]
[Khoo et al.
2000]
MED
LINE
構文
パターン
○
▲
[Stork.1999]
人間
知識
[Lenat.1995]
専門家
知識
本研究
テキスト
接続標識
▲
×
○
☆
☆
○
(意志的行為|非意思的事態)の推定
文脈によって変動
機械学習アプローチ(Support Vector Machine)
変動要因
位置(従属節 or 主
節)
主体(人,組織か否
か)
モダリティ(テンス)
Baseline:多数決戦略
(頻度ベース/文脈考慮なし)
0.812
Accuracy
主節
0.97
従属節
0.95
0.90
Coverage
接続助詞の頻度分布[日本経済新聞1990年より]
周辺文脈
が
131,164
ため
76,087
56,549
48,606
13,796
10,209
9,994
7,598
6,027
2,917
と
(れ)ば
ながら
から
ので
なら
たら
のに
連用-連用
頻度
例文
42,577 晴れた
ため
洗濯物がよく乾いた。
連用-連体
連体-連用
4,516
洗濯物を早く乾かす
ため
の道具です。
12,085 よい天気の
ため
洗濯物がよく乾いた。
連体-連体
4,744 旅行者の
ため
の乾燥機
因果事例の派生操作
precond (〈ダンボールの需要が増える〉,
〈生産の拡大を決める〉 )
precond (〈ダンボールの需要が増える〉,
〈生産を拡大する〉 )
*
決める
要求する
実施する
狙う
・・・
*
一部の用言 を含む因果事例はそこから
新たな因果事例を生成できる
⇒データスパースネス対策
分類に利用する素性
用言(動詞) EDR
概念辞書
*1
“移動”or “行為”
“状態”or “変化” or “現象”
ALT-J/E翻訳 “状態動詞” “継続動詞” “瞬間動詞”
“自動詞” “他動詞” “補助動詞” “可
システム用
能動詞” “自発動詞” “使役動詞” “受
辞書
身” “受身(被害)”
日本語
語彙大系
用言意味属性
主体 *2
格
有情主体(人や組織)かどうか
モダリティ
ル形/タ形, テイル形, レル形, セル形,
デキル形, ナイ形
ガ格,ヲ格の有無
格要素(日本語語彙大系で抽象化)
*1:エントリのない動詞については人手で付与
*2:人手で付与