発表資料(PPT)

Download Report

Transcript 発表資料(PPT)

談話構造コーパスの設計
および作成
2010/2/18
H20802m 認知科学専攻 奥村泰章
1
発表の構成
1.談話構造について
2.コーパス設計のための分析とその結果
・修辞関係について
・修辞関係を推定するための情報について
おまけ.システム試作
2
目的
談話構造が付与されたコーパスを作成する
→機械的に談話構造を推定するシステムのため
のデータベースとなる
そのために……
修辞関係のセットを定める
修辞関係の推定に必要な情報を明確化
3
談話構造とは
・文章は少なくとも二つのレベルの構造を持つ
・文章全体の大局的な構造
ex..三段型、四段型
説明文→導入、説明、結び
・局所的な文と文のつながり
・修辞関係
説
明
文
文
文
文
4
修辞関係とは
(a) そこで、ウイルソンは、働き蟻の体の仕組み
を、細かに研究してみました。
時間経過
結果
(b) すると、蟻は、お尻の所から、特別の液を出
すことがわかりました
5
修辞関係がもたらす効果
・文章を構造化することによって、省略や照応
の解決の際に、制約を設けることができ、解
決が容易になる
6
例文
a. 男はあるお屋敷で一夜を過ごした。
b. 豪勢な食事をした。
c. サーモンを食べた。
d. チーズをたらふく食べた。
e. 普段の、味気ない食事とは大違いだ 。
f. それは男には新鮮なものであった。
補足資料
構造化されていれば
a. 男はあるお屋敷で一夜を過ごした。
詳細化:事象
b. 豪勢な食事をした。
記述・対照
詳細化:事象
c. サーモンを食べた。
(新しい文)
e. 普段の、味気ない食事とは大違いだ。
d. チーズをたらふく食べた。
f. それ は男には新鮮なものであった。
8
コーパスの役割
文章
談話構造解析システム
新しい文
コーパス
学習
修辞関係
推定器
文脈
修辞関係を伴った文脈の更新
構造化され
た文章9
目的
談話構造の付与されたコーパスを作成する
→機械的に談話構造を推定するシステムのため
のデータベースとなる
そのために……
修辞関係のセットを定める
修辞関係の推定に必要な情報を明確化
10
談話構造についての既研究
・Hobbs J.R(1978)
・Grosz and Sidner(1986)
・Mann and Tompson(1987)……修辞構造理論(RST)
・Asher and Lascarides(2003)…SDRT
・分節談話表示理論
Segmented Discourse Representation Theory
・文の意味記述の表現(SDRS)と、その表現間の関係
を定式化した理論
・SDRS間の修辞関係が分類、定義されている
11
SDRTの特徴
・MDC(Maximal Discourse Coherence)原理によ
る最適な修辞関係の計算機構が用意されて
いる
・依頼、命令、質問などの信念や意図によって
説明されてきた言語行為も修辞関係として捉
えられている
12
SDRTでの修辞関係
・帰結 (α,β)……βがαの論理的帰結となっているもの
・詳細化 (α,β)……αとβが上位下位もしくは部分全体関係にある
もの
・時間経過 (α,β)……αとβに時間的な順序があるもの
・結果(α,β)……αとβが因果関係にあるもの
・訂正(α,β)……αとβが互いに矛盾するもの
・プラン詳細(α,β)……βがαの達成目標を達成するためのプラン
を供給するもの
・質問-回答(α,β)……αが疑問で、βがそれにたいする直接の回答
を供給するもの
・承諾(α,β)……βがαのspeech actによって許可もしくは達成され
ているもの
13
分析概要
・目的:
SDRTが日本語を対象にどの程度適用できるのかを検証
関係を推定する要素について、体系化するために出現す
る要素を収集、分析
・作業者:大人2名
・分析の方略:SDRTをベースに談話構造の分析
・分析対象:教科書タイトル21本(小学生2年~中学生1年)
• 説明文章:17本
• 物語文章:4本
• 合計:897文
14
分析例
(1a) 初めに、ありの巣から少し離れた所に、一つまみの砂糖を置きました。
(1a)->(1b) 「状況:時間経過&可能化」
(1b) しばらくすると、一匹のありが、その砂糖を見つけました。
(1b)->(1c) 「記述:主題化」
(1b)->(1d)
「状況:時間経過」
(1c) これは、餌を探すために、外に出ていた働きありです。
(1d) ありは、やがて、巣に帰っていきました。
小学校国語教科書3上説明文「ありの行列」より
15
分析対象リスト
説明文章
・ 小学校国語教科書2上「たんぽぽ」
・
同
2下「ビーバーの大工事」
・
同
3上「ありの行列」
・
同
3下「合図としるし」
・
同
3下「新年の祭り」
・
同
4上「あめんぼはにん者か」
・
同
4下「手で食べる、はしで食べる」
・
同
4下「点字を通して考える」
・
同
5上「日本の恐竜時代」
・
同
5下「体の中の海」
・
同
5下「情報社会で生きていくために」
・
同
6上「三内丸山遺跡」
・
同
6上「またとない天敵」
・
同
6下「アジアを見つめる、アジアから考える」
・
同
6下「エネルギー消費社会」
・
同
6下「平和のとりでを築く」
・ 中学校国語教科書1年「植物のにおい」
・
同
1年「捨てる神拾う神」
16
分析対象リスト
物語文章
・ 小学校国語教科書2上「手紙」
・
同
3上「きつつきの商売」
・
同
5上「新しい友達」
・
同
6下「海の命」
補足資料
分析結果(1)
・教科書の文章内に出現した文の関係を捉える
にはSDRTで定義された関係だけでは不十分
・新たに関係を定義し、追加した
……修辞構造理論などを参考に
18
(1)記述の関係
(文内の要素の緩やかな結びつき)
• 時間的関係を含まない
• 結びついている文に対し、従属空間を作る
• デフォルトとして、記述されているものに対する
照応が存在する
(1b) しばらくすると、一匹のありが、その砂糖を見つけました。
(1b)→(1c)
記述:主題化
(1c) これは、餌を探すために、外に出ていた働きありです。
19
(2)人の行動の原因や根拠
• 結果ほど物理的な因果関係はないが、人の行
動の原因や根拠となる
(2a) この間、[僕が郵便箱を開けに行ったら](1)、[箱の口からイチ
ジクの葉っぱが覗いていた](2)。
(2b) [あれっと思って](1)、[中を見ると](2)、[緑色の蛙が、一匹もぐ
りこんでいた]。
(2a-2)->(2b-1) 「根拠・理由-行為」
(2b-1)->(2b-2) 「根拠・理由-行為」
20
(3)対話イベント
• 物語文章によく出てくる、登場人物同士の対話
について、基本的な性質を推論するための関係
(二人の登場人物が言い合っている状況で)
(3a) 「ほんとうにそうおもってたの。それ、あたしのほう だよ。 」
(3b)「ちがうよ、あたしのほうだよ。 」
(3a)->(3b) 「対話イベント」
・aとbの間に時間の遷移がある
・aとbで、発話者は交代し、aの発話者は聞き手になる
・発話している状況は同一である
デフォルトとして、以上のことが推論される
21
22
修辞関係の推定に関して
・修辞関係を推定するための情報の分析、収集
を行った
・なんらかの修辞関係の手掛かりとなる語や
句(キューフレーズ)
・語彙情報
などが考えられる
23
分析例(再)
(1a) 初めに、ありの巣から少し離れた所に、一つまみの砂糖を置きました。
(1a)->(1b) 「状況:時間経過&可能化」
(1b) しばらくすると、一匹のありが、その砂糖を見つけました。
(1b)->(1c) 「記述:主題化」
(1b)->(1d)
「状況:時間経過」
(1c) これは、餌を探すために、外に出ていた働きありです。
(1d) ありは、やがて、巣に帰っていきました。
小学校国語教科書3上説明文「ありの行列」より
24
どのように修辞関係が推定されるか
・キューフレーズ
・接続詞「だから」、「それにより」(原因や理由)
・文末詞「のだ」「の」(記述)
・接続助詞「と」「て」(時間関係)
など、様々な場所に関係を推測するためのキューフ
レーズが現れた
・単語から文をまたぐパターンまで
25
どのように関係が推定されるか
・文の間に時間的関係が存在するかどうか、ま
た存在するときの時間構造を推測するために
動詞のイベント構造やアスペクトは有用
・特に、明確なキューフレーズ(「それから」な
ど)が現れなかった場合に重要な情報となる
26
時間経過例
(4a) [わたしは一生けん命まりちゃんに手紙を書い
て](1)、[お母さんにたのんで](2)[出してもらっ
た](3)。
(1)-(2)-(3)の時間構造について、アスペクトに注目すると
手紙を書く(Process+Transition)+完了形
↓
頼む(Process+Transition)+完了形
↓
出す(Transition)+完了形
となるため、時間的な隔たりがあると推論される
27
時間同一例
(5a)クラス全員と先生のほかに、[お母さんたちも大勢
来て](1)、[みんなで歌を歌ったりゲームをしたりし
た](2)。
(1)-(2)は
来る(transition+state)+完了形から、状態的であり、文
の形も合わせて、時間的な重なりがあり、状況を共
有する可能性が高い
補足資料
ここまでのまとめ
・SDRTだけでは教科書の文章を捉えきるのに不
十分なため、修辞関係をいくつか追加した
・関係の推定に使われるキューフレーズはさま
ざまな場所に現れる
・キューフレーズが現れないときには、時間構
造や状況の認識にはアスペクトが重要な情
報となる
29
ここまでの課題
・実際の文章で照応関係などが、SDRTの枠組みがもたらす
制約の通りになっているか検証し、修辞関係のセットを精
緻に定義する
・関係を推定するために用いられている語彙情報を整理する
・特に、キューを伴わない因果や帰結など
・小学校国語教科書以外の文章に対しても分析を行い、
SDRTの適用範囲を検証する
↓
・コーパスに付与する情報を明確化し、より大規模にコーパ
スを作成する
30
31
試作システム
・分析したデータを用いて、二つの分節間に成
立可能な修辞関係を選別するシステムを試
作した
・分節とは、「節・文・文の集合」などの修辞関係で結ばれる
事象や命題の単位のこと
・修辞関係の同定までは行わない
32
将来システム像での位置づけ
文章
談話構造解析システム
新しい文
コーパス
学習
修辞関係
推定器
文脈
修辞関係を伴った文脈の更新
構造化され
た文章33
コーパス
素性抽出
機械学習
学習モデル
談話構造つき文脈
関係選別器
成立可能な修辞関
係リスト
新しい分節
34
関係選別器
・ある分節とある分節に対して、定義された修
辞関係全てに対して成立するか否かの2クラ
ス分類を行い、成立すると判定された関係が
出力される
35
実験
・学習データ
・小学校国語教科書の物語文3本、説明文3本の計6本
・2年生~6年生
・使用した素性は
・イベント構造
・アスペクト
・キューフレーズ
・キューフレーズの出現位置
36
実験
・実験データ
・小学校6年生国語教科書の物語文「海の命」
・大段落ごとに分け、それぞれに対して人手による素性の付
与を行った
・学習データ中に、アスペクトやキューなどの素性を伴って現れ
た修辞関係のみを対象に関係選別を行った
・全14種
37
実験
実験のプロセス
・入力分節が結合可能な文
脈中の分節は右先端制約
により選別する
・本来は、文脈は修辞関係
が同定された談話構造を
持っていなければならない
が、今回の実験では、修辞
関係選別器で選別された関
係が全て成立するとして談
話構造とする
入力
実験
コーパス
入力分節
修辞関係
選別器
文脈
修辞関係を伴って文脈を更新
出力
談話構造つき
文脈
38
システムの流れ
a. 男はあるお屋敷で一夜を過ごした。
b. 豪勢な食事をした。
時間同一
記述
時間同一
記述
e. 普段の味気ない食事とは大違いだ。
c. サーモンを食べた。
d. チーズをたらふく食べた。 時間同一
修辞関係
状況同一
選別器
記述
詳細化
(新しい分節) f. それは男には新鮮なものであった。
39
実行例
40
実験結果
・正解データのうち、最終的な出力中に出現した数を評価対象とした
・再現率(選別器が出力した数/正解データ数)はおよそ26%
・一つの組み合わせに対して、平均1.1くらいの関係が選別された
・「帰結」「期待破り」は再現率が高いように見えるが、数が少ない
時間同一 時間経過 記述
出現数
正解
再現率
対照
帰結
期待破り その他
合計
9
10
5
1
2
3
0
30
21
34
27
4
3
6
22
117
43%
29%
19%
25%
67%
50%
0%
26%
41
結果から
・「結果」や「対照」など意味内容の関係を持つ
関係を推定するには素性が足りない
・学習データも足りない(388文・475レコード)
・分析をすすめ、素性となる情報を増やすととも
に、コーパスも増強する必要がある
42
システムの問題点
・今回の実験では、修辞関係選別器の提示した
修辞関係が全て成立したとして次の分節の
処理の際の文脈としているため、正しく結合
候補が取り出せていない可能性が高い
・分節ごとに、正解となる談話構造を与えながら
実験する必要がある
43
今後の課題
・関係を推定するために用いられている語彙情
報を整理する
・特に、キューを伴わない因果や帰結など
↓
・素性を増やす
・コーパスに付与する情報を明確化し、より大
規模にコーパスを作成する
44
課題・発展
・試作したシステムの後の処理として修辞関係
を同定するシステム
・MDC原理を用いた最適な構造の推定
・照応や橋渡し解決などと相補的な処理になる
・事象間の修辞関係から概念間のつながりを学
習するシステムが考えられる
45
46
参考
Automatic Detection of Discourse Structure by
Checking Surface Information in Sentences(黒橋
1994)
47
照応関係
(a).男はサーモンを食べた。
(b).それは綺麗なピンク色だった。
48
橋渡し関係
(a).たんぽぽはじょうぶな花です。
(b).はがふまれたり、つみとられたりしても、また
生えてきます。
49
修辞関係とは
(1a) 初めに、ありの巣から少し離れた所に、一つまみの砂糖を置きました。
(1a)->(1b) 「状況:時間経過&可能化」
(1b) しばらくすると、一匹のありが、その砂糖を見つけました。
(1b)->(1c) 「記述:主題化」
(1b)->(1d)
「状況:時間経過」
(1c) これは、餌を探すために、外に出ていた働きありです。
(1d) ありは、巣に帰っていきました。
小学校国語教科書3上説明文「ありの行列」より
50
現在までの分析から
・文章のタイプについて、いくつかの傾向がみら
れた
Ⅰ.物語文と説明文の違い
Ⅱ.対象学年ごとの違い
51
Ⅰ.物語文と説明文の違い
・物語文章では、あらたに「質問-回答ペア」や、
「承諾」、「訂正」など、複数の人物が登場する
物語に特徴的な修辞関係が現れた
(6a) 「どう。
(6b) 手紙来た。」
(6c)「いや、まだだよ」
(6b)->(6c) 「質問-回答ペア」
・説明文と比べて、時間構造に関する関係や根
拠、訂正などが増え、記述や詳細化といった
関係は減少していた
52
Ⅱ.対象学年ごとの違い
・「帰結」や「期待破り」といった関係は、学年が
上がると増えている
(7a) ヒキガエルの舌は、最高十センチメートル離れた所にある獲物をとらえること
が可能であり、[しかもこの動作にかかる時間は、わずか十五分の一秒であ
る。](1) 」
(7b) そのため、人間の目には映らないのである。
(7a-2)->(7b) 「帰結」 (キュー「そのため」)
・同じような「因果」は学年ごとに差は見られないが、
キューを伴わないパターンは高学年で増える
53
低学年の例 (3年上説明文「ありの行列」より)
(9a) そこで、ウイルソンは、働き蟻の体の仕組みを、細かに
研究してみました。
(9b) すると、蟻は、お尻の所から、特別の液を出すことがわ
かりました。
(9a)->(9b) 「結果」(キュー「~してみました」「すると」)
高学年の例 (6年下説明文「平和のとりでを築く」より)
(9c) 強れつな熱線と爆風が放射能とともに市街をおそった。
(9d) 市民の多くは一しゅんのうちに生命をうばわれ、川は死
者でうまるほどだった。
(9c)->(9d) 「結果」
補足資料
出現するキュー
・低学年では、因果や帰結などの意味内容が
重要になる関係は、ほとんどキューをともなっ
ている
・高学年になると、キューを伴わないパターンが
増えてきて、そのときは項の同一や、述語の
意味関係などを用いて推定していると考えら
れる
55
まとめ
・SDRTだけでは教科書の文章を捉えきるのに不
十分なため、修辞関係をいくつか追加した
・関係の推定に使われるキューフレーズはさま
ざまな場所に現れる
・キューフレーズが現れないときには、時間構
造や状況の認識にはアスペクトが重要な情
報となる
56
今後の課題
・実際の文章で照応関係が、構造のもたらす制約の通り
になっているか検証し、修辞関係のセットを精緻に定
義する
・関係を推定するために用いられている語彙情報を整理
する
・特に、高学年でキューを伴わない因果や帰結など
↓
・コーパスに付与する情報を明確化し、より大規模に
コーパスを作成する
57
発展
・コーパスがある程度できたら、実際に機械学
習を用いて関係推定器を試作してみる
・実験データに対し、推定器が必要とする情
報のうち足りない部分は人手で付与
・談話構造推定のための情報をより明確にす
る
58
発展
・談話構造コーパスを用いて、修辞関係を機械的に推定する
ようなシステム
・因果などに限定しない、事象間のより広い関係の収集
・橋渡しの解決
・前提のスコープのあいまいさの解決
・会話の含意の解決
・修辞関係から推論される事象間のより広い関係を自動収
集する
59
出現した談話関係(一部)
時間 時間 可能
原因・ 根拠- 理由- 詳細 一般
期待 手段- 目的- 条件Altern まと
結果
記述 訂正 帰結
並列 対照
転換
経過 同一 化
理由 行為 主張 化
化
破り 目的 行為 事象
ation め
小2小3
(説明)
22%
3%
5%
5%
0%
0%
1%
11%
3%
22%
0%
3%
1%
5%
3%
0%
11%
1%
0%
3%
0%
小5-中1
(説明)
7%
7%
2%
3%
0%
2%
3%
13%
0%
25%
0%
12%
5%
2%
1%
0%
8%
8%
1%
0%
1%
小2
(物語)
28%
28%
0%
3%
0%
6%
6%
3%
0%
9%
3%
1%
0%
0%
0%
0%
13%
0%
0%
0%
0%
小5
(物語)
16%
24%
3%
6%
4%
8%
1%
8%
1%
13%
2%
3%
2%
0%
1%
2%
6%
1%
1%
0%
0%
61
イベントタイプ
State
Activity
Transition
Transition-state
Nothing
出現位置
前文中
前文末尾
先頭
文中
末尾
距離
0
1
2
説明
定常的な状態を表す
継続する動作を表す
何らかの変化・遷移を表す
何らかの状態の変化・遷移があるが、その後の状態が主辞となる
複数の分節で一つの入力分節になるなど、イベントを認定できないもの
表1
説明
候補分節の最後の分節以外に現れた場合
候補分節の最後の分節に現れた場合
入力分節の最初の文節に現れた場合
入力分節の最初か最後の文節以外に現れた場合
入力分節の最後の文節に現れた場合
表2
説明
入力分節と候補分節が節であり、同じ文中に存在する。
入力分節と候補分節が文をまたいで隣接した文または節である。
距離1よりも遠い、つまり入力分節と候補分節の間に分節が存在してい
る
表3
62
文章の構造化
a. 男はすばらしい一夜を過ごした。
詳細化:事象
b. 豪勢な食事をした。
e. その後、ダンス大会で優勝した。
時間経過:語り
詳細化:事象
c. サーモンを食べた。
d. チーズをたらふく食べた。
(新しい文) f. きれいなピンク色だった
63
コーパス
素性抽出
TinySVMによる機
械学習
学習モデル
64
正例(関係a)
距離0
正例(関係a)
距離0
負例(関係b)
距離0
・・・
負例(関係n)
距離0
正例(関係a)
距離0
負例(関係b)
距離0
・・・
負例(関係n)
距離0
負例(関係a)
距離1
負例(関係b)
距離1
・・・
負例(関係n)
距離1
負例(関係a)
距離2
負例(関係b)
距離2
・・・
負例(関係n)
距離2
65
入力
文脈
入力分節
候補分節の抽出
候補分節集合
距離計算・
素性抽出
修辞関係全てに対して
SVMによる成立判定
出力
候補分節それぞれに対して
成立可能な修辞関係
66
それぞれ
成否分類
入力分節
候補分節
距離0
学習モデル
関係a・距離0
学習モデル
関係b・距離0
・・
学習モデル
関係n・距離0
学習モデル
関係a・距離1
学習モデル
関係b・距離1
・・
学習モデル
関係n・距離1
学習モデル
関係a・距離2
学習モデル
関係b・距離2
・・
学習モデル
関係n・距離2
67
実験のプロセス
入力
実験
コーパス
入力分節
修辞関係
選別
文脈
修辞関係を伴って文脈を更新
出力
談話構造つき
68
文脈
69
構造化されていれば
a. 男はあるお屋敷で一夜を過ごした。
詳細化:事象
b. 豪勢な食事をした。
記述・対照
詳細化:事象
c. サーモンを食べた。
(新しい文)
e. 普段は、味気ない食事ばかりだ
d. チーズをたらふく食べた。
f. それは男には新鮮なものであった。
70
a. 男はあるお屋敷で一夜を過ごした。
詳細化:事象
b. 豪勢な食事をした。
記述・対照
詳細化:事象
c. サーモンを食べた。
(新しい文)
e. 普段は、味気ない食事ばかりだ
d. チーズをたらふく食べた。
f. それは男には新鮮なものであった。
a. 男はあるお屋敷で一夜を過ごした。
詳細化:事象
b. 豪勢な食事をした。
記述・対照
詳細化:事象
c. サーモンを食べた。
(新しい文)
e. 普段は、味気ない食事ばかりだ
d. チーズをたらふく食べた。
f. それは男には新鮮なものであった。
例文
a. 男はあるお屋敷で一夜を過ごした。
b. 豪勢な食事をした。
c. サーモンを食べた。
d. チーズをたらふく食べた。
e. 普段は、味気ない食事ばかりだ。
f. それは男には新鮮なものであった。
補足資料