Transcript Document

NAISTテキストコーパス:
述語項構造と共参照関係のアノテーション
飯田龍 小町守 乾健太郎 松本裕治
奈良先端科学技術大学院大学
{ryu-i,mamoru-k,inui,matsu}@is.naist.jp
2007/1/26 (Fri) NL-177-10
はじめに
 述語項構造や共参照の解析の研究とともに
タグ付与コーパスの作成の研究が盛ん
 述語項構造解析・共参照解析の問題設定は自明で
はない
 さまざまなタグ付与の仕様が提案されている
述語項構造: PropBank, 京都テキストコーパス4.0,
Global Document Annotation (GDA)コーパス, etc
共参照: Message Understanding Task (MUC) Coreference
(CO) task,Automatic Content Extraction (ACE) Entity Detection
and Tracking (EDT) task, GNOME corpus, MATE corpus, etc
2007/1/26(Fri) NL-177-10
2
今回の取り組み
 日本語を対象とした分析/評価/学習のための
大規模な述語項構造・共参照関係タグの作成
 既存のタグ付与の仕様を比較し,
各問題に対して暫定的に仕様を決定
 タグ付与作業で出てきた問題について分析
 タグ付与作業を行った成果
 NAIST Text Corpus 1.2βを公開
http://cl.naist.jp/nldata/corpus/
2007/1/26(Fri) NL-177-10
3
目次
1. はじめに
2. 照応と共参照
3. タグ付与の使用に関する先行研究と
NAISTテキストコーパスの仕様の比較
4. 実際の作業結果の報告
5. タグ付与の問題点
6. おわりに
2007/1/26(Fri) NL-177-10
4
照応と共参照
 照応関係: ある表現が同一文章内の他の表現を指す関係
 共参照関係: 二つの表現が現実世界(もしくは仮想世界)で
同一実体を指す関係
現実世界(仮想世界)
<村山富市>
村山首相は…
彼は…
太郎はiPodを買った。
次郎もそれを買った。
<太郎のiPod>
<次郎のiPod>
2007/1/26(Fri) NL-177-10
5
タグ付与の使用に関する先行研究と
NAISTテキストコーパスの仕様の比較
タグ付与の種類: 3種の関係のタグ付与
 共参照関係
 Automatic Content Extraction (ACE)
Entity Detection and Tracking (EDT) task
 京大コーパス4.0, GDAコーパス
 述語と項の関係
 事態性名詞と項の関係
2007/1/26(Fri) NL-177-10
6
ACE Entity Detection and Tracking (EDT) Task
MUC Coreference (CO) taskの後継
MUC CO task (97, 98) , ACE EDT task (99~)
対象言語
English, Chinese and Arabic
最近の情報抽出タスクのgold standard
共参照解析のための2つの概念
mention: 文章中に出現している表現そのもの
entity: mentionが指す実体
2007/1/26(Fri) NL-177-10
7
ACE EDT Task (Cont’d)
mentionとentityの区別
文章
現実(仮想)世界
mention_a ジョンはリンゴを食べた。
class: names
type: Persons
mention_b 彼はオレンジも食べた。
class: pronouns
type: Persons
共参照
entity_i
class:
specific_reference
現状では総称的な実体は
タグ付与対象となっていない
mentionとentityにそれぞれ制約を強いている
2007/1/26(Fri) NL-177-10
8
共参照関係タグ付与コーパス(日本語)
 Global Document Annotation (GDA) コーパス
 総称名詞間にタグが付与されている
フロン対策急げ…フロンによる環境対策は…
フロン=フロン
 京都コーパス4.0
 ある実体とその役割の間に共参照相当のタグが付与
村山 首相 は …
村山=首相
2007/1/26(Fri) NL-177-10
9
NAISTテキストコーパスでの共参照関係
 問題となる点
 総称名詞なども共参照関係として認めるのか?
本aは、書物の一種で、印刷・製本された出版物を指す。
図書館の本bは借りることができる。
本a ⊃本b
 総称名詞は照応詞,先行詞とみなさない
 タグ付与対象となる名詞句のクラスに制限を加える?
ACEのように名詞句のクラスを固有名などに制限するのは
ある種の問題(情報抽出)に特化
さまざまな応用処理を対象にする場合,
そのような制限は望ましくない
名詞句のクラスに制約を加えずに共参照関係を認定
2007/1/26(Fri) NL-177-10
10
述語と項の関係の先行研究
 PropBank (Palmer, 05): CoNLL shared task (04, 05)
 述語を含む文を対象に意味役割タグを付与
 ARG0, ARG1, …, ARG5, AA, AM, AM-ADV, etc (35種類)
文内のみのタグ付与
ラベルの意味が不明瞭
2007/1/26(Fri) NL-177-10
11
述語と項の関係の先行研究
 京都コーパス4.0 (555記事)
 ガ/ヲ/ニ/カラ/ヘ/ト/ヨリ/マデなど表層レベルのタグ付与
 日本語の場合はゼロ照応ため文を越えて付与する
トムiは今日学校jへ行った。
帰っガ:トムi, ニ:外界照応,カラ:学校j てすぐに遊びに出かけた。
 ニツイテなども表層格とする
2007/1/26(Fri) NL-177-10
12
NAISTテキストコーパスでの述語と項の関係
 深層格や表層格などどのレベルでタグを付与する?
 表層レベルからなんらかの情報を捨象することが
応用分野に貢献するか否かが自明ではない
 表層格,特に頻出するガ/ヲ/ニ格をまず対象に
 「誰が何を何に対してどうする」といった情報の抽出を
目的におく
 述語の原型に対してタグ付与する
私は彼にリンゴを食べさせる。
京都コーパス4.0
[述語=“食べさせる”, ガ=“私” ヲ=“リンゴ” ニ=“彼”]
NAISTコーパス
[述語=“食べる”, ガ=“彼” ヲ=“リンゴ” 追加格(させる)=“私”]
2007/1/26(Fri) NL-177-10
13
事態性名詞の先行研究
 事態性名詞
 ある種のイベントを表す名詞
 NomBank (Meyers et al., 04)
 Penn Treebank II の約5,000名詞
 PropBankと同じタグセット (ARG0, …, ARGM-LOCなど)
12% growth in dividends next year
[REL=growth, ARG1=in dividends, ARGM-TMP=next year]
 京都コーパス4.0
新民主連合所属議員の離党問題について「政権に
影響を及ぼすことにはならない。…
[離党ガ影響(する)]
2007/1/26(Fri) NL-177-10
14
NAISTテキストコーパスでの事態性名詞
 事態性名詞
 事態性名詞そのものを認定する必要がある
彼からの電話によると、私は彼の家に電話を忘れたらしい。
 対象を限定:サ変名詞,和語動詞の名詞化 (例「動き」
「走り」) (つまり「運動会」などは除く)
 複合語の扱い
 構成的に分解可能  複合語の構成素にタグ付与
「紛争仲裁」  「紛争」「仲裁」にタグ付与する
「フランス革命」  「革命」にはタグ付与しない
2007/1/26(Fri) NL-177-10
15
NAISTテキストコーパス仕様のまとめ
 共参照関係
 非総称名詞間の共参照関係にのみタグ付与
 名詞句のクラスに制約は加えない
 述語と項の関係
 述語の原型を対象に表層ガ/ヲ/ニ格をタグ付与
 事態性名詞と項の関係
 事態性名詞はサ変名詞もしくは和語動詞の名詞化
 構成的に分解可能な場合には複合名詞の構成素も
事態性名詞として解釈する
 述語と同様に表層ガ/ヲ/ニ格を付与
2007/1/26(Fri) NL-177-10
16
目次
1. はじめに
2. 照応と共参照
3. タグ付与の使用に関する先行研究と
NAISTテキストコーパスの仕様の比較
4. 実際の作業結果の報告
5. タグ付与の問題点
6. おわりに
2007/1/26(Fri) NL-177-10
17
統計量
 京都テキストコーパス3.0 (2,929記事,38,384文)を対象に
出現箇所
ガ格
同一文節内
係り関係
ゼロ照応(文内)
ゼロ照応(文間)
ゼロ照応(文章外)
全体
177 (0.002)
44,402 (0.419)
32,270 (0.305)
13,181 (0.124)
15,885 (0.150)
105,915 (1.000)
60 (0.001)
35,882 (0.835)
5,625 (0.131)
1,307 (0.030)
96 (0.002)
42,970 (1.000)
591 (0.027)
18,912 (0.879)
1,417 (0.066)
542 (0.025)
45 (0.002)
21,507 (1.000)
事態性名詞 同一文節内
28,569
係り関係
ゼロ照応(文内)
ゼロ照応(文間)
ゼロ照応(文章外)
全体
2,195 (0.077)
4,332 (0.152)
9,222 (0.324)
5,190 (0.183)
7,525 (0.264)
28,464 (1.000)
5,574 (0.506)
2,890 (0.263)
1,645 (0.149)
854 (0.078)
42 (0.004)
11,005 (1.000)
846 (0.436)
298 (0.154)
586 (0.302)
201 (0.104)
10 (0.005)
1,941 (1.000)
述語
106,628
2007/1/26(Fri) NL-177-10
ヲ格
ニ格
18
統計量
 京都テキストコーパス3.0 (2,929記事,38,384文)を対象に
約6割が
ゼロ照応関係にある
出現箇所
ガ格
8割以上が
係り関係にある
ヲ格
ニ格
同一文節内
係り関係
ゼロ照応(文内)
ゼロ照応(文間)
ゼロ照応(文章外)
全体
177 (0.002)
44,402 (0.419)
32,270 (0.305)
13,181 (0.124)
15,885 (0.150)
105,915 (1.000)
60 (0.001)
35,882 (0.835)
5,625 (0.131)
1,307 (0.030)
96 (0.002)
42,970 (1.000)
591 (0.027)
18,912 (0.879)
1,417 (0.066)
542 (0.025)
45 (0.002)
21,507 (1.000)
事態性名詞 同一文節内
28,569
係り関係
ゼロ照応(文内)
ゼロ照応(文間)
ゼロ照応(文章外)
全体
2,195 (0.077)
4,332 (0.152)
9,222 (0.324)
5,190 (0.183)
7,525 (0.264)
28,464 (1.000)
5,574 (0.506)
2,890 (0.263)
1,645 (0.149)
854 (0.078)
42 (0.004)
11,005 (1.000)
846 (0.436)
298 (0.154)
586 (0.302)
201 (0.104)
10 (0.005)
1,941 (1.000)
述語
106,628
2007/1/26(Fri) NL-177-10
19
統計量
 京都テキストコーパス3.0 (2,929記事,38,384文)を対象に
約6割が
ゼロ照応関係にある
出現箇所
ガ格
同一文節内
係り関係
ゼロ照応(文内)
ゼロ照応(文間)
約8割が
ゼロ照応(文章外)
ゼロ照応の関係
全体
177 (0.002)
44,402 (0.419)
32,270 (0.305)
13,181 (0.124)
15,885 (0.150)
105,915 (1.000)
事態性名詞 同一文節内
28,569
係り関係
ゼロ照応(文内)
ゼロ照応(文間)
ゼロ照応(文章外)
全体
2,195 (0.077)
4,332 (0.152)
9,222 (0.324)
5,190 (0.183)
7,525 (0.264)
28,464 (1.000)
述語
106,628
2007/1/26(Fri) NL-177-10
8割以上が
係り関係にある
ヲ格
ニ格
60 (0.001)
591 (0.027)
35,882 (0.835) 18,912 (0.879)
5,625 (0.131)
1,417 (0.066)
同一文節内に
1,307
(0.030)
542 (0.025)
最も多く出現
96 (0.002)
45 (0.002)
42,970 (1.000) 21,507 (1.000)
5,574 (0.506)
2,890 (0.263)
1,645 (0.149)
854 (0.078)
42 (0.004)
11,005 (1.000)
846 (0.436)
298 (0.154)
586 (0.302)
201 (0.104)
10 (0.005)
1,941 (1.000)
20
タグの一致率
 作業者2人に30記事を対象に作業を行ってもらった結果
 一人の作業結果を正解,もう一人の結果をシステムの
出力として再現率,精度を求める
再現率
精度
述語
ガ格
ヲ格
ニ格
0.921 (806/875)
0.823 (683/830)
0.899 (329/366)
0.724 (105/145)
0.944 (806/854)
0.829 (683/824)
0.954 (329/345)
0.890 (105/118)
事態性名詞
ガ格
ヲ格
ニ格
0.965 (247/256)
0.735 (191/260)
0.827 (86/104)
0.389 (7/18)
0.792 (247/312)
0.743 (191/257)
0.869 (86/99)
0.583 (7/12)
共参照
0.813 (126/155) 0.813 (126/155)
2007/1/26(Fri) NL-177-10
21
タグ付与の問題点
4つ種の主要な問題について議論
 共参照関係のタグ付与
 述語のタグ付与
 事態性名詞のタグ付与
 述語と項の関係のタグ付与
2007/1/26(Fri) NL-177-10
22
共参照のタグ付与の問題点
 換喩のタグ付与
グロズヌイからの報道によると三日、大統領官邸の北西一・五キロの鉄道駅付
近でロシア軍部隊iとチェチェン側部隊が衝突したが、ロシア側i は中心部への進
撃を阻まれて苦戦。 ... ロシア政府jは三日、戦況に関する声明を発表し、大統領
官邸を含む首都中心部は依然としてロシア側が支配していると強調した。しかし
現地からのテレビ映像では、官邸はじめ中心部は依然としてドゥダエフ政権部隊
の兵士が警戒に当たっており、ロシア側j の発表と食い違いを見せている。
「ロシア側」という表現が異なる表現と共参照関係となり
実際に問題を解く際には非常に難しい問題設定となる
「ロシア」間で共参照関係を認定
2007/1/26(Fri) NL-177-10
23
述語のタグ付与の問題点
 機能語相当表現との曖昧性
会社Aが会社Bを子会社として …
 本動詞的な解釈: 会社Aが会社Bを子会社とする
 機能語的な解釈: “ある一つの側面からの価値付け”
 土屋ら(06): 機能語相当表現(複合辞)を対象に作業
者間の一致度を評価
 ある程度揺れなく作業できている
 項を考慮しながら述語を認定する場合に困難になる
 各表現ごとにどちらに解釈すべきかをあらかじめ
提示する
2007/1/26(Fri) NL-177-10
24
事態性名詞のタグ付与の問題点
 複合語の分割をどこまでやるのか?
 仕様: 構成的に分割できる場合のみ複合語の中も
タグ付与の対象とする
 「投資率」のような複合語をどの程度構成的に分解す
るかの解釈が作業者間で揺れた
 結果物はモノなのかコトなのか?
 「契約」「規制」「投資」などの表現
料金規制当局と公共事業者が、一種の社会契約を結ん
だという考えに立つもので、経営効率化促進のための
社会契約インセンティブ規制とも言われる。
事態性名詞についての細かな取り決めが必要
2007/1/26(Fri) NL-177-10
25
項のタグ付与の問題点
 交替の現象ために起こる揺れ
例)(φガ)(φヲ)実現する
agentガ themeヲ 実現する
themeガ 実現する
 他動詞的な解釈でタグを付与する
 動作主性(agentivity)をどこまで認めるか?
例)動詞: 「しばる」の項「規制」
規制(agent)ガ themeヲ しばる
agentガ 規制(instrument)デ themeヲ しばる
 どちらの格パタンを優先するかを決める
2007/1/26(Fri) NL-177-10
26
おわりに
 述語項構造・共参照関係のタグ付与の現状の仕様を
既存のコーパス作成の仕様と比較して紹介
 問題点で述べた箇所を中心に今後もコーパスとその
仕様を洗練する予定
2007/1/26(Fri) NL-177-10
27
公開情報
NAIST Text Corpus 1.2β
ダウンロード
http://cl.naist.jp/nldata/corpus/
タグ付与の仕様
http://cl.naist.jp/~ryu-i/coreference_tag.html
2007/1/26(Fri) NL-177-10
28
2007/1/26(Fri) NL-177-10
29
述語と項の関係の先行研究
 京都コーパス4.0 (555記事)
 ガ/ヲ/ニ/カラ/ヘ/ト/ヨリ/マデなど表層レベルのタグ付与
 日本語の場合はゼロ照応ため文を越えて付与する
トムiは今日学校へ行った。
帰っガ:トムi, ニ:外界照応 てすぐに遊びに出かけた。
 ニツイテなども表層格とする
 Global Document Annotation コーパス (橋田, 05)
 ゼロ照応の場合でも同一文内に先行詞が出現してい
る場合にはタグが付与されていない
 学習手法の訓練事例として利用するには網羅性の点
で問題となる
2007/1/26(Fri) NL-177-10
30
MUC Coreference Task
 機械学習を用いた共参照解析の gold standard データ
 情報抽出の部分問題としての共参照解析タスク
一般に共参照関係とはみなされない関係も
タグ付与の対象となっている
 most, every のような量化表現を伴った名詞句
 Julius Caesar, the well-known emperor … のような
同格表現
2007/1/26(Fri) NL-177-10
31