任意・必須格

Download Report

Transcript 任意・必須格

新聞3千記事4万文への
述語項構造と共参照関係のアノテーション
奈良先端科学技術大学院大学
飯田 龍 小町 守 乾健太郎 松本裕治
背景
基礎技術
応用技術
基礎と応用をつなぐ要素技術
(共参照・述語項構造解析)の需要が増加
形態素解析や係り受け解析な
どの表層的な解析処理の発展
英語/日本語を対象にした共参照・意味役割付与・
格関係などのタグ付与の仕様についての議論
機械翻訳やWebからの情報抽出
など実用的な技術の必要性
共参照・述語項構造解析のための
日本語を対象とした大規模なタグ付きコーパスを作成
NAIST Text Corpus 1.4β http://cl.naist.jp/nldata/corpus/
アノテーションの例
ヲ格
香港―台北間の航空路線は国際線としてはトップクラスの輸送量を誇る。
ガ格
共参照
ヲ格
ニ格
ガ格
香港のキャセイ航空や台湾の中華航空にとっては最大のドル箱路線だ。
共参照
ガ格
ヲ格
●述語
■事態性名詞
【外界一般】
ガ格
ガ格
ガ格
ヲ格
ヲ格
ガ格
ニ格
その大きな理由は台湾が中国との直行便運航を認めておらず、年間百数十万人もの台湾人が香港経由で中国に渡るからだ。
共参照
共参照関係
述語(事態性名詞)と項の関係
格要素
格要素
の同定
範囲
事態性
名詞の
扱い
PropBank
(Palmer et al.,
05)
深層格相当
ARG0, …,
ARGm
文内
動詞のみ
タグ付与
GDA (橋田, 97) 京都テキストコー
パスver.4.0 (河原
ら, 02)
意味役割相当 表層格 (任意・必
agt, obj, gol, ... 須格) ガ,ヲ,ニ,
(文内には付与 カラ,…, ニツイテ,
されていない) etc
(文内),文間, 文内,文間,
外界(一人称単 外界(人,物,状
数,一人称複 況)
数など13種 )
付与されていな 述語と事態性名詞
い
を区別しない
NAISTテキ
ストコーパス
ACE Entity
Detection and
Tracking task
(2006)
mentionやentityの
class, typeは固定
(基本的に固有表
現間の共参照関
係)
表層格 (必
須格)
ガ,ヲ,ニ
文内,文間,
外界(一人
称,二人称,
一般)
事態性名詞
を分けてタ
グ付与
この基準はIEの要求
から天下り的に来て
いるので,さまざまな
応用処理にコーパス
から学習した結果を
利用する立場からは
この基準を採用したく
ない
 PropBankは文内のみ,英語を対象にしているために統語的な位置から意
味役割は自然と制約される
 京大コーパス, NAISTコーパスでは文を越えて項をタグ付与しているために
必須/任意の判定や役割の認定に揺れが生じやすい,また役割をどのよう
に定義すればよいかは自明ではない
タグの個数と一致率
記事数
共参照
述語 106,628
同一文節内
係り関係
ゼロ照応(文内)
ゼロ照応(文間)
外界照応
全体
事態
性名
詞
28,569
同一文節内
係り関係
ゼロ照応(文内)
ゼロ照応(文間)
外界照応
全体
文数
38,384
25,357
ガ格
ヲ格
二格
177(0.002)
60 (0.001)
591 (0.027)
44,402(0.419) 35,882 (0.835) 18,912 (0.879)
32,270(0.305) 5,625 (0.131)
1,417 (0.066)
13,181 (0.124) 1,307 (0.030)
542 (0.025)
15,885 (0.150)
96 (0.002)
45 (0.002)
105,916(1.000) 42,970(1.000) 21,507(1.000)
ガ格
ヲ格
二格
2,195 (0.007) 5,574 (0.506)
846 (0.436)
4,332 (0.152) 2,890 (0.263)
298 (0.154)
9,222 (0.324) 1,645 (0.149)
586 (0.302)
5,190 (0.183)
854 (0.078)
201 (0.104)
7,525 (0.264)
42 (0.004)
10 (0.005)
28,464(1.000) 11,005(1.000)
1,941(1.000)
京大テキストコーパ NAISTテキスト
ス ver.4.0
コーパス
(河原ら, 02)
実体か総称的表現 同格表現も含めた mentionやentity
かを区別せずにタ 広い範囲にタグを付 のclass, typeに制
グ付与
与
限はない
フロン対策急げ
eqタグ
フロンによる環境
破壊対策は…
(e.g, 村山 首相)
eqタグ
実体と実体の関
係のみにタグ付
与
実体と実体,実体と
属性との関係が混 (ただし下記の3
つの基準に準拠)
在
共参照タグ付与のための3つの基準
京大コーパス3.0全記事を対象にタグ付与
2,929
GDA (橋田,97)
1. 照応詞は文節の主辞を対象とする
2. 談話内に出現した名詞句のみを先行詞とする
3. 総称名詞は照応詞,先行詞として考えない
再現率※ 精度※
0.947
0.941
述語
(6512/6880)
ガ格 0.861
(5638/6549)
ヲ格 0.943
(2447/2595)
ニ格 0.892
(1060/1189)
事態性名詞 0.905
(1281/1415)
ガ格 0.798
(1038/1300)
ヲ格 0.893
(469/525)
ニ格 0.717
共参照
Computational Linguistic Lab. Graduate School of Information Science,
Nara Institute of Science and Technology
※一方のアノテータのタグ付与結果を
正解としたときの再現率と精度
(6512/6920)
0.856
(5638/6567)
0.919
今後の課題
(2447/2664)
0.817
(1060/1298)
0.810
(1281/1582)
0.804
(1038/1291)
0.765
(469/613)
0.606
(66/92)
(66/109)
0.893
0.831
(1802/2019)
(1802/2168)
ガ/ヲ/ニ格以外の格(カラ/ヘ/ト/ヨ
リ/マデ/デ)の付与に関してどの粒度
で付与するのか?
任意格に関しては,時間や空間
などの情報を表層格ではなく意味
のレベルで付与?
節と節の関係,部分全体関係のよう
な名詞間の関係についても吟味