Transcript Document
照応と共参照 照応関係: ある表現が同一文章内の他の表現を指す関係 共参照関係: 二つの表現が現実世界(もしくは仮想世界)で 同一実体を指す関係 現実世界(仮想世界) <村山富市> 村山首相は… 彼は… identity-of-reference anaphora (IRA) 太郎はiPodを買った。 次郎もそれを買った。 identity-of-sense anaphora (ISA) <太郎のiPod> <次郎のiPod> ACE EDT Task (Cont’d) mentionとentityの区別 文章 mention_a ジョンはリンゴを食べた。 class: names type: Persons 現実(仮想)世界 共参照 entity_i class: specific_reference mention_b 彼はオレンジも食べた。 class: pronouns type: Persons Geo-political entity (GPE) 場所としての「日本」と組織としての「日本」 共参照関係タグ付与コーパス(日本語) Global Document Annotation コーパス 総称名詞間にタグが付与されている フロン対策急げ…フロンによる環境対策は… フロン=フロン 京都コーパス ある実体とその役割の間に共参照相当のタグが付与 村山 首相 は … 村山=首相 NAISTテキストコーパスでの共参照関係 問題となる点 総称名詞なども共参照関係として認めるのか? 図書館aには本cが置いてある。 図書館bの本dは借りることができる。 図書館a = 図書館 b 本c ⊃本d 総称名詞は照応詞,先行詞とみなさない タグ付与対象となる名詞句のクラスに制限を加える? ACEのように名詞句のクラスを固有名などに制限 するのはある種の情報抽出に特化 さまざまな応用処理を対象にする場合, そのような制限は望ましくない 名詞句のクラスに制約を加えずに共参照関係を認定 述語と項の関係の先行研究 PropBank: CoNLL shared task (04, 05) 述語を含む文を対象に意味役割タグを付与 ARG0, ARG1, …, ARG5, AA, AM, AM-ADV, etc (35種類) 文内のみのタグ付与 ラベルの意味が不明瞭 述語と項の関係の先行研究 京都コーパス4.0 (555記事) ガ/ヲ/ニ/カラ/ヘ/ト/ヨリ/マデなど表層レベルのタグ付与 日本語の場合はゼロ照応ため文を越えて付与する トムiは今日学校へ行った。 帰っガ:トムi, ニ:外界照応 てすぐに遊びに出かけた。 ニツイテなども表層格とする Global Document Annotation コーパス (橋田, 05) ゼロ照応の場合でも同一文内に先行詞が出現してい る場合にはタグが付与されていない 学習手法の訓練事例として利用するには網羅性の点 で問題となる NAISTテキストコーパスでの述語と項の関係 深層格や表層格などどのレベルでタグを付与する? 「誰が何を何に対してどうする」といった情報の抽出を 目的におく 述語の原型に対してタグ付与する 表層レベルからなんらかの情報を捨象することが 応用分野に貢献するか否かが自明ではない 表層格,特に頻出するガ/ヲ/ニ格をまず対象に 私は彼にリンゴを食べさせる。 京都コーパス4.0 [述語=“食べさせる”, ガ=“私” ヲ=“リンゴ” ニ=“彼”] NAISTコーパス [述語=“食べる”, ガ=“彼” ヲ=“リンゴ” 追加格=“私”] 事態性名詞の先行研究 事態性名詞 ある種のイベントを表す名詞 NomBank Penn Treebank II の約5,000名詞 PropBankと同じタグセット (ARG0, …, ARGM-LOCなど) 12% growth in dividends next year [REL=growth, ARG1=in dividends, ARGM-TMP=next year] 京都コーパス4.0 新民主連合所属議員の離党問題について「政権に 影響を及ぼすことにはならない。… [離党ガ影響(する)] NAISTテキストコーパスでの事態性名詞 事態性名詞 事態性名詞そのものを認定する必要がある 彼からの電話によると、私は彼の家に電話を忘れたらしい。 対象を限定:サ変名詞,和語動詞の名詞化 (例「動き」 「走り」) (つまり「運動会」などは除く) 複合語の扱い 構成的に分解可能 複合語の構成素にタグ付与 「紛争仲裁」 「仲裁」にタグ付与する 「フランス革命」 「革命」にはタグ付与しない タグの一致率 作業者2人に30記事を対象に作業を行ってもらった結果 一人の作業結果を正解,もう一人の結果をシステムの 出力として再現率,精度を求める 再現率 精度 述語 ガ格 ヲ格 ニ格 0.921 (806/875) 0.823 (683/830) 0.899 (329/366) 0.724 (105/145) 0.944 (806/854) 0.829 (683/824) 0.954 (329/345) 0.890 (105/118) 事態性名詞 ガ格 ヲ格 ニ格 0.965 (247/256) 0.735 (191/260) 0.827 (86/104) 0.389 (7/18) 0.792 (247/312) 0.743 (191/257) 0.869 (86/99) 0.583 (7/12) 共参照 0.813 (126/155) 0.813 (126/155) 共参照のタグ付与の問題点 換喩のタグ付与 グロズヌイからの報道によると三日、大統領官邸の北西一・五キロの鉄道駅付 近でロシア軍部隊iとチェチェン側部隊が衝突したが、ロシア側i は中心部への進 撃を阻まれて苦戦。 ... ロシア政府jは三日、戦況に関する声明を発表し、大統領 官邸を含む首都中心部は依然としてロシア側が支配していると強調した。しかし 現地からのテレビ映像では、官邸はじめ中心部は依然としてドゥダエフ政権部隊 の兵士が警戒に当たっており、ロシア側j の発表と食い違いを見せている。 「ロシア」間で共参照関係を認定 述語のタグ付与の問題点 機能語相当表現との曖昧性 会社Aが会社Bを子会社として … 本動詞的な解釈: 会社Aが会社Bを子会社とする 機能語的な解釈: “ある一つの側面からの価値付け” 土屋ら(06): 機能語相当表現(複合辞)を対象に作業 者間の一致度を評価 ある程度揺れなく作業できている 項を考慮しながら述語を認定する場合に困難になる 各表現ごとにどちらに解釈すべきかをあらかじめ 提示する 事態性名詞のタグ付与の問題点 複合語の分割をどこまでやるのか? 仕様: 構成的に分割できる場合のみ複合語の中も タグ付与の対象とする 「投資率」のような複合語をどの程度構成的に分解す るかの解釈が作業者間で揺れた 結果物はモノなのかコトなのか? 「契約」「規制」「投資」などの表現 料金規制当局と公共事業者が、一種の社会契約を結ん だという考えに立つもので、経営効率化促進のための 社会契約インセンティブ規制とも言われる。 項のタグ付与の問題点 交替の現象ために起こる揺れ (φガ)(φヲ)実現する agentガ themeヲ 実現する themeガ 実現する 他動詞的な解釈でタグを付与する 動作主性(agentivity)をどこまで認めるか? 動詞: 「しばる」の項「規制」 規制(agent)ガ themeヲ しばる agentガ 規制(instrument)デ themeヲ しばる どちらの格パタンを優先するかを決める 項のタグ付与の問題点 (Cont’d) 組織とその関係者の対立 …自民、さきがけ、新進各党の与野党の党首会談を 呼び掛けて協力を求めるべきだ。 「与野党ガ協力(する)」 or 「党首ガ協力(する)」 北朝鮮における新年の辞は、同指導部の施政方針 発表に当たる重要行事である。 「北朝鮮ガ発表(する)」or 「同指導部ガ発表(する)」 詳細化されている名詞句にタグ付与する 他方は名詞間の関係としてタグ付与 <与野党,所属,党首> <北朝鮮,所属,同指導部> ガ/ヲ/ニ格以外のタグ付与結果 付与された個数 表層格 カラ ヘ ト ヨリ マデ デ 計 作業者1 133 9 260 17 32 374 825 作業者2 130 11 311 17 22 405 896 台北iでは、スタジアムも満員になりデ:i、 失神者が出たデ:iほど。 上述のような複数の述語が同一表現を項として持つ 場合は,作業者1と作業者2でそれぞれ16回と31回 ほとんどが係り受けの関係にある タグの一致率 作業者2人に287記事を対象に作業を行ってもらった結果 一人の作業結果を正解,もう一人の結果をシステムの 出力として再現率,精度を求める 再現率 精度 述語 ガ格 ヲ格 ニ格 0.947 (6512/6880) 0.861 (5638/6549) 0.943 (2447/2595) 0.892 (1060/1189) 0.941 (6512/6920) 0.856 (5638/6567) 0.919 (2447/2664) 0.817 (1060/1298) 事態性名詞 ガ格 ヲ格 ニ格 0.905 (1281/1415) 0.798 (1038/1300) 0.893 (469/525) 0.717 (66/92) 0.810 (1281/1582) 0.804 (1038/1291) 0.765 (469/613) 0.606 (66/109) 共参照 0.893 (1802/2019) 0.831 (1802/2168)