PPT - 鳥取大学

Download Report

Transcript PPT - 鳥取大学

重文・複文の基本文型に対する
文型パターン辞書のカバー率
平成15年度研究状況報告会
徳久雅人(鳥取大学)
1.はじめに
• 日本語の重文・複文のパターン辞書の構築
– SEMコーパス (Semantically Equivalent
Mapping)(コーパス)
(パターン辞書)
(15万文
→ 22万パターン
)
• パターンの詳細分析・強化・補充を今後実施
• パターン辞書を構成する重文・複文の把握
– 一般性
– 網羅性
– 使用頻度
これらの調査が本稿の目的
2.重文・複文の基本的な構造
• 重文・複文の基本的な構造=益岡田窪分類
[基礎日本語文法(益岡・田窪1989)]
1.補足節
:主節の格要素
例) 漢字を覚えることは難しい
2.副詞節
:主節を修飾
例) 雨にならないうちに家に帰ろう
3.名詞修飾節:主節を構成する名詞を修飾
例) 魚が焼けるにおいがする
4.並列節
:主節と対等
例) 花子が詞を作って、太郎が作曲した
従属節の分類(一部)
補足節
形式名詞
コト型
可能,反復,経験,決定
ノ型
強調
トコロ型
疑問表現
真偽疑問,疑問語疑問
引用
直接引用,間接引用
---
従属節のパターン化
従属節を抽出するためのパターン知識
• 副詞節
– 同時
/CL1(時|際)[に]/
私が16だった時、彼女は7つだった
– 原因
/CL1.te/
お腹が減って、口もきけなかった
• 名詞修飾節
– 内容
/ CL1^rentaiNP2/
魚を焼くにおい
ほか,合計97パターン
従属節パターン作成の問題点
• 従属節の様相表現の吸収
• 従属節の範囲を正しく抽出
• ダ文を正しく判定
(ダ文の判定例)
彼が留学生であれば許可する。
彼が留学生なら許可する。
⇒ パターン定義で解決
局所的に構文情報を使う
3.従属節の抽出実験
• 実験条件
– SEMコーパスの日本語文 126,203文を対象
– 2章で作成した97個の従属節パターンを照合
ただし,ダ文判定に「の」型,「に」型,「で」型は不使用
マッチした例
(文1) 僕は子供の頃サンタクロースは本当に
北極から来るものだと固く信じていた。
(適合1-1) /CL1と[、]/cl
(適合1-2) /CL1と[、]/
《副詞節・条件》
《補足節・間接引用》
(文3) 車を止めてエンジンを切りなさい。
(適合3-1) /CL1.te/cl
《副詞節・因果》
(適合3-2) /CL1^genzai.te/cl 《副詞節・付帯状況》
(適合3-3) /CLV1^genzai.te/cl 《並列節・総記》
マッチしなかった例
(文4) そのようなことをするには狡猾さが
必要だ。
– 「節+には」パターンが益岡田窪分類に無し
(文5) 運が尽きてからでは遅い。
– 「てから」が1つの形態素として解析
(文6) ドイツ人と日本人観光客が同じくらい目
立っていた。
– 単文
抽出実験の結果
• 従属節パターンの適合した文: 122,264文
非適合の文 : 3,939文
• 解釈の正解率:
適合,非適合の事例より各50個を検査
– 適合事例:
正しい解釈を含むならば正解
– 非適合事例:
新しい従属節パターンが必要:
従属節パターンのマッチに失敗:
単文とみなすほうが妥当:
100%
38%
32%
30%
4.カバー率
• 一般性
〈適合事例数〉 〈含有正解率〉

122,264100

 96.9(%)
〈総文数〉
126,203
• 網羅性
〈適合した従属節パタ ーンの種類数〉
96
100  100  99.0(%)
〈全ての従属節パター ン種類数〉
97
• SEMコーパスは基本的な表現で作られた文
• 基本的な表現の種類を網羅
従属節の出現頻度(上位9位)
順位
パターン概形
1 CL^rentaiN
2 CL^rentaiN
3 CLて~
4
5
6
7
8
9
CL^genzaiて~
CLV^genzaiて~
CL^rentai(こと|の)
CLと
CLと~
CL^renyou
簡易解釈
修飾
内容
原因
頻度
41,554
41,554
29,194
総記
付帯状況
内容
引用
条件
28,989
27,474
23,995
19,936
16,235
総記
15,812
従属節の出現頻度
45000
40000
35000
30000
25000
20000
15000
10000
5000
10位まで = 全体の 7 割
91
96
56
61
66
71
76
81
86
16
21
26
31
36
41
46
51
1
6
11
0
従属節の出現頻度(下位10位)
順位
パターン概形
簡易解釈
89 CL^genzaiた程
程度
90 CL^genzaiたとすると~ 仮想的
91 CLの(は|が)NP Jだ
強調
頻度
19
14
11
92
93
94
95
96
CL(一方|反面)~
CLくせに~
CL^genzai割に~
CL^genzaiたくらい~
CLかというのJ
対比
非難
程度違い
例示
内容節
9
9
6
2
1
97
CL^genzaiた割に~
程度違い
0
大分類ごとの頻度
大分類名
補足節
副詞節
名詞修飾節
並列節
出現割合
15.6%
35.4%
32.4%
16.6%
出現回数
53,744
122,216
111,635
57,386
副詞節のバリエーションは多い(61種)
副詞節全体でみると無視できない
同形異義パターンの分布
各20サンプルの検査
パターン
解 釈
連体節+名詞
《修飾節》
5
《内容節》
9
節+て
《原因》
14
《総記》
1
節+と
《引用》
6
《条件》
3
その他
11
仮定節+ば
《条件》
15
《累加》
3
その他
2
連用節+ながら
《付帯状況》
18
《逆接》
0
その他
2
◎ 解釈の詳細分析が,今後必要
その他
6
《付帯状況》
2
その他
3
5.おわりに
• まとめ
– 基本的な従属節の構造(益岡田窪分類)をパターン化
• 基礎日本語文法に基づく 97 パターン
– SEMコーパスとパターン照合で従属節を検査
• 一般性 = 97 %,網羅性 = 99 %
コーパスは,重文・複文の基本文型をカバー
• 従属節の出現頻度より
「連体修飾節」,「テ型節」,「ト型節」 は重要
⇒ 重点改良の対象
※ 副詞節は要注意
• 今後の課題
– 従属節の解釈の解析(方法の開発)が課題