PPT - 鳥取大学

Download Report

Transcript PPT - 鳥取大学

意味属性の共起による
「AのB」型名詞句の翻訳規則
鳥取大学 工学部
○徳久雅人 守谷有司 村上仁一 池原 悟
2003/9/10
FIT2003
1
1.はじめに
• 「AのB」型名詞句の機械翻訳
日本語での意味は多彩
⇒ 様々な英語表現に翻訳
教師の経験 ⇒ experience as a teacher
A
B
B
as
A
左側の脳 ⇒ left side of brain
A
2003/9/10
B
A
of
FIT2003
B
2
先行研究
• 「AのB」型名詞句の意味分類・意味解析
[島津ら86],[冨浦ら95]
• 用例ベースによる翻訳
[飯盛ら
96]
⇒意味的関係を用いた網羅的規則作成が困難
• 意味属性・文法属性による翻訳規則
[池原ら02]
⇒検討した英語表現は8つ,自動化未着手
2003/9/10
FIT2003
3
本研究の目的
「AのB」型名詞句の機械翻訳
• 広範な英語表現に対応
• 意味属性を用いた規則の半自動作成
■ 手順
• 大規模な日英表現対を収集・分類
• 意味属性の共起を用いた規則の作成
• 相補的規則の追加
• 実験
2003/9/10
FIT2003
4
2.英語表現の分類
• 本研究で取り扱う名詞句
– 係り受け関係がある名詞句
例文:リンゴの木に花が咲いている。
対訳:The apple trees are in blossom.
• 取り扱わない名詞句
– 英訳部分が名詞句でない.
例文:食事の支度ができましたから,席に着いて下さい。
対訳:When the meal is ready, please come to your seat.
– 複合名詞,形式名詞などの場合
2003/9/10
FIT2003
5
標本の収集
日英文対応コーパス: 33万件
ハトは平和の象徴だ。 / The dove is the symbol of peace.
「AのB」アライメント
「AのB」の抽出
平和,象徴
失敗
手作業で再収集
辞書引き
peace, symbol
表現の抜粋
symbol of peace
成功
手作業で確認
約3万件の
標本を収集
英語表現の分類
• 英語表現の選択規則を作るために,
英語表現を分類
candle flame (ロウソクの炎)
star in the sky (空の星)
⇒
⇒
A+B型
B in A 型
分類結果: 英語表現 49 種類
翻訳対象: 28種類(出現頻度が10件以
上)
標本全体の
2003/9/10
FIT2003 99 %をカバー
7
英語表現
所有格 + B
B of A
A+B
形容詞 + B
A’s B
A of B
B for A
前置詞 + B
B+A
B in A
割合
26.61
21.54
14.95
7.71
6.14
5.39
4.33
3.43
1.92
1.07
英語表現
B to A
B on A
B at A
B from A
A in B
:
単語
A from B
B against A
A to B
割合
0.99
0.88
0.53
0.49
0.36
:
0.14
0.06
0.06
0.06
英語表現
A with B
A at B
B around A
B such as A
:
B through A
B within A
:
A under B
B aboard A
割合
0.05
0.04
0.04
0.01
:
0.01
0.01
:
0.003
0.003
規則作成対象
3.意味属性規則の作成
意味属性: 日本語語彙大系の一般名詞意味属性
• 形態素解析結果は意味属性が曖昧
• 5,000件を手作業で絞り込み,学習データに
(例) 林檎の花 / apple blossom
林檎 (【果樹】,【果物】)
花
(【花(本体)】,【舞踊・演劇・諸芸】,【興隆】)
if 【果樹】の【花(本体)】 then A+B 型
一般名詞意味属性体系
名詞
具体
…
…
生物
植物
果樹
抽象
……
……
無生物
動物
……
樹木
果物
2003/9/10
…… ……
菓子
FIT2003
一般名詞
林檎
10
3.意味属性規則の作成
意味属性: 日本語語彙大系の一般名詞意味属性
• 形態素解析結果は意味属性が曖昧
• 5,000件を手作業で絞り込み,学習データに
(例) 林檎の花 / apple blossom
林檎 (【果樹】,【果物】)
花
(【花(本体)】,【舞踊・演劇・諸芸】,【興隆】)
if 【果樹】の【花(本体)】 then A+B 型
汎化による規則の自動生成
• 意味属性の汎化による規則のカバー率向上
店のカレー
if 【商店】の【飯】 then B at A 型
2項目についての汎化
【商店】の上位概念 ⇒ 【店舗等】
【飯】の上位概念 ⇒ 【料理】
if 【店舗等】の【料理】 then B at A 型
「レストランのピザ」にもマッチ
[中井ら99]の手法
により他の規則と
の競合を回避
意味属性規則の生成例
if A 意味属性
【図書館】
【情報】
【場所】
【帳】
【スポーツ】
【神仏】
【神仏】
B 意味属性
【出版物】
【概要】
【壁】
【枠】
【競争】
【助力】
【援助】
then 英語表現
B in A
A in B
B of A
B of A
A+B
A for B
A for B
:
:
:
意味属性規則の生成数
英語表現
A+B
B in A
B from A
A of B
A on B
B as A
:
2003/9/10
規則数(件)
46,315
23,894
6,946
6,107
1,010
597
:
FIT2003
合計: 440,545 個
14
4.相補的規則の作成
• 意味属性による一般規則がなじまない
先行研究[飯盛ら96],[池原ら02]
• 「名詞字面」による規則...英語6表現,90規則
「係る動詞」による規則...英語6表現,47規則
(例) 「彼の家」
⇒ 所有格 + B
「上着の雪を払う」 ⇒ B from A
2003/9/10
FIT2003
15
5.実験
• 目的: 英語表現型の選択性能を評価
• 方法:
– 「AのB」型名詞句を含む文を入力
(規則作成に使わなかった標本 1,000 件)
– 単語訳し分けは不問.英語表現型に注目
– 評価者1名(大学院生)
• 評価基準:
◎:対訳と一致
○:対訳と一致しないが規則の表現でも可
△:動詞などによっては規則の表現でも可
×:誤った英語表現
2003/9/10
FIT2003
16
○.例文:患者の体温
正解:the patient’s temperature A’s B型
出力:temperature of a patient B of A型
△.例文:彼の指示 (を受ける)
正解:instruction from him
B from A 型
出力:his instruction
所有格+B型
2003/9/10
FIT2003
17
実験結果
評価
◎
○
△
×
規則
42.1 % 18.0 % 19.3 % 20.6 %
意味属性規則
同上 + 相補規則 53.3 % 16.0 % 13.7 % 17.0 %
※ 形態素解析誤りは評価対象外
選択精度:
(◎と○)
2003/9/10
意味属性規則のみ...60.1 %
相補規則と併用........69.3 %
FIT2003
18
6.考察:誤りの原因
i ) 単語に複数の意味属性がある場合
入力: 屋上の望遠鏡
正解: the telescope on the roof (B on A 型)
出力: the telescope in the roof (B in A 型)
意味属性
解析結果
適用規則
屋上
【上】
【家屋(部分〈場(その他)〉)】
if 【家屋】の【機械】 then 「B in A」 型
今後の課題 ⇒ 複数の意味属性からなる条件の記述
ii) 類似する意味関係に様々な英語表現
汎化による
生成は過剰
意味属性では
困難
列車の車掌
conductors on this train (B on A)
タクシーの運転手
taxi driver (A+B)
オートバイのライダー motorcyclist (単語)
291【乗務員】
292【運転手】
2003/9/10
293【乗務員(その他)】
FIT2003
20
7.おわりに
• まとめ
–
–
–
–
–
「AのB」型名詞句とその対訳を約 3 万件収集
28種類の英語表現に着目
(カバー率 99 %)
意味属性規則を半自動生成
(5千→44万個)
手作業で相補規則を作成
(137個)
表現選択実験
• 意味属性規則のみの正解率:
• 補足規則と併用時の正解率:
2003/9/10
FIT2003
60.1 %
69.3 %
21
今後の課題
• 自動生成のために
– 意味属性の絞込みの自動化
• 選択精度向上のために
– 複数の意味属性を条件とする規則の設計
– 動詞規則(結合価パターン)の強化
• 翻訳のために
– 名詞訳語選択
2003/9/10
FIT2003
22