機械翻訳勉強会 NTCIR

Download Report

Transcript 機械翻訳勉強会 NTCIR

機械翻訳勉強会
NTCIR-7について
2007年10月16日
奈良先端大D1小町守
NTCIR(エンティサイル)
• 情報アクセス技術に関するワークショップ
– 言語横断情報検索
– 自動要約
– 質問応答
– 特許情報処理
– 意見情報分析
– 動向情報分析
– Web 検索
NTCIR-7
• Advanced Cross-lingual Information
Access
– 言語横断情報検索と質問応答
• User Generated Contents
– ブログ検索
• Focused Domains
– 特許翻訳とマイニング
特許翻訳
• 特殊な言い回しがある
– 今回は「請求項」でなく「実施例」なので、普通
の技術論文とあまり変わらない
• 実際の文を見てみましょう
– ドメイン適応
– 専門用語
ドメイン適応
• WMT 2007
– Shared Task1: Domain Adaptation
– Philipp Koehn, Josh Schroeder.
Experiments in Domain Adaptation for
Statistical Machine Translation
結果
Method
Large out-of-domain training data
Small in-domain training data
Combined training data
In-domain language model
Interpolated language model
Two language model
Two translation model
BLEU
25.11
25.88
26.69
27.46
27.12
27.30
27.64
考えていること
• LDA/PLSIでトピックモデルを作って言語モ
デルを変えながら翻訳
– 技術文書はいろいろな分野が入っているので
有効そう
• Wikipedia から専門用語の対訳辞書を
作って利用する
– いろんな専門用語が載っているので使えそう
NTCIR-7の期間
• 2007年10月-2007年12月
– 2007年11月15日
• 登録〆切
• ドキュメントリリース
– 2007年11月-2008年4月
• dry run
– 2007年11月-2008年8月
• formal run