Transcript Document

统计机器翻译译文实词丢失
处理方法研究
王星 谢军 宋林峰 吕雅娟 姚建民
1
主要内容
•
•
•
•
•
研究背景
研究意义
研究现状
研究内容
总结及未来工作
2
研究背景
• 翻译错误示例(来自http://translate.google.cn )
3
研究背景
• 翻译错误示例
4
研究背景
语料处理,词对齐处理,抽取
算法
(Giza++)
模型训练
分词,对齐,对齐工具
参数学习
错
误
传
模型调参(Tuning)
Dev Set
播
模型使用
Test Set
5
研究意义
• 本研究对(层次)短语翻译模型的机器翻译有着积
极作用:
 过滤冗余短语和错误短语能够节省内存使用,加快翻
译解码速度。
 过滤实词(content word)翻译丢失的噪声短语提高译
文的忠实度,避免产生语法及语义错误。
6
研究现状
• 短语质量评价模型:实词翻译丢失(汉-英) :
现有的方法分大致为2类:
1. 简单的针对未对齐词进行处理
•
( Zhang et al EAMT2009)
2. 利用短语词对齐信息设计模型
•
(Och et al NAACL2004, Huck et al NAACL2012)
7
研究内容
 提出一种实词翻译丢失检测方法进行短语过滤,
设置短语检测限制条件:
 S = {noun,verb,adj,adv, pron}
1 if POS(w)  S
con _ pos( w){
0
otherwise
 引入Wordnet
1 if tgt (v) Wordnet ( w)
con _ has _ counterpart ( w){
0
otherwise
8
研究内容
 流程图
步骤.1
步骤.3
源端文件
双语对
齐文件
A
短语表
RA
目标端文件
双语对
齐文件
B
带词性
短语表RB
实体
词
检测
规则
过滤
过滤后的
短语表RD
被滤掉的
短语表RC
带词性的
源端文件
步骤.2
9
研究内容
10
研究内容
• 部分Baseline译文与短语过滤后译文。
11
总结及未来工作
 工作不足:
• 分词,词性标注等产生错误,导致合格短语被过滤。
• 习语翻译,意翻等不适按字面翻译,对齐时候可能无
法全部对齐,导致合格短语被过滤。(eg. can you tell
me | 能 告诉 我)
12
谢谢!
13