863课题“网络环境的系统软件核心技术 及运行平台”成

Download Report

Transcript 863课题“网络环境的系统软件核心技术 及运行平台”成

ZZX_MT系统评测报告
巢文涵 李舟军
北航计算机学院
2008-11
提纲
 引言
 系统描述
• 词对齐
• 模型训练
• SMT模型及解码器
 实验
 结论&讨论
计算机学院
2
1.引言
 中英SMT系统中的两个问题
• 词对齐 (Word Alignment)
• 重定序 (Reordering)
 解决办法
• 词对齐中引入启发式规则,加入ITG约束
• 重定序模型中结合ITG和句法知识
 两个评测
• 中-英新闻
• 英-中科技
计算机学院
3
2.系统描述
 ZZX_MT:一个Log-Linear SMT系统
• 词对齐模块
• 模型训练模块
• 解码器模块
训练语料库
词对齐
词对齐语料库
模型训练
训练阶段
语言学知识库
源文本 C
翻译知识库
解码器
目标文本 E
计算机学院
4
词对齐(1/2)
 问题
• 中-英词序差别大
• 非一一对应
工业 产品 质量 责任 条例
regulation on quality
responsibility for industrial
product
 解决思路
• 在词对齐搜索过程中引入句法知识
(ITG文法)
 ITG:反向转录文法 (Wu 1997)
条例/regulation
ε/for
A 
[BC]|| BC | c/e | c/ | /e
p
A 
[ AA]|| AA | c/e | c/ | /e
p
工业/industrial 产品/product ε/ on
质量/quality
责任/responsibility
计算机学院
5
词对齐(2/2)
 词对齐中引入ITG约束算法
1: 算法:加入 ITG 约束的词对齐算法
2: 输入:Giza++ 输出的双向词对齐语料库、IBM4 模型中的翻译模型
3: 输出:满足 ITG 约束的词对齐语料库
4: Begin
5:
Foreach( 语料库中的句对 A)
6:
获得 Giza++双向词对齐的交集 I 和并集 U;并对其中链接排序;
7:
句对 A 的词对齐 W = I;
8:
Foreach( U 中的链接 l)
9:
if(l 在 I 中), continue;
10:
if(( W + {l} 不违反 ITG 约束) 且(词对齐分值不会减少))
11:
12:
W = W + {l};
Return 新的词对齐语料库;
13: End
计算机学院
6
模型训练(1/2)
 需要训练的模型
• 语言模型:SRILM
• 翻译模型: P(e | c)
P(c | e)
• 重定序模型 r (o | bk , bk 1 )
Pw (e | c) Pw (c | e)
o {straight, inverted}
– 问题:数据稀疏
– 解决办法:利用子块近似预测整个块的方向
– 如:
a[]k* 
count( straight, bk ,*)
count(bk ,*)
a*k[] 
count( straight,*,b k )
count(*,b k )
计算机学院
7
模型训练(2/2)
 块的提取
• 翻译信息的提取
• 重定序信息的提取
计算机学院
8
解码器(1/3)
 SMT模型特征
•
•
•
•
•
•
翻译模型:
重定序模型
语言模型
词惩罚
短语惩罚
树的同构模型
– 计算源句法分析树与解码过程
中生成的ITG树的结构相似性
– 尽量使得:句法树的每个子树
能够映射到ITG树中的子树
最近 1
最近 的/ the nearest
的2
赌场 3 在 4
赌场/ cassino
哪里 5
在哪里/ where ‘s
where ‘s
计算机学院
9
解码器(2/3)
 解码过程
• 束搜索的CYK
– 解码过程看作是ITG规则的应用序列,最终形成的目标句
子与源句子会形成一棵ITG树
 数据结构
• 为每个源短语创建的翻译选项列表。每个选项的结
构如下 :
索引
[i, j ]
翻译块
源短语/目标短语
翻译概率
Prob
特征值向量
fAT
计算机学院
10
解码器(3/3)
 解码算法
1: 算法:CKY 解码器
2: 输入:
源句子 srcSent, 源句子的句法分析树 Tc
3: 输出:
目标句子列表 tgtSents,及最佳目标句子 tgtSent
4: Begin
5:
获得每个源短语对应的翻译; //初始化
6:
For len=2 to srcLen do //递归过程
7:
For i=1 to srcLen – len + 1 do
8:
j=i+len-1;
9:
For k=i to j-1 do
10:
// 寻找一个分割点
Foreach cand A in cands[i,k]
and each cand B in cands[k+1,j]
12:
分别计算 A 和 B 的正向和反向输入,添加到 cands[i,j]中
End; //for len
13:
sort(cands[1,srcLen])
14:
tgtSents = cands[1,srcLen]
15:
tgtSent = cands[1,srcLen]
16:
return tgtSent
11:
17:End
计算机学院
11
3.实验
 两个受限翻译评测
• 中-英新闻翻译评测
• 英-中科技翻译评测
 测试环境
• 操作系统:Windows2K
• CPU:AMD64 2.8G
• 内存:1G
计算机学院
12
中-英新闻翻译评测 (1/3)
 语料来源
• CWMT08提供的新闻语料(Common部分)作为
训练集
 预处理
• 去掉长句
• 全角符号处理
• 分词:中文ICTCLAS ,英文WMT05的Tokenizer
工具
• 英文的词根化处理:词对齐过程中使用
• 句法分析:Stanford的Parser
 训练语料库:
• 724,914 句对
计算机学院
13
中-英新闻翻译评测(2/2)
 实验设计及结果
 结论
• 同构模型对于翻译结果产生的积极的影响,各个指标均比两
个对照组的结果好
• 方向偏好产生了负面的影响,原因可能有:
– 一是因为中英文的输出顺序变化非常大,简单的计算输出方向不
具有解释能力,反而影响了模型的稳定性;
– 二是模型的权值调整过程中,过度拟合,导致在真实测试集上效
果不佳
计算机学院
14
英-中科技翻译评测
 语料来源
• CWMT08提供的科技语料(Special)作为训练集
• 采用类似的预处理后,共:616597个句对
 实验设计及结果
 结论
• 采用同构模型后产生了负面影响,原因需要进一步分析,可能有:
– 中文过于灵活,采用英文的句法对目标句子进行约束,可能导致某些好
的组合难于出现
– 来源于我们程序的Bug,以字为单位,这导致了大量的短语对被过滤掉
计算机学院
15
4.总结&讨论
 参与了两个单元的评测
 试图在SMT系统中结合句法知识
• 试图在词对齐中结合ITG约束
• 在模型训练及解码过程中结合ITG约束和句法分析树知识
 结果不同
• 在中-英新闻任务中,采用同构模型提高了翻译质量,
• 在英-中科技任务中,同构模型的采用产生了负面影响,具体
的原因我们将在后续进一步研究
计算机学院
16
主要参考文献








Franz Joseph Och and Hermann Ney. 2003. A Systematic Comparison of Various Statistical
Alignment Models. Computational Linguistics, 29(1):19–52.
Deyi Xiong, Qun Liu and Shouxun Lin. 2006. Maximum Entropy Based Phrase Reordering
Model for Statistical Machine Translation. In Proceedings of the 21st International
Conference on Computational Linguistics and 44th Annual Meeting of the ACL, pages521528.
Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, & Robert L. Mercer. 1993.
The mathematics of statistical machine translation: parameter estimation. Computational
Linguistics 19 (2), pp. 263-311.
Kenji Yamada and Kevin Knight. 2001. A Syntax-based Statistical Translation Model. In
Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics,
pp. 523–530.
Yang Liu, Qun Liu, & Shouxun Lin. 2006. Tree-to-string alignment template for statistical
machine translation. In Coling-ACL 2006: Proceedings of the 21st International Conference
on Computational Linguistics and 44th Annual Meeting of the Association for
Computational Linguistics; pp.609-616.
Dekai Wu. 1997. Stochastic Inversion Transduction Grammars and Bilingual Parsing of
Parallel Corpora. Computational Linguistics, 23(3):374.
Wen-Han Chao and Zhou-Jun Li. 2007. Incorporating Constituent Structure Constraint into
Discriminative Word Alignment”, In proceedings of MT Summit XI, Copenhagen, Denmark,
September 10-14, 2007.
A. Stolcke. 2002. SRILM – An extensible language modeling toolkit. In Proceedings of the
International Conference on Spoken Language Processing, pp. 901–904
计算机学院
17
谢谢