Transcript 不可避免很难避免
拼写校对及联合解码报告
赵安邦
2013年1月
目录
研究背景
具体方法
框架
人工规则拼写校对
自动规则拼写校对
联合解码
实验及分析
维语
蒙语
目录
研究背景
具体方法
框架
人工规则拼写校对
自动规则拼写校对
联合解码
实验及分析
维语
蒙语
研究背景
疑点
• 在我们的测试集上BLEU值是0.401,未登录词不太多
• 在客户的使用中却大量出现未登录词
分析
• 我们的语料中元音上很多有点
• 客户的语料中元音上几乎没有点
实验
• 把训练测试集所有的元音上点去掉,BLEU提高到0.4104
• 在客户使用中,未登录词大大减少
研究背景
元音
脱点
• 如körüshti可能写成korushti。
音变
• mektep(学校,词干)+im(第一人称单数,词缀)
=mektipim(我的学校)
(弱化现象)
• burun(鼻子,词干)+i(第三人称单数,词缀)=burni
(他的鼻子)
(脱落现象)
笔误
• tögütüsh写成tügütüsh
研究背景
维语中大量存在拼写不规范不一致的情况。
很多拼写错误是有明确原因的,可以寻找规律解决。
校正这些拼写错误后再翻译可以大大减少未登录词,
进而提高BLEU值。
拼写错误在蒙语中也大量存在。
目录
研究背景
具体方法
判断是否是未登录词
拼写校对规则生成
联合解码
实验及分析
维语
蒙语
框架
核心思想:利用拼写校对模块产生候选,解码时
对多个候选进行联合解码。
解码时判
断是否是
未登录词
对未登录
词产生拼
写校对候
选,存入
lattice结构
对lattice
结构进行
联合解码
框架
判断是否是未登录词
在解码器读入的短语表中查找是否有这个单词,规
则表存在一个trie树中,只需要查找第一层,复杂
度O(lgn)。
拼写校对规则生成
人工规则
总结出现拼写错误的三个原因,根据这些原因和语言
学知识人工写规则。
拼写校对规则生成
nenliyang
nenlyang/NP
nenliyang
nenlyang
l-l y-y
i-null
li-l iy-liy-ly nliy-nly ….
拼写校对规则生成
问题
这样抽取规则会抽取出过多的规则
解决
设置规则最大长度为3
设置频度阈值
效果
限制规则数量在1000条左右
拼写校对候选生成
抽取出规则后,遍历规则产生对未登录词的所有应
该规则可能产生的拼写校对候选。
如果应用自动抽取规则,则可能产生的候选会特别
多,则限制一个词最多只能使用一次规则进行变形。
联合解码
Chiero使用CYK进行解码,而拼写校对模块只是对
每个词产生多个候选,可以很简单地结合到CYK解
码中。
实际做的时候,只需要在开始解码前,把多个候选
保存在第一层的span中即可。
联合解码
原始CYK第一层
<S>
awstirraliyening sherqiy
qisimidiki
brispan
</S>
qisimidiki
qismitiki
qismidiki
qismidikea
qisnidikea
brispan
</S>
联合解码中CYK的第一层
<S>
awstirraliyening sherqiy
awawstiraliyening
awstiraliyening
awsdiraliyening
awstiraniyening
目录
研究背景
具体方法
判断是否是未登录词
拼写校对规则生成
联合解码
实验及分析
维语
蒙语
联合解码
测试语料
测试语料使用实验室内部评测用的语料。新闻语料是CWMT2011的700
句测试集。口语是内部测试使用的500句测试集。
解码器版本
ICT-Chiero 3.0
维语
BLEU值测试
标准chiero
+拼写校对联合解码
(人工规则)
+拼写校对联合解码
(自动规则)
书面语
0.5079
0.5409
0.5209
口语
0.1643
0.1872
0.1843
未登录词测试结果
标准chiero
+拼写校对联合解码
(人工规则)
+拼写校对联合解码
(自动规则)
书面语
3806
481
350
口语
1864
328
175
蒙语
蒙语新闻
标准Chiero
+拼写校对
0.0792
0.0878