Transcript 不可避免很难避免
拼写校对及联合解码报告 赵安邦 2013年1月 目录 研究背景 具体方法 框架 人工规则拼写校对 自动规则拼写校对 联合解码 实验及分析 维语 蒙语 目录 研究背景 具体方法 框架 人工规则拼写校对 自动规则拼写校对 联合解码 实验及分析 维语 蒙语 研究背景 疑点 • 在我们的测试集上BLEU值是0.401,未登录词不太多 • 在客户的使用中却大量出现未登录词 分析 • 我们的语料中元音上很多有点 • 客户的语料中元音上几乎没有点 实验 • 把训练测试集所有的元音上点去掉,BLEU提高到0.4104 • 在客户使用中,未登录词大大减少 研究背景 元音 脱点 • 如körüshti可能写成korushti。 音变 • mektep(学校,词干)+im(第一人称单数,词缀) =mektipim(我的学校) (弱化现象) • burun(鼻子,词干)+i(第三人称单数,词缀)=burni (他的鼻子) (脱落现象) 笔误 • tögütüsh写成tügütüsh 研究背景 维语中大量存在拼写不规范不一致的情况。 很多拼写错误是有明确原因的,可以寻找规律解决。 校正这些拼写错误后再翻译可以大大减少未登录词, 进而提高BLEU值。 拼写错误在蒙语中也大量存在。 目录 研究背景 具体方法 判断是否是未登录词 拼写校对规则生成 联合解码 实验及分析 维语 蒙语 框架 核心思想:利用拼写校对模块产生候选,解码时 对多个候选进行联合解码。 解码时判 断是否是 未登录词 对未登录 词产生拼 写校对候 选,存入 lattice结构 对lattice 结构进行 联合解码 框架 判断是否是未登录词 在解码器读入的短语表中查找是否有这个单词,规 则表存在一个trie树中,只需要查找第一层,复杂 度O(lgn)。 拼写校对规则生成 人工规则 总结出现拼写错误的三个原因,根据这些原因和语言 学知识人工写规则。 拼写校对规则生成 nenliyang nenlyang/NP nenliyang nenlyang l-l y-y i-null li-l iy-liy-ly nliy-nly …. 拼写校对规则生成 问题 这样抽取规则会抽取出过多的规则 解决 设置规则最大长度为3 设置频度阈值 效果 限制规则数量在1000条左右 拼写校对候选生成 抽取出规则后,遍历规则产生对未登录词的所有应 该规则可能产生的拼写校对候选。 如果应用自动抽取规则,则可能产生的候选会特别 多,则限制一个词最多只能使用一次规则进行变形。 联合解码 Chiero使用CYK进行解码,而拼写校对模块只是对 每个词产生多个候选,可以很简单地结合到CYK解 码中。 实际做的时候,只需要在开始解码前,把多个候选 保存在第一层的span中即可。 联合解码 原始CYK第一层 <S> awstirraliyening sherqiy qisimidiki brispan </S> qisimidiki qismitiki qismidiki qismidikea qisnidikea brispan </S> 联合解码中CYK的第一层 <S> awstirraliyening sherqiy awawstiraliyening awstiraliyening awsdiraliyening awstiraniyening 目录 研究背景 具体方法 判断是否是未登录词 拼写校对规则生成 联合解码 实验及分析 维语 蒙语 联合解码 测试语料 测试语料使用实验室内部评测用的语料。新闻语料是CWMT2011的700 句测试集。口语是内部测试使用的500句测试集。 解码器版本 ICT-Chiero 3.0 维语 BLEU值测试 标准chiero +拼写校对联合解码 (人工规则) +拼写校对联合解码 (自动规则) 书面语 0.5079 0.5409 0.5209 口语 0.1643 0.1872 0.1843 未登录词测试结果 标准chiero +拼写校对联合解码 (人工规则) +拼写校对联合解码 (自动规则) 书面语 3806 481 350 口语 1864 328 175 蒙语 蒙语新闻 标准Chiero +拼写校对 0.0792 0.0878