下载 - 郑州大学自然语言处理实验室

Transcript 下载 - 郑州大学自然语言处理实验室

基于改进的依存树
到串的汉语纳西翻
译模板抽取方法
李磊，余正涛，毛存礼，郭剑毅
昆明理工大学智能信息处理重点实验
2013.5.11
论文提纲
一
研究背景及意义
二
国内外研究现状
基于改进依存树到串的汉语纳西翻译模
板抽取方法
三
四
实验及结果分析
五
总结
研究背景及意义
• 少数民族文化遗产
东巴文是云南众多少数民族文字中的一朵奇葩，它是由云
南丽江纳西族先民创造并使用的，被誉为“世界上唯一活
着的古象形文字”。
如：虎（
）
）、马（
）、人（
）、树（
• 信息化方式保护
纳西文字使用规模相对较大，现在仍有50万人在使用。为
了实现对这一文字的保护与传承，希望借助机器翻译的方
式来研究和保护这一珍贵的资源。
研究背景及意义
存在问题
进行翻译模板抽取时，汉语句法结构复杂，纳西语简单，语
法结构差异大，许多词无法在纳西语中找到对应的结构。例
如：
研究背景及意义
• 若采用抽取出的这些模板进行翻译，则会造成大
量结构和词汇信息的丢失。例如：
输出：我不明白您想法。（我不明白您的想法）
输出：我说地方女孩都去。（我说的地方女孩都去过）
研究背景及意义
• 本文提出的方法
• 针对以上问题，本文提出了一种基于改进的依存
树到串的汉语纳西语翻译模板抽取方法，在模板
抽取过程中，扩展未对齐词到翻译模板中，从而
实现解决双语未对齐词的翻译处理。
论文提纲
一
研究背景及意义
二
国内外研究现状
三
基于改进依存树到串的汉语纳西翻译模
板抽取方法
四
实验及数据分析
五
总结
国内外研究现状
• 基于句法的统计机器翻译
当前基于句法的统计机器翻译是主流的机器翻译
方法，该方法是从词的角度来利用它们的依存关
系和句法结构信息进行模板抽取和翻译
• 基于句法统计翻译的模型：
串-树模型
树-串模型
国内外研究现状
• 串到树模型
Yamada
等人
Galley
等人
利用一个噪声通道，对源语言中的每一个节点
加入插入、翻译和重排序三种操作，最终得一
棵句法树完成翻译。
对Ymada的模型进行改进和扩展，将一些简单
规则和源语言端带有非终结符规则等引入模型，
使其翻译效果增强。
国内外研究现状
• 树到串模型
刘洋
基于短语结构树到串的翻译模型。引入对齐模
板，并且其对齐模板两端都可以包含终结符和
非终结符。
熊得意
基于依存树到串的翻译方法。将依存关系引入
了翻译过程中，通过词之间的句法信息来引导
翻译。
论文提纲
一
研究背景及意义
二
国内外研究现状
三
基于改进依存树到串的汉语纳西翻译模
板抽取方法
四
实验及数据分析
五
总结
基于改进依存树到串的汉语纳西翻
译模板抽取方法
利用一种基于改进的依存树到串的汉语纳西语翻译模板
抽取方法，扩展未对齐词到翻译模板中，生成翻译模板
（一）改进翻译模板的定义
将翻译模板定义为一个三元（CDT,NS,A）
CDT元素：采用treelet来代替传统子树。
A元素：不要求对齐矩阵保持一致性。
基于改进依存树到串的汉语纳西翻
译模板抽取方法
（二）改进翻译模板的抽取
双语句子必须首先在汉语源语言端做句法分析，得到对
齐关系。
基于改进依存树到串的汉语纳西翻
译模板抽取方法
（1）归并操作
根据汉语依存树上词的依存关系得到对齐词与未对齐词的
依存关系，根据依存关系，将汉语依存树中未对齐节点归
并扩展到对齐节点。
基于改进依存树到串的汉语纳西翻
译模板抽取方法
（2）节点的属性标注
Node Span
与节点对齐的
目标单词串的
位置号所组成
的闭区间
Sub-tree Span
节点的Node
Span与其直接
孩子节点的
Node Span组
成的闭区间
Include
{0，1} 指示器
Node Span==Subtree Span，值为0，
否则值为1。
基于改进依存树到串的汉语纳西翻
译模板抽取方法
所有节点的3个属性：
基于改进依存树到串的汉语纳西
翻译模板抽取方法
（3）递归抽取翻译模板
Include值为0的节点
Include值为1的节点
算法将通过直接抽取
的方式得到模板，并
返回给上层调用。在
调用时，将其泛化与
其父节点一起生成翻
译模板。
算法生成所有可能的
以该节点为根节点的
翻译模板，其方法是
合并该节点某些子节
点或子节点组合的翻
译模板。
基于改进依存树到串的汉语纳西翻
译模板抽取方法
基于改进依存树到串的汉语纳西翻
译模板抽取方法
（三）改进翻译模板的属性标注
• CDT中的每个节包含三个属性：中心词，中心词词性标记
，节点相对于父节点的局部顺序。
• 相对于父节点的局部顺序是在抽取出来的treelet中定义的
。
基于改进依存树到串的汉语纳西翻
译模板抽取方法
• 最终抽取出的翻译模板：
论文提纲
一
研究背景及意义
二
国内外研究现状
三
基于改进依存树到串的汉语纳西翻译模
板抽取方法
四
实验及数据分析
五
总结
实验及结果分析
• 实验数据准备
• 我们从训练语料中选择了近期编写的句对作为开
发集，共有15,987句对。测试集使用了前期收集
的7,327句对，句对平均长度为11.7个字。
实验及结果分析
• 实验工具选取
• 为了检验基于改进的依存树到串的汉语纳西翻译
模板抽取模型的效果，我们在汉语纳西语方向上
设计了对比实验。
• 实验系统以统计机器翻译系统“SilkRoad”（1.0
版）作为基础原型，句法分析器使用了基于宾州
树库的ctbparser依存句法分析器。
实验及结果分析
• 实验步骤
步骤一
步骤二
步骤三
使用ctbparser依存句法分析器对双语语料的
汉语言句子进行句法分析，得到一个分词完成
且词对齐的XML文件。
采用改进前的模板抽取方法和改进后的模板抽
取方法分别对XML文件进行模板抽取。
模板抽取后，分别对开发集和测试集进行测试，
并使用BLUE-3和准确度作为测评指标进行测
评。
实验及结果分析
• 实验结果分析
• 采用本文介绍方法共抽取了17,260(不重复)个翻译模板，
其中和测试集相匹配的有2,340个。
• 在开发集实验中, BLUE-3值提高了1.74％，准确度提高了
5.22%；在测试集实验中, BLUE-3值提高了1.66％，准确
度提高了4.98%。
论文提纲
一
研究背景及意义
二
国内外研究现状
三
基于改进依存树到串的汉语纳西翻译模
板抽取方法
四
实验及数据分析
五
总结
总结
本文提出了一种基于改进的依存树到串
的汉语纳西语翻译模板抽取模型。实验
证明，改进后的模板抽取模型在BLUE3和准确度方面均有很大提升。
下一步, 我们将扩大语料库规模,并
对将依存树到树以及树到森林等方
法应用到汉语纳西语统计机器翻译
上进行研究。
CLSW 2013
Thank You!

下载 - 郑州大学自然语言处理实验室

Transcript 下载 - 郑州大学自然语言处理实验室

Directory