下载 - 郑州大学自然语言处理实验室

Download Report

Transcript 下载 - 郑州大学自然语言处理实验室

基于实体约束的纳西-汉语双语词语
对齐方法
杨秀贞 余正涛 郭剑毅 潘霄 毛存礼
昆明理工大学信息工程与自动化学院
论文题纲
1. 研究背景及意义
2.国内外研究现状
3.基于实体约束的纳西-汉语双语词语对
齐方法
4. 实验及结果分析
5.结论
1 研究背景及意义
 纳西语言研究意义
 纳西文是由云南丽江纳西族先民创造并使用的文字,是
目前世界上唯一仍在使用中的象形文字。
如:兔子( )、骆驼( )、鱼( )、稻谷(
)
 现在仍有50万人在使用。
 在各种外来文化和现代文明的渗透下,纳西象形文正在
迅速地变异和消亡,为了实现对这一文字的保护与传承
需要构建一个高质量的纳西-汉语双语机器翻译系统。
 词语对齐的语料是机器翻译系统重要的资源。
1 研究背景及意义
 实验室所做工作




制作了4186个纳西字符
实现了纳西-汉语双语词典
实现了纳西-英语、纳西-汉语、纳西拼音输入法
整理出纳西-汉语双语语料23000句左右;
2 国内外研究现状
 中-英双语词语对齐方法
 Franz Och 等人开发出了基于IBM模型的词语对齐开
源工具GIZA++。
 Och等人 (2003)提出模型 6,该模型是 IBM 翻译模
型和 HMM 模型的线性整合。
 Cherry 等人(2003)提出一种易于整合与上下文相关
特征的统计模型。
 刘群等人提出了基于对数线性模型的词语对齐方法。
2 国内外研究现状
 纳西-汉语双语词语对齐方法
 使用GIZA++实现纳西汉语双语词语对齐。
 存在的问题:
纳西和汉语语法差别较大,纳西句子成分的基本语序是
“ 主-宾-谓”,汉语的基本语序是“ 主-谓-宾”,造成在使
用GIZA++进行对齐时,纳西句子中的实体对齐到汉
语句子中的非实体上。
2 国内外研究现状
 本文提出的方法
针对以上问题,提出了一种基于实体约束的纳西-汉语
双语词语对齐方法,在对齐时考虑双语句子中实体与实
体应当对齐的特点,从而解决双语中实体对齐到非实体
上的问题。
3 基于实体约束的纳西-汉语词语对
齐方法
 基于实体约束的纳西-汉语词语对齐方法的
思想:
 利用了双语对齐过程中,实体之间存在对齐关系,而现在实体方
法能够将双语中的实体有效识别出来,通过标注双语中实体对齐
关系,并利用这些关系来提高双语词语对齐的准确率。
 实现过程:





(1)对平行的纳西和汉语语句分别进行分词。
(2)识别出纳西语与汉语句子中的一些实体。
(3)将两个句子中对应的实体用相同标记替换。
(4)对替换后的语句使用GIZA++进行词语对齐
(5)通过扫描原始双语句对,将对齐结果中的标记还原为对应的
实体,即可得到最后的对齐结果。
3.1 纳西分词
纳西语跟汉语一样,纳西语言同样存在分词问题。选取句子中纳西
字符作为特征,标记词切分语料,采用条件随机场模型训练构建
纳西分词模型。
 (1)特征模板定义
代表着当前字符; n 是相对于当前字符所处的位置。比如,在序
列
(一家人喜欢吃鲜肉)中,假如当前字符是‘ (人)’;
表示‘ (家)’;C 表示‘ (一)’。
是针对分词语料中存在
的标点符号(预先搜集,比如‘。’、‘?’等)而设置的特征。
C0
C1
2
3.1 纳西分词
 (2)语料预处理,切分为单个字符
 (3)标记语料
3.1 纳西分词
 (4)训练模型
 (5)识别
3.1 纳西分词结果
 (6)分析整理得到最终的纳西分词结果
3.2 单语实体识别
 纳西端:
 首先使用条件随机场对纳西语句子进行分词和词性标记,然后再
次使用条件随机场对分词后的句子进行实体识别(人名、地名、
数词和时间词)例如:
 中文端:
 首先使用ICTCLAS对汉语句子进行分词和词性标记,ICTCLAS自
身还带有实体识别模块,借助该模块,对汉语句子进行实体识别
。例如:
3.3 双语实体对齐
 对识别出来的纳西和汉语实体,借助纳西-汉语词典,
实现纳西汉语实体对齐。
3.4 标记替换
 将纳西汉语相对应的实体用RM、DM、SC和SJC,替
换识别出来的实体,注意:在同一个句子中不同的实体
用不同的标记来替换。例如:
3.5 GIZA++对齐
 GIZA++对齐:
 在用标记替换实体后的双语句对上,使用GIZA++工具进
行对齐。对齐结果如下所示:
3.6 标记还原
 标记还原:
 通过扫描原始双语句对,将标记还原为其对应的实体,
这样即可得到最终的对齐结果。
4 实验及结果分析
 为了验证这个方法,以只用IBM模型作为对比实验,收
集了8000句的纳西-汉语双语平行语料;从8000句的纳
西-汉语语料库中抽取了200句作为评测数据。
 通过对比实验看出, 准确率提高了5.48%,召回率提高
了5.88%,F权重提高了5.13%,词语对齐错误率降低了
7% 。
5 结论
 表明了基于实体约束的纳西-汉语双语词语对齐方法对
纳西-汉语的词语对齐有很好的效果。
 这对构建纳西-汉语双语语料库具有非常好支撑作用
 下一步工作:
 将从如何融合纳西语言句法或语义特点研究纳西汉语双
语句子对齐 。
谢谢大家!