日语时间表达式识别与日汉翻译研究

Download Report

Transcript 日语时间表达式识别与日汉翻译研究

日语时间表达式识别与日汉翻译研究
赵紫玉 徐金安 张玉洁 刘江鸣
北京交通大学
计算机科学与技术学院
纲要
研究背景与目的
主要方法
实验结果与分析
总结与展望
研究背景与目的
研究背景
• 关键信息载体
• 命名实体识别
研究目的
• 提高分词、句法分析的精度
• 改善机器翻译、信息抽取、文本摘要、对话系
统的性能
规则统计方法
基于规则方法
• 该类方法按照一定的规则描述时间特征,通过
规则匹配方式识别时间
基于统计方法
• 利用文本特征,在大量语料上训练出统计模型
对词序列进行标注。
融合方法
统计与规则相结合的识别方法
• 参考Timex2分类
• 定义日语时间词触发词表等知识库
• 观察统计模型识别结果,建立人工启发式
规则模板
• 统计与规则互相取长补短提高识别能力
翻译方法
日汉时间翻译方法探索
• 基于短语的统计翻译模型
• 日汉时间词平行字典
• 目的:
1. 提高时间词翻译精度
2. 为机器翻译工作提供技术基础
基本概念
(1)
时间基类
时间基类名称
时间基类描述
指一个具体固定且与时间的推移无关的时间词,
绝对时间
“2013年5月27日”
指随着时间的推移,所指的时间产生变化的时间
相对时间
如“一昨年、夕方”
段时间
指一个持续的时间段,如“一週間”
集合时间
指某一类时间的集合,如“梅雨期間、每日”
指跟特定事件相关的时间词,如“天和元年、平
事件触发时间
年”
指日本文化纪念日的时间词,如“建国記念の日、
文化相关时间
休日”
指日本二十四节气、七十二候、季节、六曜历法、
不特定时间
干地支等时间词,如“立春、雨水”
基本概念
(2)
时间表达式
Te  ( t1 , t 2 ,  , t i ,  , t m ) (m  1)
其中,𝑇𝑒 为一个时间表达式,它是m元组;其中
𝑡1 , 𝑡2 , ⋯ , 𝑡𝑖 , ⋯ , 𝑡𝑚 是m个独立的时间基类。
基本概念
日语时间表达式知识库
•
•
•
•
•
触发词库
边界词库
规则关键词库
日语月份的多种表示法知识库
日语维基百科知识库
(3)
基本概念
(3)
日语时间触发词库
触发词类型
触发词个数
触发词示例
绝对时间触发词
7
時、分、秒
相对时间触发词
122
夜明け、朝午前
段时间触发词
19
秒間、分間、時間
集合时间触发词
2
期間、每
事件触发时间触发词
557
世紀、紀元、王朝、時代
文化相关时间触发词
115
の日、纪念日、诞生日
不特定时间触发词
148
暦、盛夏、夏、立春
基本概念
(3)
日语时间表达式边界词库
边界类型
助词
日语标点符号
其他
边界个数
23
47
1
边界示例
格助词、提示助词
、。『』「」等
約
日语时间表达式规则关键词库
关键词所属类别
触发词
边界
阿拉伯数字
中文简体数字
中文繁体数字
关键词个数
970
71
10
10
10
关键词示例
7类时间基类时间触发词
助词、日语标点符号、其他
0、1、2
零、一、二
零、壹、貳
统计方法(1)
统计模型
基于CRF的标注模型
以日语中词素作为单位
统计方法(2)
标注符号集
标注符号
B-[时间基类]
符号说明
时间表达式的开始位置
I-[时间基类]
时间表达式的中间位置
E-[时间基类]
时间表达式的结尾位置
O
其他位置
时间表达式标注形式
时间表达式标注形式
说明
B
词长为1的时间表达式
BE
词长为2的时间表达式
BI…IE
词长大于2的时间表达式
统计方法(3)
词法、句法特征
特征描述
说明
词形
词本身
形态素信息
包括词性,日语活用型等
CRF特征模板
特征类型
特征模板
Unigram(一元)
𝐶𝑛 ,𝑆𝑛 , n = −2, −1, 0, 1, 2
Bigram(二元)
𝐶𝑛 𝐶𝑛+1
,
𝑆𝑛 𝑆𝑛+1
,
n=
统计方法(4)
识别流程图
基于日语维基
训练语料
基于日语维基
测试语料
知识库
语料预处理
语料预处理
错误驱动学习
特征抽取
特征抽取
模型训练
时间表达式
识别结果
时间表达式识别
人工启发式模板
时间表达式类型
绝对时间
相对时间
段时间
集合时间
事件触发时间
文化相关时间
不特定时间
规则模板示例
规则示例(正则表达式)
[数字]+[绝对时间触发
\d+年\d+月\d+日
词]
[边界词][相对时间触
を.*(夜明け|朝午前).*
词]+[边界词]
[数|何|半][段时间触
数(秒間|時間)
词]
每[绝对时间出发词|集
每(年|月|日)
合时间触发词]
[事件触发时间触发词
平成\d+年
数字]+年
[文化相关时间触发词
国際労働者の日
节日]
[不特定时间触发词]
立春|雨水|啓蟄|春分
系统结构
基于日语维基
训练语料
模型训练
日语时间表达
式知识库
错误驱动学习
人工启发式规则
模板构建
日语时间表达
式规则集
基于日语维基
测试语料
输出:
日语时间表达式
基于日语维基
测试语料
基于CRF统计模
型识别结果
日语时间表达式
整合
基于规则
识别结果
规则和统计的融合策略
基于错误驱动思想更新知识库与人工启发式规
则模板
动态训练CRF模型与规则模块
利用贪心策略整合二者识别结果
Tim e Expression = sequence(m axleft( R , S ):m axright( R , S ))
if R  S  
其中,maxleft(R, S)表示规则结果与统计结果最左边
字符,maxright(R, S)表示规则结果与统计结果最右
边字符,sequence(i: j)函数表示从字符i到字符j的
连续字符串
日汉时间表达式翻译比较
方法比较
1. 传统的基于短语的翻译模型
2.
基于日汉平行词典与规则的翻译过程
日汉时间表达式翻译系统
日汉平行语
料库
翻译模型
语言模型训练
解码
日语时间表
达式识别
日汉时间词
翻译规则
时间表达式
识别结果
翻译
日汉时间词
平行字典
时间表达式
翻译结果
机器翻译
结果
识别实验
(1)
实验语料
• 日语维基资源库经过预处理分为训练语料及测
试语料
实验数据
句子数 平均句长(字数) 时间表达数
训练语料
23万
60.8
45万
测试语料
1691
57.8
3766
识别实验
(2)
测评方法
准确率 正确识别的时间表达式个数/系统识别出的时
间表达式个数
召回率 正确识别的时间表达式个数/测试语料中的时
间表达式个数
F1值
2*准确率*召回率/(准确率+召回率)
覆盖度
正确覆盖的时间单元个数/时间单元总数
识别实验 (3)
实验结果(时间基类识别结果—覆盖度)
绝对
时间
相对
时间
段
时间
集合
时间
事件
触发
时间
基于规则
0.8964 0.4005 0.8874 0.8902 0.9383
方法
基于统计
0.9678 0.8816 0.9665 0.8140 0.9515
方法
规则统计
0.9698 0.8816 0.9686 0.8963 0.9515
融合
文化
相关
时间
不特定
时间
0.9478
0.4500
0.9395
0.1214
0.9560
0.5142
识别实验
(4)
时间基类识别结果分析
1. 统计与规则融合的方法识别效果最佳
2. 弥补各自方法的不足
3. 提高了识别的泛化能力
识别实验 (5)
实验结果(时间表达式)
P
R
F1
基于规则方法
0.8110
0.7534
0.7811
基于统计方法
0.9432
0.8383
0.8877
规则统计融合
0.9364
0.8639
0.8987
翻译实验
(1)
实验语料
• 28万句子级日汉平行语料
实验数据 日汉平行
语料
实验语料
28万
含日语时间词的
句子数
18780
时间词数
20658
翻译实验 (2)
实验结果(时间表达式翻译结果—PRF)
方法
P
R
F1
Moses翻译模型
0.4891
0.3762
0.4253
基于字典与规则的时间词
翻译模块
0.5060
0.4745
0.4897
翻译实验 (3)
翻译实验结果分析
1. Moses模型对时间表达式的翻译效果不理想
• 具有多样性特点的时间词在未登陆词中分布很
典型也很广泛。
• 未对时间词识别,分词影响严重,进而大量噪
声引入词对齐,进而翻译效果差
2. 在日汉翻译中,时间表达式内部一般无需调序,
基于词典和翻译规则的方法表现突出。
工作总结
• 构建日语时间表达式知识库
• 统计与规则相结合的方法,提高日语时间表达式
识别效果
• 日汉双语翻译词典及翻译规则
未来工作
• 将在更多的日语数据集和领域上做实验
• 尝试更多有效的特征
• 规则与统计融合策略上优化空间很大
谢谢
Q&A