文本信息结构化与可视化

Download Report

Transcript 文本信息结构化与可视化

文本信息结构化与可视化研究
赵铁军
哈尔滨工业大学计算机学院
语言技术研究中心
2004年7月12日·复旦大学
提纲
计算机理解自然语言的表现方式
结构化与图形化
分层次结构化的理解系统
文本信息结构化的若干研究
网页链接结构可视化
汉语动词次范畴化框架自动分析
跨语言结构转换—基于实例机器翻译
2
计算机理解自然语言的表现方式
人对自然语言的理解
行为反应
语言能力:问答/文摘/复述/翻译… …
显式或隐式地表达出语言的结构和意义:心理
学家的看法—人的理解过程是从词的序列中建
构起具有层次安排的命题
计算机对自然语言的理解
面向应用的NLP—上述2
对自然语言的多层次分析—上述3:自然语言
的结构化表示
3
计算机理解自然语言的表现方式
多层次的语言结构表示—语言理解系统
理解
摘句式文摘
语篇分析
部分结构分析
名实体识别
语义分析
单语处理
句法分析(功能)
词/词性序列
短语级分析
词性标注
词法分析/分词
分句
文本
句子序列
自然形态
语篇结构/命题网络
语义结构
……
句法及句法功能结构
短语结构
词性序列
一种语言
跨语言处理
另一种语言
标准化词序列
文本的结构化:面向不同应用
有不同的结构化形式
4
计算机理解自然语言的表现方式
自然语言的可视化或图形化:另外一种理
解方式
图像理解—自然语言化文本理解—图形化
故事理解动画
对语言信息处理结果的一些简单而实用的图形
化:词或短语识别结果的反显 / 句法结构树形
图 / 依存关系图 / 评分结果的直方图… …
强调视觉效果,增强技术可信性又增加趣味性
5
文本信息结构化的若干研究(1)
网页链接结构可视化
研究背景:挖掘特定专业领域(IT)网页信
息关联—结构的可视化,富士通研究开发
中心有限公司委托研究项目
研究意义:互联网获取相关信息数据库 / 相
关信息跟踪
6
网页链接结构可视化
网页实例:
2002秋季英特尔信息技术峰会主体演讲介绍
http://www.sina.com.cn 2002年10月29日 18:37 新浪科技
主体演讲:
10月31日星期四上午
A:开幕致词
演讲人: Jason Chen
职位:英特尔公司副总裁、英特尔公司亚太区总裁
…………
相关链接
2002秋季英特尔信息技术峰会技术讲座介绍(2002/10/29 18:24)
英特尔通过纳米技术扩展摩尔定律(2002/10/29 17:41)
英特尔将至强™处理器频率提升至2.80 GHZ(2002/10/29 17:36)
英特尔:计算和通信融合是企业竞争优势的关键(2002/10/29 17:29)
英特尔推出新技术和基础模块以解决存储难题(2002/10/29 17:27)
…………
7
网页链接结构可视化
可视化效果
8
网页链接结构可视化
 关键技术—信息抽取模板
例如:产品模板
– 产品名称
– 产品所属公司名称
– 产品所属类别
– 产品相关的事件(如:推出、投放)
– 事件发生地点
– 事件发生时间
……
其他如:财务模板/人物模板/技术模板… …
9
网页链接结构可视化
关键技术—特征词识别/二元关系确定
特征词表
名实体关系识别规则
类别权重
规则形式(从训练语料中自动获取)
if [PN]{verbin}[Com][Post]
then Pn-In:PN;
Cur-Com:Com;
Cur-Post:Post;
10
网页链接结构可视化
结果示例
中国联通董事长变更 杨贤足去职王建宙接任
Pn-In:王建宙
Cur-Com:中国联通
Cur-Post:董事长
Pn-out:杨贤足
Pre-Com:中国联通
Pre-Post:董事长
11
文本信息结构化的若干研究(2)
汉语动词次范畴化框架自动分析
 研究背景:国家自然科学基金项目(60373101)
 研究目标:建立汉语动词次范畴化词汇知识库,
服务于汉语文本信息自动处理技术的需要—文本
信息结构化的一个层次
 汉语动词次范畴化框架(SCF)形式化描写:五
元组=<V, TA, NA, PA, CL> 其中V谓语动词集合 /
TA论元类型集合(11种)/ NA相应谓语动词支配
论元个数 / PA相应论元在SCF中的相对位置 / CL
广义句法形态常量(“着了过”等6个)
12
汉语动词次范畴化框架自动分析
实现过程:获取→应用
获取过程
学习SCF预设集合:43000简单句(词典例句+
人民日报语料),1774动词→非完整句法分析
→生成原始SCF预设集合→统计过滤→获得
SCF预设集合并计算相应概率分布 / 结果138个
SCF框架
从大规模真实文本中自动获取汉语动词SCF:
6个月人民日报语料库,3558动词→句法分析
结果为输入→错误校正→模式提取→SCF生成
→假设检验
13
汉语动词次范畴化框架自动分析
大规模自动获取结果
检验方法
评价指标
零检验
BHT检验
ML0.001
检验
ML0.005
检验
ML0.008
检验
ML0.01
检验
Precision
37.43%
50%
39.2%
40.3%
58.2%
60.6%
Recall
85.9%
57.2%
85.9%
83.33%
54.5%
51.3%
F-measure
52.14
53.36
53.83
54.33
56.3
55.56
该结果可以和英语同类研究最好结果相比
英语53%~65% 本研究53%~56%
14
汉语动词次范畴化框架自动分析
成果:SCF知识库,动词总数=3502
SCF
数目
1
2
3
4
5
6
7
8
9
10
11
12
13
14
动词
个数
9
32
120
211
321
440
442
408
335
274
216
180
126
92
SCF
数目
15
16
17
18
19
20
21
22
23
24
25
26
28
30
动词
个数
84
55
40
30
20
23
12
8
8
9
3
1
2
1
15
汉语动词次范畴化框架自动分析
35
30
25
20
15
10
5
0
系列1
1
543 1085 1627 2169 2711 3253
16
汉语动词次范畴化框架自动分析
 应用:SCF分析过程 / 输入=句法分析器输出,输
出=句子SCF框架
 示例
• 我们/r 要/vz 坚持/vg 解放/vg 思想/ng AP[实事求是/i 的/usde ]BNP[思
想/ng 路线/ng ]。/
• 坚持: r vz vg vg ng AP BNP
• 坚持: NP v VP
• VO[花/vg BNP[BMP[二\百\/m 元/q ]人民币/ng ]]便/c 能/vz VO[欣赏/vg
BNT[这里/s 一/m 年/q ]]的/usde 双/m 休/vg 日/q NP[下午/t 的/usde
歌剧/ng ]表演/vg 。/
• 花: VO vg BNP c vz VO vg BNT usde m vg q NP vg
• 花: NP v NP VP
17
汉语动词次范畴化框架自动分析
应用检验(初步):提高汉语句法分析精
度,短语级精确率提高了5.36%,召回率提
高了7.1%,句子级精确率和召回率提高了
8.04%
今后工作改进:通过语义回退,取得自动
获取SCF的更高精确率
18
文本信息结构化的若干研究(3)
跨语言结构转换—基于实例机器翻译
研究背景:科技部政府间国际科技合作项
目(CI-2003-03),与爱尔兰都柏林城市
大学合作
研究目标:面向奥运会服务的汉英-英汉翻
译系统,重点领域—体育、餐饮、交通、
旅游
资源支持:国家863计划项目子课题(面向
奥运智能信息服务的平行语料加工),汉
英日三语句对数70万
19
跨语言结构转换—基于实例机器翻译
系统实现
Bilingual corpus
Sent_align
Word_align
Auto KA
Input
Examp Sel
Examp_extrac
Examp base
Trans module
Trans Sel
Surface Gen
Output
20
跨语言结构转换—基于实例机器翻译
 转换基础:大于词的结构对齐=汉英双语词汇对
齐+双语词汇扩展片断对齐
 扩展片断示例:原子—词汇对齐 / 平行扩展—
(ab-AB) (bc-BC) (bcd-BCD) (cd-CD) (de-DE) /
非平行扩展—(fghi-FGHI)
21
跨语言结构转换—基于实例机器翻译
 翻译过程:
 源语言片断匹配—实例选择
l
Segment  arg max  ([ ski 1 1...ski ]i )
0l n 1
k i -1  ki
i 0
 ([ sk
i
...
s
]
ki ) 
i 1 1
( Length([ ski1 1...ski ]i )) w
ki  ki 1  1
 An * (1 
)
i
Length([ ski1 1...ski ] )
 log( Fre([ ski1 1...ski ]i )  1)
 目标语言片断匹配—译文选择
T  arg max P(T ' | S ) * P( An | m, l ) * P(SIDT ' )
T'
22
跨语言结构转换—基于实例机器翻译
翻译结果评测—汉英翻译
NIST 2004 MT Evaluation (大规模语料训练)
BLEU4:0.1023(区分大小写)
NIST5:5.5672(区分大小写) / 5.8331(不区分
大小写)
采用面向质量的数据训练策略后,分数提高:
对齐质量=2*对齐词数/(汉语词数+英语词数)
NIST5:6.34(不区分大小写)
NIST5:6.5982(订正输出格式错误以后)
23
谢谢各位!
24