虚词用法规则库建设 - 郑州大学自然语言处理实验室

Download Report

Transcript 虚词用法规则库建设 - 郑州大学自然语言处理实验室

CLSW2013会议报告
现代汉语虚词用法知识库(CFKB)
建设综述
张坤丽 昝红英 柴玉梅 韩英杰 赵丹
报告人:张坤丽
郑州大学信息工程学院
[email protected]
2013年5月12日
主要内容
 CFKB构建基础及过程
 现代汉语虚词用法知识库建设
 虚词用法词典建设
 虚词用法规则库建设
 虚词用法标注语料库建设
 虚词用法自动识别研究
 现代汉语虚词用法知识库应用研究初探及应用前景
 总结
2
主要内容
 CFKB构建基础及过程
 现代汉语虚词用法知识库建设
 虚词用法词典建设
 虚词用法规则库建设
 虚词用法标注语料库建设
 虚词用法自动识别研究
 现代汉语虚词用法知识库应用研究初探及应用前景
 总结
3
CFKB构建基础及过程
1
副词
方位词
连词
介词
助词
语气词
3
用法标注
语料库
用法词典
CFKB的
应用
2
用法
规则库
虚词用法
自动识别
CFKB
4
主要内容
 CFKB构建基础及过程
 现代汉语虚词用法知识库建设
 虚词用法词典建设
 虚词用法规则库建设
 虚词用法标注语料库建设
 虚词用法自动识别研究
 现代汉语虚词用法知识库应用研究初探及应用前景
 总结
5
主要内容
 CFKB构建基础及过程
 现代汉语虚词用法知识库建设
 虚词用法词典建设
 虚词用法规则库建设
 虚词用法标注语料库建设
 虚词用法自动识别研究
 现代汉语虚词用法知识库应用研究初探及应用前景
 总结
6
虚词用法词典建设(1)
 框架设计
 标识类:用法编码、词条、全拼、释义、例句等。
 句法功能描述类。
 范畴类:小类、文体等。
 用法描述类:重叠、字段位移、单用、句首、左搭
配、左紧邻、右紧邻、右搭配、句末等属性。
 标识类对六大类词都相同,句法描述类、范畴
类、用法描述类则针对不同的词性有不同的设
计。
POS_全拼[_tn] [_m] [x] [y] 的:u_de5_t2_1bc
都:d_dou1_2a
7
虚词用法词典建设(2)
 内容填充依据
 《现代汉语语法信息词典》
 吕叔湘《现代汉语八百词》、《现代汉语词典》(
第5版)以及张斌《现代汉语虚词词典》
 《人民日报》分词及词性标注语料
 结合汉语虚词的实际用法规律,词典内容主要
依据面向自然语言处理的需求,分解、辨析各
用法描述,抽取可操作的用法特征进行填充。
8
虚词用法词典建设(3)
 反馈修改
词语增删
如:
这样/rz 既/c 方便/v 广大/b 市民/n 参加/v 活动
/vn ,/wd 又/c 能/vu 更/d 好/a 地/ui 维持/v 秩序
/n ,/wd 确保/v 安全/an 。/wj (20000101-10-014006/m)
用法增删、合并
副词“也”,表示递进、选择、转折、假设、让步、条件、
因果等关系外,在语料中还发现了单纯的承接关系,如
也就是在那以后不久,我们从南宫进入国统区,向黄河前
进。
9
虚词用法词典建设(4)
 词典规模及分布统计
用
法
词
1
2
3
4
5
6
7
21
12
8
9
10
词条
11-40 共计
用法
共计
条
副词
1214
179 84 38
4
3
2
1
164
方位词
副词2007
34 11 186
24 19
6
6
4
791
82 46
20
12
26 3 1 3
副词2009
66
介词
776
30 23 213
7
连词
156
50 55 24
30 1214
4
助词
副词2012
语气词
30
7
3 179
1
7
4
8
1566
2356
12
641 1946
52761152
94
49
21
11
31 3 1 2 23
4
5
7
0
2040
6
1411181
331
16
7
4
0
1
2
0
1 21
2 12
0 40 3 0 2
84
38
2
0
1
4
0
0
0
11
2
315
696
8 451566144 2356
58
169
词典中词语总数为2401,用法总数(即词典的记录总数)为4337。
10
主要内容
 CFKB构建基础及过程
 现代汉语虚词用法知识库建设
 虚词用法词典建设
 虚词用法规则库建设
 虚词用法标注语料库建设
 虚词用法自动识别研究
 现代汉语虚词用法知识库应用研究初探及应用前景
 总结
11
虚词用法规则库建设(1)
确定规则描述形式及规范
 针对用法描述类属性:句首(F)、左搭配
(M)、左紧邻(L)、右紧邻(R)、右搭配
(N)、句末(E)六类属性,确定识别规则的
一般描述形式为:
@<ID> →[F] [M][ L][ R][ N][ E]
^F→<词1>|<词2>|…|a|v|n|…
^M→<词1>|<词2>|…|a|v|n|…
^L→<词1>|<词2>|…|a|v|n|…
^R→<词1>|<词2>|…|a|v|n|…
^N→<词1>|<词2>|…|a|v|n|…
^E→<词1>|<词2>|…|a|v|n|…
12
虚词用法规则库建设(2)
 在规则中引入框架和语义场
 有同词或同词性的语境,用“A”和“B”表示
$不
@<d_bu4_2a>→A~A ^A→a
//A表示前后同词,如:“干净不干净”
 前后词有包含关系的,以“T”和“S”表示,用“%”作
@<d_bu4_2e>→~B~B
^B→f
//B表示同词性,如:“不上不下”
为特殊标记
$不
@<d_bu4_2a>→%S%~%T%
 引入语义场
//如:“吃饭不吃?”中,词语“吃”(T)是“吃饭”(S)的子集
$十分
@<d_shi2fen1_1b>→R ^R→'xinli_v.txt'
//“十分”修饰心理动词,心理动词语义场在文件“xinli_v.txt”中
13
虚词用法规则库建设(3)
 规则库构建
依据词典中用法描述,人工构建规则库。
 反馈修改
看都没看
 人工方式 依据校对语料及自动标注语料,分词错误
及无法识别虚词标注,修改规则内容及规则排序。
 自动方式 以错误驱动的方式,建立转换模板,生
成候选规则,对候选规则采用目标函数进行评分,
分数最高的规则作为更新后的规则。对规则的不通
看都没怎么看
排序的自动标注正确率分析,自动确定最佳排序。
虚词用法规则库建设(4)
 已完成的规则库的包含4337个用法共计4696条规
则:
副 词:2456条规则,用法2356个
方位词: 761条规则,用法641个
介 词: 383条规则,用法331个
连 词: 747条规则,用法696个
助 词: 165条规则,用法144个
语气词: 182条规则,用法169个
 存在问题:用法规则的形式化描述
15
主要内容
 CFKB构建基础及过程
 现代汉语虚词用法知识库建设
 虚词用法词典建设
 虚词用法规则库建设
 虚词用法标注语料库建设
 虚词用法自动识别研究
 现代汉语虚词用法知识库应用研究初探及应用前景
 总结
16
和/c<c_he2_1>
虚词用法标注语料库建设(1)
 对约有876万余词的分词与词性基本标注语料库
(1998年1月和2000年1-6月的《人民日报》语料
的/ud<u_de5_t2_1a>
)在基于规则的对虚词自动标注的基础上,进行
了人工校对,共完成约121万次虚词用法的标注
工作。
 标注样例
 存在问题
 标注一致性
在/p<p_zai4_3a>
主要内容
 CFKB构建基础及过程
 现代汉语虚词用法知识库建设
 虚词用法词典建设
 虚词用法规则库建设
 虚词用法标注语料库建设
 虚词用法自动识别研究
 现代汉语虚词用法知识库应用研究初探及应用前景
 总结
18
虚词用法自动识别研究
 基于规则的虚词用法自动识别
准确率
副词84.36%,介词71.71%
连词 83.68%,助词 40.71%
语气词78.85%,方位词88.14%
 基于统计的虚词用法自动识别
 规则与统计相结合的虚词用法自动识别
19
主要内容
 CFKB构建基础及过程
 现代汉语虚词用法知识库建设
 虚词用法词典建设
 虚词用法规则库建设
 虚词用法标注语料库建设
 虚词用法自动识别研究
 现代汉语虚词用法知识库应用研究初探及应用前景
 总结与展望
20
现代汉语虚词用法知识库应用研究初探及应用前景
 知识库应用研究初探
 利用虚词用法标注结果对依存句法分析结果修正
 将连词用法识别的结果引入到连词短语结构分析中
 对外汉语教学
 应用前景
 机器翻译
 信息抽取
 问答系统
 ……
21
主要内容
 CFKB构建基础及过程
 现代汉语虚词用法知识库建设
 虚词用法词典建设
 虚词用法规则库建设
 虚词用法标注语料库建设
 虚词用法自动识别研究
 现代汉语虚词用法知识库应用研究初探及应用前景
 总结
22
总结
 现代汉语虚词用法知识库的构建
 用法词典
 规则库
 语料库
 用法自动识别
 应用
项目资助
 国家自然科学基金项目(60970083)
 河南省科技创新人才杰出青年基金项目(
104100510026)
 模式识别国家重点实验室开放课题基金
 河南省教育厅科学技术研究重点项目(
12B520055)
 国家高技术研究发展863计划(2012AA011101
)资助
欢迎批评指正!
25