虚词用法规则库建设 - 郑州大学自然语言处理实验室
Download
Report
Transcript 虚词用法规则库建设 - 郑州大学自然语言处理实验室
CLSW2013会议报告
现代汉语虚词用法知识库(CFKB)
建设综述
张坤丽 昝红英 柴玉梅 韩英杰 赵丹
报告人:张坤丽
郑州大学信息工程学院
[email protected]
2013年5月12日
主要内容
CFKB构建基础及过程
现代汉语虚词用法知识库建设
虚词用法词典建设
虚词用法规则库建设
虚词用法标注语料库建设
虚词用法自动识别研究
现代汉语虚词用法知识库应用研究初探及应用前景
总结
2
主要内容
CFKB构建基础及过程
现代汉语虚词用法知识库建设
虚词用法词典建设
虚词用法规则库建设
虚词用法标注语料库建设
虚词用法自动识别研究
现代汉语虚词用法知识库应用研究初探及应用前景
总结
3
CFKB构建基础及过程
1
副词
方位词
连词
介词
助词
语气词
3
用法标注
语料库
用法词典
CFKB的
应用
2
用法
规则库
虚词用法
自动识别
CFKB
4
主要内容
CFKB构建基础及过程
现代汉语虚词用法知识库建设
虚词用法词典建设
虚词用法规则库建设
虚词用法标注语料库建设
虚词用法自动识别研究
现代汉语虚词用法知识库应用研究初探及应用前景
总结
5
主要内容
CFKB构建基础及过程
现代汉语虚词用法知识库建设
虚词用法词典建设
虚词用法规则库建设
虚词用法标注语料库建设
虚词用法自动识别研究
现代汉语虚词用法知识库应用研究初探及应用前景
总结
6
虚词用法词典建设(1)
框架设计
标识类:用法编码、词条、全拼、释义、例句等。
句法功能描述类。
范畴类:小类、文体等。
用法描述类:重叠、字段位移、单用、句首、左搭
配、左紧邻、右紧邻、右搭配、句末等属性。
标识类对六大类词都相同,句法描述类、范畴
类、用法描述类则针对不同的词性有不同的设
计。
POS_全拼[_tn] [_m] [x] [y] 的:u_de5_t2_1bc
都:d_dou1_2a
7
虚词用法词典建设(2)
内容填充依据
《现代汉语语法信息词典》
吕叔湘《现代汉语八百词》、《现代汉语词典》(
第5版)以及张斌《现代汉语虚词词典》
《人民日报》分词及词性标注语料
结合汉语虚词的实际用法规律,词典内容主要
依据面向自然语言处理的需求,分解、辨析各
用法描述,抽取可操作的用法特征进行填充。
8
虚词用法词典建设(3)
反馈修改
词语增删
如:
这样/rz 既/c 方便/v 广大/b 市民/n 参加/v 活动
/vn ,/wd 又/c 能/vu 更/d 好/a 地/ui 维持/v 秩序
/n ,/wd 确保/v 安全/an 。/wj (20000101-10-014006/m)
用法增删、合并
副词“也”,表示递进、选择、转折、假设、让步、条件、
因果等关系外,在语料中还发现了单纯的承接关系,如
也就是在那以后不久,我们从南宫进入国统区,向黄河前
进。
9
虚词用法词典建设(4)
词典规模及分布统计
用
法
词
1
2
3
4
5
6
7
21
12
8
9
10
词条
11-40 共计
用法
共计
条
副词
1214
179 84 38
4
3
2
1
164
方位词
副词2007
34 11 186
24 19
6
6
4
791
82 46
20
12
26 3 1 3
副词2009
66
介词
776
30 23 213
7
连词
156
50 55 24
30 1214
4
助词
副词2012
语气词
30
7
3 179
1
7
4
8
1566
2356
12
641 1946
52761152
94
49
21
11
31 3 1 2 23
4
5
7
0
2040
6
1411181
331
16
7
4
0
1
2
0
1 21
2 12
0 40 3 0 2
84
38
2
0
1
4
0
0
0
11
2
315
696
8 451566144 2356
58
169
词典中词语总数为2401,用法总数(即词典的记录总数)为4337。
10
主要内容
CFKB构建基础及过程
现代汉语虚词用法知识库建设
虚词用法词典建设
虚词用法规则库建设
虚词用法标注语料库建设
虚词用法自动识别研究
现代汉语虚词用法知识库应用研究初探及应用前景
总结
11
虚词用法规则库建设(1)
确定规则描述形式及规范
针对用法描述类属性:句首(F)、左搭配
(M)、左紧邻(L)、右紧邻(R)、右搭配
(N)、句末(E)六类属性,确定识别规则的
一般描述形式为:
@<ID> →[F] [M][ L][ R][ N][ E]
^F→<词1>|<词2>|…|a|v|n|…
^M→<词1>|<词2>|…|a|v|n|…
^L→<词1>|<词2>|…|a|v|n|…
^R→<词1>|<词2>|…|a|v|n|…
^N→<词1>|<词2>|…|a|v|n|…
^E→<词1>|<词2>|…|a|v|n|…
12
虚词用法规则库建设(2)
在规则中引入框架和语义场
有同词或同词性的语境,用“A”和“B”表示
$不
@<d_bu4_2a>→A~A ^A→a
//A表示前后同词,如:“干净不干净”
前后词有包含关系的,以“T”和“S”表示,用“%”作
@<d_bu4_2e>→~B~B
^B→f
//B表示同词性,如:“不上不下”
为特殊标记
$不
@<d_bu4_2a>→%S%~%T%
引入语义场
//如:“吃饭不吃?”中,词语“吃”(T)是“吃饭”(S)的子集
$十分
@<d_shi2fen1_1b>→R ^R→'xinli_v.txt'
//“十分”修饰心理动词,心理动词语义场在文件“xinli_v.txt”中
13
虚词用法规则库建设(3)
规则库构建
依据词典中用法描述,人工构建规则库。
反馈修改
看都没看
人工方式 依据校对语料及自动标注语料,分词错误
及无法识别虚词标注,修改规则内容及规则排序。
自动方式 以错误驱动的方式,建立转换模板,生
成候选规则,对候选规则采用目标函数进行评分,
分数最高的规则作为更新后的规则。对规则的不通
看都没怎么看
排序的自动标注正确率分析,自动确定最佳排序。
虚词用法规则库建设(4)
已完成的规则库的包含4337个用法共计4696条规
则:
副 词:2456条规则,用法2356个
方位词: 761条规则,用法641个
介 词: 383条规则,用法331个
连 词: 747条规则,用法696个
助 词: 165条规则,用法144个
语气词: 182条规则,用法169个
存在问题:用法规则的形式化描述
15
主要内容
CFKB构建基础及过程
现代汉语虚词用法知识库建设
虚词用法词典建设
虚词用法规则库建设
虚词用法标注语料库建设
虚词用法自动识别研究
现代汉语虚词用法知识库应用研究初探及应用前景
总结
16
和/c<c_he2_1>
虚词用法标注语料库建设(1)
对约有876万余词的分词与词性基本标注语料库
(1998年1月和2000年1-6月的《人民日报》语料
的/ud<u_de5_t2_1a>
)在基于规则的对虚词自动标注的基础上,进行
了人工校对,共完成约121万次虚词用法的标注
工作。
标注样例
存在问题
标注一致性
在/p<p_zai4_3a>
主要内容
CFKB构建基础及过程
现代汉语虚词用法知识库建设
虚词用法词典建设
虚词用法规则库建设
虚词用法标注语料库建设
虚词用法自动识别研究
现代汉语虚词用法知识库应用研究初探及应用前景
总结
18
虚词用法自动识别研究
基于规则的虚词用法自动识别
准确率
副词84.36%,介词71.71%
连词 83.68%,助词 40.71%
语气词78.85%,方位词88.14%
基于统计的虚词用法自动识别
规则与统计相结合的虚词用法自动识别
19
主要内容
CFKB构建基础及过程
现代汉语虚词用法知识库建设
虚词用法词典建设
虚词用法规则库建设
虚词用法标注语料库建设
虚词用法自动识别研究
现代汉语虚词用法知识库应用研究初探及应用前景
总结与展望
20
现代汉语虚词用法知识库应用研究初探及应用前景
知识库应用研究初探
利用虚词用法标注结果对依存句法分析结果修正
将连词用法识别的结果引入到连词短语结构分析中
对外汉语教学
应用前景
机器翻译
信息抽取
问答系统
……
21
主要内容
CFKB构建基础及过程
现代汉语虚词用法知识库建设
虚词用法词典建设
虚词用法规则库建设
虚词用法标注语料库建设
虚词用法自动识别研究
现代汉语虚词用法知识库应用研究初探及应用前景
总结
22
总结
现代汉语虚词用法知识库的构建
用法词典
规则库
语料库
用法自动识别
应用
项目资助
国家自然科学基金项目(60970083)
河南省科技创新人才杰出青年基金项目(
104100510026)
模式识别国家重点实验室开放课题基金
河南省教育厅科学技术研究重点项目(
12B520055)
国家高技术研究发展863计划(2012AA011101
)资助
欢迎批评指正!
25