下载 - 郑州大学自然语言处理实验室

Download Report

Transcript 下载 - 郑州大学自然语言处理实验室

微博分词方法的比较与优化
娄焕庆1 黄劲松1 苏琪2
1 计算语言学教育部重点实验室(北京大学)
北京大学信息科学技术学院计算语言学研究所
2 北京大学外国语学院
文章结构

微博与“微词汇”

现有分词工具对微博语料分词效果的对比分析

以“微词汇”为中心的基于CRF的分词方法
微博与“微词汇”

微博的性质
– 微:短小精悍,有长度限制
– 博:博客性质,有社交属性

微博的特点
– 口语化
口语词
 网络流行词

– 半结构化
@用户名
 #话题#

– 篇章化

类似普通网页
微博与“微词汇”
现有分词工具对微博语料分词效果的对比分析
分词工具
特点
ICTCLAS
采用了层叠隐马尔可夫模型(Hierarchical Hidden Markov
Model)和N最短路径算法,将汉语词法分析的所有环节
统一到一个完整的理论框架中。
IKAnalyzer
采用了特有的“正向迭代最细粒度切分算法”,支持简单
的分词歧义处理和数量词合并输出,并采用了多处理器分
析模式。
盘古分词
轻量级分词软件,采用字典和统计结合的分词算法,具有
多元分词功能和较好的未登录词识别功能。
SCWS
基于词频词典的机械中文分词引擎,根据预采集的词频词
典,并辅以一定的专有名称(如,人名,地名,数字年代
等)规则识别来达到基本分词。
现有分词工具对微博语料分词效果的对比分析
语料类型 语料样例
口语化
工资未涨,房租先行。这下给我涨了30%。我了个去啊。明年
交房以后,就是卖血也得装好住进去,再也不受这份气了
篇章化
央行数据显示,2009年全国使用非现金支付工具办理支付业务
约214.3亿笔,金额716万亿元,同比分别增长16.9%和13.1%。
其中,银行卡业务197亿笔
半结构化 #暗黑3#暴雪大神延续跳票的传统@我爱大菠萝
现有分词工具对微博语料分词效果的对比分析
分词工具
Poral
Roral
Foral
Ppara
Rpara
Fpara
Pss
Rss
Fss
ICTCLAS
0.7375
0.7261
0.7318
0.8854
0.8641
0.8746
0.5021
0.4874
0.4946
IKAnalyzer 0.8663
0.8322
0.8489
0.8021
0.7881
0.7950
0.6366
0.6233
0.6299
盘古分词
0.8026
0.781
0.7917
0.9136
0.9023
0.9079
0.5712
0.5641
0.5676
SCWS
0.8427
0.8354
0.8390
0.932
0.9282
0.9301
0.6123
0.602
0.6071
现有分词工具对微博语料分词效果的对比分析

结论
– SCWS整体表现最好,IKAnalyzer次之
– 对于篇章化语料分词效果较好
– 对于口语化语料分词效果整体一般,开启智能分词后的IKAnalyzer表现最
好
– 对于结构化语料分词效果较差,没有进行专门的预处理

启发
– 分词工具需要减少对词典的依赖,提高消歧和新词识别的能力
– 结构化文本需要进行预处理,预先识别“微词汇”,作为指导
以“微词汇”为中心的基于CRF的分词方法

预处理
– 维护一个微词汇的词典
– 将作者、话题、用户名等微词汇直接识别出来并加入词典
– 以微词汇为中心建立特征语料库

CRF
– 使用CRF++工具包进行测试
– 采用6标记方式(S,B,M,M1,M2,E)
– 将一部分《人民日报》标注集用程序处理后,跟微词汇的特征语料混合,
作为训练语料。
– 对三种类别的测试语料分别进行分词,评估结果
以“微词汇”为中心的基于CRF的分词方法
语料类型
P
R
F
口语化
0.8901
0.8723
0.8811
篇章化
0.9155
0.9142
0.9148
半结构化
0.9112
0.9051
0.9081
• 半结构化语料的分词效果有明显提高
• 口语化语料的分词效果有一定提高
• 篇章化语料分词效果与其他分词工具相比并无优势
总结与展望

与传统普适分词工具相比,使用预处理+CRF的分词方法对于微
博语料的分词效果有一定的改善

限于精力,用来训练的微博标注语料规模较小,对微词汇特征的
反映效果不够明显,需要进一步推进微博语料库的建设

可以发掘微词汇之间的关联关系(如“大菠萝2”和“大菠萝
3”),使特征语料库具备层次结构

对于分词以外的关键词识别和摘要领域来说,有些带有链接的篇
章化微博是良好的研究素材。
谢
谢