陈文强实习工作报告

Download Report

Transcript 陈文强实习工作报告

实习报告
陈文强
社区技术部
RD Intern
2013-08-13
目录
百科词条目录归一化
百科词条时效性内容判定
百科词条重复内容判定
百科词条主观性内容判定
百科词条目录归一化
背景
1、词条目录过分口语化,命名不规范
2、词条目录层次关系不合理,逻辑混乱
特点
大部分目录与分类知识体系下的标准目
录名称具有映射关系
百科词条目录归一化
百科词条目录归一化
目的
帮助解决百科词条中目录名称不规范、目录
逻辑混乱、层级关系不合理等问题,帮助提高百
科可读性及全面性
策略概述
与分类知识体系下标准目录名称具有映射关
系,通过挖掘这种关联关系,识别并修改百科分
类下与标准目录映射的其它目录表述,有效提升
百科整体质量。
百科词条目录归一化
策略流程
百科分
类内容
数据解析与
分配
目录相似度
计算
目录内容相
似度计算
相似度排名
并择优
目录映射结
果
结束
百科词条目录归一化
策略1-目录间相似度计算
采用LCS算法来计算用户目录与标准目
录之间的相似度,相似度越高,说明越应该
关联
策略2-目录下内容相似度计算
采用TF-IDF算法,计算用户目录与标准
标注目录下内容的相似度,内容的相似度越
高,说明就越应该关联
百科词条目录归一化
结果
分类
电视剧
电影
动物
植物
人体疾病
影视演员
保准确算法 扩大召回算
准确率
法准确率
98.7%
92.2%
98.5%
92.3%
99.3%
92.5%
98.7%
95.2%
97.8%
93.8%
97.5%
94.6%
算法召回率
77%
67%
68%
66%
60%
56%
升级
增加标注目录的量,召回低频目录,用
wordsim计算目录间相似度等
百科词条时效性内容判定
背景
百科词条内容含有大量如今年,去年等不能表示
明确时间信息的时效性词语,影响用户的阅读质量
特点
大部分时效性的百科词条语句都含有比较明显的
关键词语,如今年,从现在开始,X月X日等。本次
主要是针对特殊关键词和X月X日时间这两种类型。
百科词条时效性内容判定
目的
删除时效性词语,减少时效性语句,使得百科的
内容更加规整权威,提高阅读质量
策略概述
利用统计的方法,对时效性语句进行特征提
取,寻找强规则。
百科词条时效性内容判定
策略流程
开始
对输入字符
串预处理
时效词识别
时效表达式
识别
计算时效语
句占比
结束
百科词条时效性内容判定
关键字词识别
黑名单
• 去年,明年,今年,近日,近期等独立性词语
• 10以内的数字+关键词模式,模式前部分不包括具体的
黄名单 年,且后部分不包含最,包含年以来,年前等这样的词语
蓝名单
白名单
• 包含目前,近年,现在等,且后面不含“最”的词语
• 包含距,最近的,最近之等,为非时效性句子
百科词条时效性内容判定
X年X月类型的识别
含有X年X月这样的句子都会被判定为时效性句
子,除了以下四种情况:
1
2
3
4
• 表达式所在的语句中包含了具体的年份
• 所在的段落包含“每”等特殊的关键字或者段落
的前面包含了数字+年这样的类型
• 表达式所在的目录包含具体的年份
• 表达式所在的词条中包含数字+年这种特殊的类型
百科词条时效性内容判定
其他
如果识别出来的时效性词语被特殊的字符所
包含,则视为非时效性
百科词条时效性内容判定
结果
准确率为93%,召回率为52%
百科词条重复内容判定
背景
百科的词条内容中,往往有大量的重复内容,
这些重复内容包括句子级别的重复以及段落级别
的重复,这浪费了用户的查阅时间,降低了整个
词条的阅读质量
特点
单句重复,多句重复,段落级别重复
百科词条重复内容判定
目的
删除百科词条中的单句重复、多句重复以及
段落级重复,使百科词条内容变简洁,提升阅读
质量
策略概述
采用hash的方法,来对词条中的句子进行重复性
检查,然后再依次是多句重复性检查和段落级别
的重复性检查
百科词条重复内容判定
开始
策略流程
对输入字
符串分句
对分句单
句判重
过滤无关
重复
合并连续
重复分句
计算重复
率
结束
百科词条时效性内容判定
结果
准确率为94%,召回率为87%
百科词条主观性内容判定
背景
百科的词条内容中,往往有大量的主观内容,
如我认为,我说等。这样的主观性句子导致百科
词条质量下降。
特点
主观性的句子一般都含有特殊的关键字,如我
认为,他说等。
百科词条主观性内容判定
目的
删除百科词条中的这些主观性句子,使得百
科词条内容质量得到提升,词条内容更加专业。
挖掘主观内容的召回率和准确率在80%以上。
策略概述
主要采用统计的方法,挖掘能识别主观性词
语的强规则,依靠这些强规则来挖掘主观性内
容。
百科词条主观性内容判定
开始
策略流程
词条分句
主观内容提
取
情感值是否大于阈值
否
是
判定为主观句子
计算主观句子
比例
结束
非主观句,弃掉
百科词条主观性内容判定
词条分句
1
2
• 因为每一个句子的主观色彩可能不一
样,因此以句子为单位进行主观性分析
• 叹号与其他符号不同,具有强烈的感情
色彩,因此单独分析
百科词条主观性内容判定
主观内容的提取
主观内容与“意见指示性动词”、“程度副
词”、“情感词”、“人物代词”有很大关系,
但是它们影响句子是否为主观内容的程序不同,
即权重不同,其中“情感词”、“人物代词”的
权重较大,而“意见指示性动词”、“程度副
词”的权重较小。
利用这些词库匹配百科词条中的每个句子,
当求出句子的主观性大于某一阈值时,将判定这
个句子为主观句
。
百科词条主观性内容判定
情感词的准备
1、NLP积累了一部分的情感词,选用这一部分情
感词为基本词库
2、对原始预料进行标注,选取高频的形容词、代
词和情感副词来来作为补充
百科词条主观性内容判定
结果
准确率为90%,召回率为77%