《网络搜索与挖掘》/张华平/2011-9 - 自然语言处理与信息检索共享平台

Download Report

Transcript 《网络搜索与挖掘》/张华平/2011-9 - 自然语言处理与信息检索共享平台

网络搜索和挖掘关键技术
Web Search and Mining
张华平 副研究员 博士
Email: [email protected]
Website: http://www.nlpir.org/
@ICTCLAS张华平博士
网络搜索挖掘与安全实验室 (wSMS@BIT)
计算机科学与技术前沿讲座
2011-9-16
《网络搜索与挖掘》/张华平/2011-9
从玫凯琳任务开始...
Mission: 产业环境越来越差,有朋友准备放弃别
的生意,全力投资玫凯琳,大家都说不错,形象
好,国际大品牌;找到计算机专家的你,请问你如
何帮她进行投资决策?
 限定条件:你没有一个叫李刚的爹,也没有郭美
美干爹那样的神通,也没有世界杰出华商的手段
。一人一机一网尔!

《网络搜索与挖掘》/张华平/2011-9
背景资料
玫琳凯就以“丰富女性人生”为己任,致力于创
建一个“全球女性共享的事业”。
 倡导“信念第一、家庭第二、事业第三”的生活
优先次序。
 玫琳凯在销售她的化妆品的同时,也在销售她的
工作哲学和生活哲学。 玫琳凯更重要的贡献是以
她的企业文化激励了千千万万妇女,纷纷成为小
型企业经营者,她以不断的鼓励及物质报酬来提升
妇女的自尊和自信。
 玫凯琳女士不远万里,来到中国为了拯救万千中
国女士,让她们找到美丽和自信,同时收获一份
事业!

《网络搜索与挖掘》/张华平/2011-9
《网络搜索与挖掘》/张华平/2011-9
《网络搜索与挖掘》/张华平/2011-9
《网络搜索与挖掘》/张华平/2011-9
网络社会化,社会网络化...
《网络搜索与挖掘》/张华平/2011-9
社会网络化与网络社会化
《网络搜索与挖掘》/张华平/2011-9
社会网络化与网络社会化
《网络搜索与挖掘》/张华平/2011-9
社会网络化与网络社会化
《网络搜索与挖掘》/张华平/2011-9
社会网络化与网络社会化
《网络搜索与挖掘》/张华平/2011-9
社会网络化与网络社会化
《网络搜索与挖掘》/张华平/2011-9
引证权威信息-阳光中国
《网络搜索与挖掘》/张华平/2011-9
还有更多的内幕需要搜索挖掘...
《网络搜索与挖掘》/张华平/2011-9
卢美美
《网络搜索与挖掘》/张华平/2011-9
李双江之子打人
《网络搜索与挖掘》/张华平/2011-9
什么是网络搜索与挖掘
 在社会网络化与网络社会化的大背景下,
面向海量异构互联网交互信息,针对特定
的情报目标,以信息检索、自然语言处理
、网络科学三驾马车为主要手段,基于互
联网的群体智慧挖掘提炼出有价值情报的
过程。
 四步曲:目标分解,信息收集,分析去噪
,情报提炼。
 网络搜索与挖掘在政府舆情、军事信息战
、企业竞争情报、个人社交等方面具有广
泛的应用前景。
《网络搜索与挖掘》/张华平/2011-9
群体智慧
 三个臭皮匠,顶个诸葛亮;
 你可以在所有时间欺骗某些人,也可以在
某个时间欺骗所有人,不可能在所有时间
欺骗所有人;
 信息碎片化,导致去精英化;
 互联网海量的群体与信息,导致小概率事
件(百万分之一)发生的频率期望值可观
察可度量。而互联网搜索为海里捞针提供
了技术手段。
《网络搜索与挖掘》/张华平/2011-9
互联网频繁的小概率事件
《网络搜索与挖掘》/张华平/2011-9
网络搜索与挖掘的要件
 信息可达(Accessible):互联网真实记录
并可采集抽取到相关的信息(无论
Surface/Deep,无论真假,无论规模);
 群体规模(Amount):海量规模确保各类
UGC(用户产生的内容)能满足挖掘所需;
 目标可解(Analysible):挖掘目标本身具有
可解行,能够进一步分解具体落实;
 工具可行(Avaliable):检索工具与分析工
具具备可行的计算代价与分析效率;
《网络搜索与挖掘》/张华平/2011-9
Who’s talking


张华平,北理工网络搜索挖掘与安全实验室负责
人,副教授,研究生导师,研究方向:自然语言
处理、信息检索、信息安全。获得2011年钱伟长
中文信息处理科学技术奖一等奖,中科院院长奖
,中科院计算所所长特别奖,专著2部,专利3项
,国内外论文20余篇。
经历:



2000-2005年在中科院计算所硕博连读,获博士学位,
研制汉语分词系统ICTCLAS(目前用户数超过10万家
),博士期间参与新颖性监测研究,参加TREC 2004
Novelty Track在国际14家团队中,综合排名第一;
2006-2009年,创办中科计算技术转移中心网络智能事
业部(30余人),先后担任了863、242、中国证监会
舆情系统、工信部网络监管、中国移动云计算搜索等重
大项目。
2009年底至今,目前承担了科技部及安全部重大项目
。
《网络搜索与挖掘》/张华平/2011-9
《网络搜索与挖掘》/张华平/2011-9
网络搜索挖掘与安全实验室(wSMS@BIT)
中中中
中中中中中中中
wSMS应用
语 语 Web语 语 语 语 语 语 语
语语语语语语语语语语语
网络语
言计算
Web语 语 语 语 语
语语语语语语语
语语语语语
中中中中中中
中中中中中中中中
网络精
准搜索
网络智
能挖掘
语语/语语语语语
语语语语语语语语
语语语语语语
语语语语语语语语
语语语语语语语语
语语语语语语语
网络信
息安全
语语语语语语
语语语语语语
语语语语语语
中中中
中中中中中中中
中 中 中 中 Na vInfo
GPS POI中 中 中 中 中 中
中中中中
中中中中中中中
博客
新闻
微博客
NLPIR云计算平台:
TB级Web多维内容与
数据
邮件
《网络搜索与挖掘》/张华平/2011-9
论坛
即时
消息
中 中 *中 中
中中中中中中中中中
报告纲要
 网络精准搜索关键技术
 网络智能挖掘关键技术
 典型应用案例
《网络搜索与挖掘》/张华平/2011-9
信息检索技术的应用
舆情分析
推荐
搜索
IR技术
内容安全
情报处理
《网络搜索与挖掘》/张华平/2011-9
挖掘
Web Search Using IR
Web
Spider
Document
corpus
Query
String
IR
System
1. Page1
2. Page2
3. Page3
.
.
《网络搜索与挖掘》/张华平/2011-9
Ranked
Documents
最简单的搜索引擎
 搜索引擎结构
采集器
用
www
…
文档库
采集器
《网络搜索与挖掘》/张华平/2011-9
索
引
索引库
检
户
索
接
口
倒排索引
文档分析,编码
识别,词语切分,
去停用词等
文档库
预处理
文档倒排,生成Inverted Files
《网络搜索与挖掘》/张华平/2011-9
Invert
索引库
Ranking和信息检索

信息检索是一个查询Q和文档Dd相似度计算过程:
M (Q, Dd )  Q  Dd   wq ,t  wd , t   wq , t  wd , t
n
t 1

tQ
存在一个问题:当Q包含常用词t时,那些包含比较
多t的文档总是排在前面,其他的非常用词根本不
起作用,所以需要根据inverse document
frequency (IDF)计算Term的权重 wt:
wt 
《网络搜索与挖掘》/张华平/2011-9
1
ft
ft是包含term t的文档数
向量空间模型
向量空间模型(Vector Space Model,VSM)是康
奈尔大学 Salton等人上世纪70年代提出并倡导
,原型系统SMART*
 term独立性假设:term在文档中的出现是独立
、互不影响的。
 查询和文档都可转化成term及其权重组成的向
量表示,都可以看成空间中的点。向量之间通
过距离计算得到查询和每个文档的相似度。

《网络搜索与挖掘》/张华平/2011-9
文档-标引项矩阵(Doc-Term Matrix)
n篇文档,m个标引项构成的矩阵Am*n,每列可以看成
每篇文档的向量表示,同时,每行也可以可以看成标
引项的向量表示。
d1 d 2 ... d n
t1  a11 a12 ... a1n 


t2  a21 a22 ... a2 n 
Am*n 

... 


tm  am1 am 2 ... amn 
《网络搜索与挖掘》/张华平/2011-9
一个例子
查询q:(<2006,1>,<世界杯
,2>)
 文档d1:(<2006,1>,<世界杯
,3>,<德国,1>,<举行,1>)
 文档d2:(<2002,1>,<世界杯
,2>,<韩国,1>,<日本,1>,<举行
,1>)
d1 d 2 q

《网络搜索与挖掘》/张华平/2011-9
2002  0 1   0 
1

世界杯  3

德国 1
韩国  0

日本  0
举行 1
2006
0 
2

0
1

1
1 
1 
 
 2
 
0
0
 
0
0
 
一个例子(续)
 查询和文档进行向量的相似度计算:
 采用内积:
• 文档d1与q的内积:1*1+3*2=7
• 文档d2与q的内积:2*2=4
 夹角余弦:
• 文档d1与q的夹角余弦:
• 文档d2与q的夹角余弦:
《网络搜索与挖掘》/张华平/2011-9
7
 0.90
12  5
4
 0.63
58
我们的工作:JZSearch精准搜索引擎
 具有高扩展性和高通用性。可支持文本、
数字、日期、字符串等各种数据类型的高
效索引,支持丰富的查询语言和查询类型
,支持少数民族语言的搜索。目前已经应
用于中国邮政搜索引擎、通河北省标准搜
索引擎、富基融通(纳斯达克上市公司:
EFUT)商品搜索。
 同时,全文搜索中间件可以无缝地与现有
数据库系统融合,实现全文搜索与相关的
数据库管理应用系统。
《网络搜索与挖掘》/张华平/2011-9
JZSearch内部语法示例
* [NEAR] 尚福林 卖国贼 9
 [FIELD] * [FUZZY] 张华平 kevinzhang 张
博士
 [FIELD] price [RANG] 1.0 9.0 [FIELD]
name [AND] 牛奶 儿童
 [FIELD] name [PREF] 张
 [FIELD]
 姓名字段name必须以“张”作为前缀开头
 [FIELD]
id [PREC] 123
 字段id必须以“123”精准匹配,如“1234”
或者“0123”均不作为匹配结果;
《网络搜索与挖掘》/张华平/2011-9
我们的工作:JZSearch精准搜索引擎
《网络搜索与挖掘》/张华平/2011-9
我们的工作:JZSearch精准搜索引擎
《网络搜索与挖掘》/张华平/2011-9
我们的工作:JZSearch精准搜索引擎
《网络搜索与挖掘》/张华平/2011-9
报告纲要
 网络精准搜索关键技术
 网络智能挖掘关键技术
 相关应用
《网络搜索与挖掘》/张华平/2011-9
汉语分词

汉语的书面语是按句分开的,词与词之间没有明确
的分隔标记。

词是最小的能够独立活动的有意义的语言成分 。

中文信息处理只要涉及句法、语义(如检索、翻译
、文摘、校对等应用),就需要以词为基本单位。句
法分析、语句理解、自动文摘、自动分类和机器翻
译等,更是少不了词的详细信息 。
《网络搜索与挖掘》/张华平/2011-9
ICTCLAS汉语分词系统
《网络搜索与挖掘》/张华平/2011-9
ICTCLAS汉语分词系统
《网络搜索与挖掘》/张华平/2011-9
ICTCLAS2011分词系统示例
《网络搜索与挖掘》/张华平/2011-9
汉语分词系统
ICTCLAS主要功能包括中文分词、词性标注等功能。
国内和国际权威的公开评测第一;全球二十万客户的认可;
综合性能最优,ICTCLAS2011分词速度单机996KB/s,分词精度
98.45%。
全方位支持各种环境下的应用开发,支持Windows/Linux/ FreeBSD操
作系统,支持C/C++/C#/Java/VB等主流编程语言;
ICTCLAS 10年的开发经历,20万开源用户,2011年获得钱伟长中文
信息处理科学技术奖一等奖。
《网络搜索与挖掘》/张华平/2011-9
ICTCLAS2011汉语分词系统
《网络搜索与挖掘》/张华平/2011-9
新特征语言发现
 新特征语言:在自然语言中频繁出现、具
有特定语义、系统未收录的新词或者新的
短语。
 具有以下几个特性:
 语义上:表意完整、所指明确,在意义上有一
定的完整性和专指性。
 语用上:语用环境灵活,能够在多种语言环境
中出现。
 结构上:内部结构稳定,具有一定的凝固性。
 统计上:具有一定流通度,在真实语料中频繁
出现。
《网络搜索与挖掘》/张华平/2011-9
新特征语言的发现
《网络搜索与挖掘》/张华平/2011-9
新特征语言识别结果示例
《网络搜索与挖掘》/张华平/2011-9
基于关键词提取的微博个性分析
《网络搜索与挖掘》/张华平/2011-9
基于关键词提取的微博个性分析
《网络搜索与挖掘》/张华平/2011-9
文档关键词自动识别与标示
 文档关键词:用来最大表述文档特征的词
汇列表,信息量损失最小;
 文档关键词自动识别:自动识别3-7个词来
表述文档的主要特征;
 关键词大部分是未知的新语言特征词,也
包含已知的主题词;
《网络搜索与挖掘》/张华平/2011-9
文档关键词自动识别与标示
《网络搜索与挖掘》/张华平/2011-9
文档内容去重
文本内容去重能够对文本进行查重处理,同时能找
出所有的重复文件。能够快速准确地判断文件集合
或数据库中是否存在相同或相似内容的记录。
 内容去重的五个境界


URL去重
 文本精确去重
 网页去重
 文本近似去重
 文本自动转载识别
《网络搜索与挖掘》/张华平/2011-9
文档内容去重
《网络搜索与挖掘》/张华平/2011-9
文档聚类

文本聚类是基于相似性算法的自动聚类技术,自
动对大量无类别的文档进行归类,把内容相近的
文档归为一类,并自动为该类生成标题和主题词
。适用于自动生成热点舆论专题、重大新闻事件
追踪、情报的可视化分析等诸多应用。
《网络搜索与挖掘》/张华平/2011-9
文档聚类
《网络搜索与挖掘》/张华平/2011-9
文本聚类结果示例
《网络搜索与挖掘》/张华平/2011-9
文本分类与信息过滤
 文本分类能够根据文献内容进行类别的划
分,可以用于新闻分类、简历分类、邮件
分类、办公文档分类、区域分类等诸多应
用。
 文本过滤功能能够从大量文本中快速识别
和过滤出符合特殊要求的信息,可应用于
品牌报道监测、垃圾信息屏蔽、敏感信息
审查等领域。
 机器学习训练的文本分类方法
《网络搜索与挖掘》/张华平/2011-9
文本分类与信息过滤
《网络搜索与挖掘》/张华平/2011-9
信息过滤示例

A片的识别-世博A片区内,人们欢声雷动;
 台湾国的过滤-台湾国语歌曲
《网络搜索与挖掘》/张华平/2011-9
报告纲要
 网络精准搜索关键技术
 网络智能挖掘关键技术
 典型应用案例
《网络搜索与挖掘》/张华平/2011-9
典型案例
中关村管委会舆情监测分析
北京市科委手机定位市民出行事件
商务部利比亚撤侨情报实时快报
网络搜索与挖
掘应用
庆祝日本地震真相调查
本拉登之死专报
GPS POI信息智能提取
《网络搜索与挖掘》/张华平/2011-9
中关村管委会舆情监测分析
 自动收集电视台、报纸、网络发布的中关
村相关信息,信息延迟控制在1小时内;
 按照中关村、十园、专业园、领导、上市
公司等维度对信息进行自动分类;
 自动分析热点问题,跟踪敏感事件;
 自动分析负面消息,并提出预警;
 自动生成各类报告
《网络搜索与挖掘》/张华平/2011-9
中关村管委会舆情监测分析
《网络搜索与挖掘》/张华平/2011-9
科委手机定位市民出行
事件背景:“北京将通过技术精准掌握手机用户的
出行、工作和居住情况,为规划交通布局、人口管
理服务。”北京市科委日前通过媒体透露的一则消
息,引起社会对个人隐私保护、个人财产权的关注
。
《网络搜索与挖掘》/张华平/2011-9
《网络搜索与挖掘》/张华平/2011-9
最快时间发现投票
《网络搜索与挖掘》/张华平/2011-9
商务部“利比亚撤侨”情报实时快报
《网络搜索与挖掘》/张华平/2011-9
伪话题“庆祝日本地震”真相挖掘

3月11日14点46分,日本宫城县东北部发生里氏9
级地震。已导致1598人死亡。引起了国际社会的
广泛关注,中国救援队是第一支赶赴日本重灾区
的国际救援队。
 然而,最近网络在爆炒中国人在"庆祝日本地震"
,依据是百度能够搜索到几百万条结果。
 这种行为是别有用心的阴谋,这些人巧妙地利用
了百度对搜索词切分和排序的不足,根据我们的
跟踪分析,99%以上的页面都是批判这个话题的
。发布此类言行的人居心叵测,华人的文明与善
心在汶川过程中已经彰显。
《网络搜索与挖掘》/张华平/2011-9
伪话题“庆祝日本地震”真相挖掘
《网络搜索与挖掘》/张华平/2011-9
拉登之死专报
《网络搜索与挖掘》/张华平/2011-9
四维图新GPS POI的自动抽取
《网络搜索与挖掘》/张华平/2011-9
神马都是浮云!
《网络搜索与挖掘》/张华平/2011-9
难成浮云的小结
 互联网对经济社会乃至政治起着革命性的影
响;网络社会化与社会网络化的趋势日益增
强;
 以Twitter(微博)、Facebook(人人网)等为代
表的Web3.0新型社会媒体,意味着UGC(用
户产生内容)的传媒革命真正到来;孕育着巨
大的科技和商业的机会。
 在社会网络大背景下,自然语言处理、信息
检索与网络科学三驾马车具有不可限量的科
研与应用价值,今天的你把握时机,或将成
就明日之马云,中国之马克·扎克伯格。
《网络搜索与挖掘》/张华平/2011-9
Thank you
Contact
Email: [email protected]
Welcome to visit our homepage
http://www.nlpir.org
@ICTCLAS张华平博士
《网络搜索与挖掘》/张华平/2011-9