Transcript 2013

第四讲:
网络信息检索工具与技术
[email protected]
导言:网络社会
在第一次课中,我们从教育的未来视频中所了解到信息技
术和网络迅猛发展。在现在的网络信息环境下,网络
信息资源是我们学习、工作、生活中利用率最高的信
息资源之一。对网络信息资源和网络的利用是终身学
习的需要,也是个人信息素质中的重要内容。相对与
图书馆纸本文献信息资源和数字资源的检索利用,其
对人的影响更为深远。
今后的社会,网络是一个基本要素,它将对社会经济、科
技教育、国防乃至政治产生决定性的影响。
2013

请阅读《信息检索》网络教材

第2章 网络信息检索
2013
目录
1.
2.
网络信息检索工具
百度/谷歌搜索技术
2013
1 网络信息检索工具
当已经知道地址时直接通过地址访问。
 当不知道地址的时候,需要借助检索工具





1.1
1.2
1.3
1.4
搜索引擎
网络资源目录
信息门户
搜索软件
2013
1.1 搜索引擎
搜索引擎其实也就是一个数据库,内容以网页
信息资源为主,也包括文档、图片和多媒体。
 搜索引擎与文献数据库相比,其中一个重要的
不同是通过计算机自动完成信息资源的发现、
标引和入库。
 搜索引擎的搜索技术继承了传统文献信息检索
技术的精髓,在搜索引擎中很多检索技术依然
适用。
 搜索引擎的好坏评判除了索引的网页数量外,
其中重要的一个方面是搜索结果的输出(结果
的相关性)。

2013

搜索引擎只是一个索引数据库,一般没有自己
的信息资源,信息的可获得性与搜索引擎无关。
不过搜索引擎也会在数据库中存储某些信息的
内容。
2013
1.1.1 水平搜索引擎(综合搜索引擎)
水平搜索引擎索引几乎所有可能内容, 包括多
种类型、大量领域。在内容类型和领域方面表
现出综合性。
 水平搜索引擎强调信息的宽广、面对的是广泛
用户的信息需求。
 典型的水平搜索引擎有:



百度中文搜索引擎:http://www.baidu.com/
Google中文搜索引擎:
http://www.google.com.hk/
2013
大量搜索引擎请参见这里:
中文搜索引擎指南网[搜网]:
http://www.sowang.com/
 搜索引擎观察[专业、元、多媒体、购物]
http://searchenginewatch.com/links/
 著名搜索引擎简介:
http://www.se-express.com/aboutse.htm

2013
Google杀手? WolframAlpha

http://www.wolframalpha.com/ ,将知识转化为可计算
10
2013
Google新的竞争者:必应

http://cn.bing.com/
11
2013
1.1.2 垂直搜索引擎

垂直搜索引擎:即专业或专用搜索引擎,它专门用来
检索某一主题范围或某一类型信息,追求专业性与服务
深度是它的特点。

垂直搜索引擎不但可保证此领域信息的收录齐全与更
新及时,而且检索深度和分类细化远远优于综合搜索引
擎。垂直搜索引擎的检出结果虽可能较综合搜索引擎
少,但 检出结果重复率低、相关性强 、查准率高,适
合于满足较具体的 、针对性强的检索要求 。目前已经
涉及到购物,旅游,汽车,工作,房产,交友等行业。
2013
垂直搜索引擎举例:1
找工作的搜索引擎:http://www.deepdo.com/
http://www.totojob.com/
google学术搜索:http://scholar.google.com/
google图书搜索:http://book.google.com/
Patent Search
比价购物搜索引擎:http://go.8848.com/
http://www.askyaya.com/
博客与RSS搜索引擎:http://www.oao.cn/ [中客]
http://so.blogchinese.com/ [博客中国人]
http://www.feedsearch.net/
http://www.8fang.net/ [八方 ]
人脉搜索引擎: http://www.linkist.com/ [交友,找工作, 商机]
https://www.linkedin.com/
http://www.digdig.com.cn/ [人物、软件]
论坛搜索引擎:http://www.teein.com/
2013
垂直搜索引擎举例:2
The Music Finder http://www.music-finder.net
旅行TripAdvisor http://www.tripadvisor.com
图像搜索引擎:http://www.gograph.com [图像词典]
商业搜索引擎
Business
http://www.business.com
生意定向搜索引擎。
DailyStocks http://www.dailystocks.com
可以了解被查询公司存货的信息已经相关的新闻报导,研究, 引述和其
他数据。
eBizSearch http://www.ebizsearch.org
关于电子商务的文章和报告。
2013
以图找图
 哼唱搜索(以声音找歌曲)
 根据声音搜索文字


360搜索: http://www.so.com/
2013
综合搜索引擎的专门化趋势




搜狗(Sogou) [人物、音乐、购物、图片、地图]
http://www.sogou.com/docs/more.htm
GOOGLE 学术搜索:
http://scholar.google.com/
GOOGLE 图书搜索
http://book.google.cn/
http://book.google.com/
AllTheWeb [能专门对图像、多媒体信息。]
http://www.alltheweb.com
2013
1.1.3 元搜索引擎

元搜索引擎(matesearch)又称集合型搜索引擎,将
多个单一搜索引擎集成在一起,提供统一的检索界面,将用
户的检索提问一次搜索多个搜索引擎,并将结果返回给用户。
有的直接按来源引擎排列搜索结果(界面整合),有的则按
自定的规则将结果重新排列组合(内容整合)。
优点:能同时搜索多个搜索引擎,能在一定程度上提高查询的
广度。
缺点:因为有时后并不能对一个搜索引擎全部查完,有时后也
会漏掉一些重要信息。
2013
中文元搜索引擎

末日黄花


消亡的很快、用的人极少。
基于内容整合

觅搜 (MetaSoo) http://www.metasoo.com


搜鸿 http://www.sohong.cn


速度很快,可给搜索引擎权重。使用了Ajax技术的中文元搜索引擎,可搜
索谷歌、百度、雅虎一搜、搜狗、有道等。
速度很快,整合百度搜狗,结果仅有网站,不细化到网页。
万纬搜索 http://www.widewaysearch.com ,

速度极其慢,怀疑服务已经停止。注意高级功能的应用,选择不同的搜索引
擎(谷歌、百度、雅虎、搜狐、天网、新浪)

基于界面整合

搜魅网(someta) http://www.someta.cn/ :


速度比较,集合了百度、google、搜狗、雅虎多家主流搜索引擎的结果。
Jopee http://www.jopee.cn

速度快
2013
更多搜索引擎:
•主要搜索引擎与目录
•元抓取与元搜索引擎
•新闻搜索引擎
•点击付费搜索引擎
•购物搜索引擎
•多媒体搜索引擎
•搜索工具与应用
•儿童搜索引擎
•专门搜索引擎
•国家地区专门搜索引擎
2013
专门搜索引擎[Specialty Search Engines ]













Answers Searching
Computer Search Engines
Financial Search Engines
Government Search
Invisible Web
Legal Search Engines
Mailing Lists
Medical Search Engines
Newsgroup Search
Shopping Search
Travel Search Engines
WAP Search Engines
Other Specialty Services
2013
1.2 网络资源目录

由人工采集网上信息,然后按照一定分类标准,比如学科类型、
主题等,建立网站分类目录,并将筛选后的信息分门别类放
入各类目中供用户进行浏览。

优点:
1 .信息组织的专题性较强,满足族性检索要求;
2.使用简单,只要选择相关类目,依照页面之间的超链接指引
很快就能到达目的信息,适于检索不熟悉的领域或建议不熟
悉网络的用户使用.

缺点:
1.人工采集信息的收录范围小,更新慢;
2.受主观因素影响,类目设置不够科学,缺少规范
2013



搜索引擎目录[目录索引]:新浪目录http://dir.iask.com/
开放目录[ODP] http://dmoz.org/ 、http://odp.nit.net.cn/
中国艺术开放目录 http://www.aod.org.cn/
http://china.ndodo.com/
专题网址
如搜索引擎的专题网址:http://daohang.google.cn/?hl=zhCN&tab=wA
什么情况下使用网络资源指南?




当检索一个范围较广的题目,并希望了解与该题目相关的信息时。
当没有明确的信息需求,仅仅想在网络上“溜达”时。
仅仅想浏览某一方面的消息和动态信息时,并不严格限于某几个
检索词的。
当信息需求更专一时。
2013
1.3 信息门户

学科信息门户、行业信息门户、政府信息门户、商业
信息门户、公司信息门户




中国医药网 http://www.pharmnet.com.cn/ 提供几十种
医药行业领域的各类数据库。如关于药品标准,在其药典部分,
收录内容包括:中国药典2005版、中国药典2000版、中药
部颁、西药部颁、中药注射剂标准、部颁药材标准、新药转正
标准、藏药部颁。数据涉及标准源、质量指标、检验方法、生
产工艺、处方、制法、鉴别、功能主治等内容。
中国医药信息网:http://www.cpi.gov.cn/ 国家食品药品
信息管理中心主办,也提供大量的数据库和数据查询。
学科信息门户列表
如导航库
请用“学科导航库”在搜索引擎搜索
2013
2 搜索引擎搜索技术:百度/谷歌实例
2013
2 搜索引擎搜索技术:百度/谷歌实例
中文主流搜索引擎:百度和谷歌的搜索语法基本类似
其它中外文搜索引擎基本遵循了谷歌的搜索语法。
2013
2.1 多个词前后顺序敏感
适用:百度、谷歌(谷歌网页搜索)
)

2013
2.2 默认模糊搜索、自动拆分短语

适用:百度、谷歌
2013
2.3 短语精确搜索[百度可用《》]

适用:谷歌、百度
2013
2.4 通配符
适用:谷歌
 仅和精确搜索
一起用。

2013
2.5 点号匹配任意符号

适用:谷歌
2013
2.6 布尔逻辑

适用:谷歌、百度

与:空格、AND

或:OR、|

非:-(减号)
2013
2.6 布尔逻辑
2013
2.7 约束条件

适用:谷歌、百度
2013
2.8 同义词
适用:谷歌
 仅英文词实用

2013
2.9 数字范围

适用:谷歌
2013
2.9 数字范围

适用:谷歌
2013
2.10 标题中搜索:intitle
 适用:谷歌、百度
2013
2.11 正文中搜索:intext
 适用:谷歌
2013
2.12 网址中搜索:inurl
 适用:谷歌、百度
2013
2.13 文档类型限定:filetype

实用:谷歌、百度


doc/pdf/ppt/xls/rtf
all
2013
2.14 定义搜索:define

适用:谷歌
2013
2.15 限定站点搜索:site

适用:谷歌、百度
2013
2.16 网站相关信息:info

适用:谷歌
cache
related
link
site
"lib.nit.net.cn"
2013
2.17 其它应用

计算:150磅in公斤

inanchor:限制在页面的链接锚链描述文本
2013
2.18 混合使用搜索技术(一)
缩小搜索范围最好的选择:
混合使用intitle、site【intitle:自动化
site:edu.cn】
 限定搜索特定类别的信息:
inurl限定【等爱的玫瑰 inurl:mp3】
 搜索网站内的文档(一网打尽!):
【 filetype:ppt site:lib.nit.net.cn】

2013
2.18 混合使用搜索技术(二)

什么情况下不混合使用




不混合使用有抵消的搜索
【知识管理 site:edu.cn -inurl:edu】
不要重复使用同一语法结构
【知识管理 site:cn site:com】,但是这样可以
【知识管理 (site:cn | site:com)】
在混合使用语法时,不要用别名
如allinurl、allintitle
不要使用过多的语法将搜索结果限制得特别狭窄,
采取逐步增加限制的方法,一般不要一步到位做很
多限制。
2013
4.18 混合使用搜索技术(三)

例子找叶黄素 的买家:
找买家:"lutein" "mg" ("*@gmail.com"
OR "*@hotmail.com") fax -china -Jobs
表示规格的词如:ml
表示需求的词如:”import” 、
“buyer”
表示价格的词:”prices”
也可在具体的B2B
平台中检索
表示询盘(inquire)的词:
"lutein" ("*@gmail.com" OR "*@hotmail.com")
inurl:trade
"lutein"
inurl:trade
2013
产品名 inrurl:特性词
求购 buyinglead
 进口商 importer
 批发商wholesaler
 分销商 distributer
 买方 buyer
 公司 company
 零售商 retailer
 供应商 supplier
 供应商 vendor
 价格 price
CNKI翻译助手

2013
小结:谷歌一般搜索技术
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
默认模糊搜索、默认拆分语句和过长的短语
如何精确搜索(短语搜索)
通配符*用法
点号匹配任意字符:.
布尔逻辑
①
与:空格、AND
②
或:OR、|
③
非:-(减号)
约束条件:+
同义词:~
数字范围:..
括号:()
单位换算:in
计算器
2013
小结:谷歌高级搜索语法
①
②
③
④
⑤
⑥
⑦
⑧
intitle、allintitle:搜索范围限制在网页的标题
intext,allintext:搜索范围限制在网页中的正文中搜索
inurl、allinurl:搜索范围限制在URL
inanchor、allinanchor :搜索范围限制在页面的链接锚点描述
文本进行搜索。
info:进入某URL更多信息的引导页面
A.
cache:搜索谷歌缓存的页面
B.
related:相关网页
C.
link:搜索所有链接到某个特定 URL上的页面列表
D.
site:搜索范围限制在某网站或域名中。
filetype:根据文件后缀搜索特定文件类型
define:搜索定义
insubject :主题搜索
2013