2010 - 浙江大学宁波理工学院图书馆

Download Report

Transcript 2010 - 浙江大学宁波理工学院图书馆

基础知识:
网络信息检索
[email protected]
1
导言:网络社会
在第一次课中,我们从教育的未来视频中所了解到信息技
术和网络迅猛发展。在现在的网络信息环境下,网络
信息资源是我们学习、工作、生活中利用率最高的信
息资源之一。对网络信息资源和网络的利用是终身学
习的需要,也是个人信息素质中的重要内容。相对与
图书馆纸本文献信息资源和数字资源的检索利用,其
对人的影响更为深远。
今后的社会,网络是一个基本要素,它将对社会经济、科
技教育、国防乃至政治产生决定性的影响。
2
2010
目录
0 网络信息资源
 1 网络信息检索工具
 2 谷歌/百度搜索语法实例

3
2010
0 网络信息资源
0.1 概念
网络信息资源是指信息资源以电子数据的形式存
放在非印刷型的介质中,并通过网络通信手段,
在计算机等终端上再现的信息的总和。
4
2010
0.2 网络信息资源的类型
按信息内容的表现形式和内容划分可分为

全文型信息:它指直接在网上发行的电子期刊,网上报纸,印刷
型期刊的电子版,网络学院的各类教材,政府出版物,标准全文
等;

事实型信息:天气预报,节目预告,火车车次,飞机航班,城市
或景点介绍,工程实况、IP地址等;

数值型信息:主要是指各种统计数据、实验数据;

数据库类信息:如DIALOG,万方等,是传统数据库的网络化;

微内容(web2.0特征):如博客、播客,BBS,聊天,邮件讨
论组,网络新闻组等。

其它类型:投资行情和分析,图形图象,影视广告等。
5
2010
按所采用的网络传输协议可分为
 WWW网络资源:因特网信息资源的主流,它使用http协议,使
用简单,功能强大,能方便迅速的浏览和传递分布于网络各处的
文字、图象、声音和多媒体超文本信息。
 FTP信息资源:它使用ftp协议,该协议主要用语连网计算机之间
传输文件。FTP相当于在网络上两个主机之间复制文件。目前仍是
发布、传递软件和长文件的主要方法。
 TELNET信息资源:telnet是远程登陆协议。telnet信息资源包
括硬件资源和软件资源。许多机构都提供远程登陆的信息系统,
如图书馆的公共目录系统,信息服务机构的综合信息系统等。
 用户服务组资源:包括新闻组,电子邮件组等。这些电子通信组
形式所传递和交流的信息资源是网络上最自由、最具有开放性的
资源。news
6
2010
0.3 网络信息资源的特点




复杂性:网络信息资源具有大数量、多类型、多媒体、非规范、
跨时间、跨地域、跨行业、多语种等特点。
在很大程度上网络的增长和信息资源的动态快速增加是由用户驱
动的,但缺乏有效的统一管理机制,信息安全和信息质量的不均
衡性。
信息分布和构成缺乏结构和组织,信息源不仅分散无序,而且其
更跌和消亡也往往无法预测,因此增大了信息资源管理和利用的
难度。
信息发布具有很大的自由性和任意性,隐私型信息进入了公共信
息传播渠道;由于缺乏必要的过滤、质量控制和管理机制,不仅
学术信息、商业信息,政府信息、个人信息、不合适(反动、黄
色)的信息混为一体,质量良莠不齐。增加了信息识别和利用的
难度。
7
2010
续





正式出版物和非正式信息交流交织在一起,使传统的
人类信息交流链的格局被打破,各方在网络上既可以
是信息的生产者、发布者,也可以是传播者和使用者,
对学术交流环境和信息利用产生了深刻的影响。
网络营造了“地球村”,既极大地促进了人类信息资
源的共享,又带来了一些意想不到的问题,如文化冲
突、信息侵略、信息威慑等。
使用成本低
共享程度高
是信息资源的宝库……
8
2010
0.4 网络信息资源的评价与选择
相同内容的信息资源的载体形态或利用、获取的方式不同,可以根
据需要选择。
网络信息资源的评价与选择主要是针对信息源。

内容因素。内容是评价与选择的核心和重点,从中可以反映网络
信息资源的本质。评价网络信息资源的内容因素主要有:权威性、
完备性、可靠性、原创性、新颖性、稳定性等。

形式因素。形式指标反映了外部特征以及操作使用等方面,是为
提示内容服务的,主要包括:美观性、条理性、查检性、帮助性、
快捷性、低耗性等。

定量的评价:Google的pagerank;星数评价等级。
9
2010
权威性


在本学科领域具有一定的影响、具有较高的学术水平、具有较高
的知名度;Google网页级别评价作为重要的指标,非独特性资源
网页级别需3/10以上。
主要关注如下问题:所采集的网站(页)的主办者是否为有声誉
的大学、学会/协会、实验室?网站是否通过权威评价机构评价
过?所选的站点是否被多个internet站点链接?网站是由某公司、
机构还是某领域的著名的权威或专家赞助?信息提供者的教育背
景和职业背景及其研究方向?责任者有知名的出版物吗?信息是
否经过过滤?信息是否经同行评议过?资源是否由相关的权威推
荐?是否有与权威机构的页面的共同链接?出版社是否知名和有
声望?出版社是否是公认的出版界的权威?出版社是否是大学的
出版社?是否有任何原创作品?选择的资源与其它作品有相关性
吗?
10
2010
准确性
信息资源需严肃正规、准确无误、完整规范。
一方面是内容的准确性,另一方面是格式和链
接的准确性。对资源的导航需能正常访问。
 主要考虑所选网站(页)提供的信息是否准确?
是否提供了信息的来源和出处以备用户进一步
核查;网页引证的书目或提供的参考能否证实
信息的准确性?页面的句法和拼写是否准确?
有否排印错误?提供的信息是否完整规范?

11
2010
稳定性
信息资源需有较长的稳定期或有稳定运行的保
障机制。
 主要看所选网站(页)提供信息的时间、更新
频率、最近的修改日期,链接速度,断线率等。
是否能持续提供给用户使用?

12
2010
可获得性

信息资源揭示信息的层次中,至少一个能无障碍地获得。
主要要考虑的是题名信息还是文摘信息或全文信息? 是否有对
信息结论的阐述标准?是否给出了表明信息内容的关键词或主题
词?希望在该网页上找到何种信息?主题的涵盖面是否全?索引
或目次页是否隐含了综合性的内容?是否免费?是否注册?是否
国际流量?是否符合标准?是否有其它格式或镜像? 某种类型的
信息有使用期限制吗?访问资源的方式是否依赖用户使用的设备?
是否需要专门软件(如浏览器)?是否有方便的导航?是否容易
链接所需的信息?是否有清晰的链接标签?是否能分别打印页面
和文献的某一部分?是否能发送到电子邮箱?是否提供多种检索
方式?检索信息的效率如何?
13
2010
附:人肉搜索

基于大信息环境观念的信息搜索、挖掘、选择、
评价、分析、综合


请通过百度百科中的“人肉搜索引擎”词条了解人
肉搜索
http://baike.baidu.com/view/860941.htm
人肉搜索,其实是情报学中的信息分析和情报调研
过程,是信息检索技能、信息分析方法和情报调研
过程的集中应用。其最大的特点是应用web2.0的思
路,网聚人力,虚拟与现实结合。
14
2010
1 网络信息检索工具
当已经知道地址时直接通过地址访问。
 当不知道地址的时候,需要借助检索工具





1.1
1.2
1.3
1.4
搜索引擎
网络资源目录
信息门户
搜索软件
15
2010
1.1 搜索引擎
搜索引擎其实也就是一个数据库,内容以网页
信息资源为主,也包括文档、图片和多媒体。
 搜索引擎与文献数据库相比,其中一个重要的
不同是通过计算机自动完成信息资源的发现、
标引和入库。
 搜索引擎的搜索技术继承了传统文献信息检索
技术的精髓,在搜索引擎中很多检索技术依然
适用。
 搜索引擎的好坏评判除了索引的网页数量外,
其中重要的一个方面是搜索结果的输出(结果
的相关性)。

16
2010

搜索引擎只是一个索引数据库,一般没有自己
的信息资源,信息的可获得性与搜索引擎无关。
不过搜索引擎有时也会在数据库中存储某些信
息的内容。
17
2010
1.1.1 水平搜索引擎(综合搜索引擎)
水平搜索引擎索引几乎所有可能内容, 包括多
种类型、大量领域。在内容类型和领域方面表
现出综合性。
 水平搜索引擎强调信息的宽广、面对的是广泛
用户的信息需求。
 典型的水平搜索引擎有:



百度中文搜索引擎:http://www.baidu.com/
Google中文搜索引擎:
http://www.google.com.hk/
18
2010
大量搜索引擎请参见这里:
中文搜索引擎指南网[搜网]:
http://www.sowang.com/
 搜索引擎观察[专业、元、多媒体、购物]
http://searchenginewatch.com/links/
 著名搜索引擎简介:
http://www.se-express.com/aboutse.htm

19
2010
Google杀手:Cuil

http://www.cuil.com/
20
(索引量1270亿网页)
2010
Google杀手? WolframAlpha

http://www.wolframalpha.com/ ,将知识转化为可计算
21
2010
Google新的竞争者:必应

http://cn.bing.com/
22
2010
1.1.2 垂直搜索引擎

垂直搜索引擎:即专业或专用搜索引擎,它专门用来
检索某一主题范围或某一类型信息,追求专业性与服务
深度是它的特点。

垂直搜索引擎不但可保证此领域信息的收录齐全与更
新及时,而且检索深度和分类细化远远优于综合搜索引
擎。垂直搜索引擎的检出结果虽可能较综合搜索引擎
少,但 检出结果重复率低、相关性强 、查准率高,适
合于满足较具体的 、针对性强的检索要求 。目前已经
涉及到购物,旅游,汽车,工作,房产,交友等行业。
23
2010
垂直搜索引擎举例:1
找工作的搜索引擎:http://www.deepdo.com/
http://www.totojob.com/
google学术搜索:http://scholar.google.com/
google图书搜索:http://book.google.com/
Patent Search
比价购物搜索引擎:http://go.8848.com/
http://www.askyaya.com/
博客与RSS搜索引擎:http://www.oao.cn/ [中客]
http://so.blogchinese.com/ [博客中国人]
http://www.feedsearch.net/
http://www.8fang.net/ [八方 ]
人脉搜索引擎: http://www.linkist.com/ [交友,找工作, 商机]
https://www.linkedin.com/
http://www.digdig.com.cn/ [人物、软件]
论坛搜索引擎:http://www.teein.com/
24
2010
垂直搜索引擎举例:2
The Music Finder
Singingfish(只能搜寻声音和录像)
旅行TripAdvisor
计算机科学研究和文章
http://www.music-finder.net
http://www.singingfish.com
http://www.tripadvisor.com
http://www.researchindex.com
图像搜索引擎:http://cn.gograph.com/ [图像词典]
商业搜索引擎
Business
http://www.business.com
生意定向搜索引擎。
DailyStocks http://www.dailystocks.com
可以了解被查询公司存货的信息已经相关的新闻报导,研究, 引述和其
他数据。
FMLX
http://www.fmlx.com
英国定向的关于公司,存货数据,分析和研究的搜索引擎。
eBizSearch http://www.ebizsearch.org
关于电子商务的文章和报告。
25
2010
综合搜索引擎的专门化趋势




搜狗(Sogou) [人物、音乐、购物、图片、地图]
http://www.sogou.com/gengduo.htm
GOOGLE 学术搜索:
http://scholar.google.com/
GOOGLE 图书搜索
http://book.google.cn/
http://book.google.com/
AllTheWeb [能专门对图像、多媒体信息。]
http://www.alltheweb.com
26
2010
1.1.3 元搜索引擎

元搜索引擎(matesearch)又称集合型搜索引擎,将
多个单一搜索引擎集成在一起,提供统一的检索界面,将用
户的检索提问一次搜索多个搜索引擎,并将结果返回给用户。
有的直接按来源引擎排列搜索结果,如Dogpile,有的则按
自定的规则将结果重新排列组合。
优点:能同时搜索多个搜索引擎,能在一定程度上提高查询的
广度。
缺点:因为有时后并不能对一个搜索引擎全部查完,有时后也
会漏掉一些重要信息。
27
2010
中文元搜索引擎

早期的元搜索引擎
 metaFisher中文元搜索引擎 http://www.hsfz.net.cn/fish/做的较早,
核心功能较弱,没有现代主流搜索引擎的界面风格。
 万纬搜索 http://www.widewaysearch.com/ 功能上和第一个元搜索引
擎一样,核心功能很弱,制作一般
 多元搜索 http://web.soaso.com/做得较早,虽然号称整合的搜索引擎
最多,但实际使用效果很差,查询速度也慢,返回结果基本未作处理。

新近出现的元搜索引擎





http://www.seekle.cn/ 集合了Google,Baidu,Sogou,Yahoo四大中文搜索引擎
的结果。特色:有深入搜索提示
知识搜索 http://www.zhihere.com/search/主要用作学习工具,功能
上尽量保证全面实用
一家搜 http://www.ejear.com/对相似结果的处理有点特色
bbmao http://www.bbmao.com是国内唯一具有自动聚类功能的元搜
索引擎,技术和功能上都比较强
狠搜 http://www.hensou.com/可以定制源搜索引擎,同时提供商业信
息搜索,核心功能一般
28
2010
更多搜索引擎:
•主要搜索引擎与目录
•元抓取与元搜索引擎
•新闻搜索引擎
•点击付费搜索引擎
•购物搜索引擎
•多媒体搜索引擎
•搜索工具与应用
•儿童搜索引擎
•专门搜索引擎
•国家地区专门搜索引擎
29
2010
专门搜索引擎[Specialty Search Engines ]













Answers Searching
Computer Search Engines
Financial Search Engines
Government Search
Invisible Web
Legal Search Engines
Mailing Lists
Medical Search Engines
Newsgroup Search
Shopping Search
Travel Search Engines
WAP Search Engines
Other Specialty Services
30
2010
1.2 网络资源目录

由人工采集网上信息,然后按照一定分类标准,比如学科类型、
主题等,建立网站分类目录,并将筛选后的信息分门别类放
入各类目中供用户进行浏览。

优点:
1 .信息组织的专题性较强,满足族性检索要求;
2.使用简单,只要选择相关类目,依照页面之间的超链接指引
很快就能到达目的信息,适于检索不熟悉的领域或建议不熟
悉网络的用户使用.

缺点:
1.人工采集信息的收录范围小,更新慢;
2.受主观因素影响,类目设置不够科学,缺少规范
31
2010



搜索引擎目录[目录索引]:新浪目录http://dir.iask.com/
开放目录[ODP] http://dmoz.org/ 、http://odp.nit.net.cn/
中国艺术开放目录 http://www.aod.org.cn/
http://china.ndodo.com/
专题网址
如搜索引擎的专题网址:http://daohang.google.cn/?hl=zhCN&tab=wA
什么情况下使用网络资源指南?




当检索一个范围较广的题目,并希望了解与该题目相关的信息时。
当没有明确的信息需求,仅仅想在网络上“溜达”时。
仅仅想浏览某一方面的消息和动态信息时,并不严格限于某几个
检索词的。
当信息需求更专一时。
32
2010
1.3 信息门户

学科信息门户、行业信息门户、政府信息门户、商业
信息门户、公司信息门户




中国医药网 http://www.pharmnet.com.cn/ 提供几十种
医药行业领域的各类数据库。如关于药品标准,在其药典部分,
收录内容包括:中国药典2005版、中国药典2000版、中药
部颁、西药部颁、中药注射剂标准、部颁药材标准、新药转正
标准、藏药部颁。数据涉及标准源、质量指标、检验方法、生
产工艺、处方、制法、鉴别、功能主治等内容。
中国医药信息网:http://www.cpi.gov.cn/ 国家食品药品信
息管理中心主办,也提供大量的数据库和数据查询。
学科信息门户列表
如导航库
请用“学科导航库”在搜索引擎搜索
33
2010
一些疑问?
搜索引擎到底有什么搜索技术?
 搜索引擎技术都有哪些应用?
 是不是也有应用实例演示?
 ……


我们将进入本次课程下一个部分的学
习…………
34
2010
2 谷歌/百度搜索语法实例
2.1
 2.2
 2.3
 2.4

谷歌概述
一般搜索技术
高级搜索语法
混合使用搜索技术
35
2010
2.1 谷歌概述
http://www.google.cn/
 http://www.g.cn


谷歌动画:http://lib.nit.net.cn/google.swf
36
2010
2.2 谷歌一般搜索技术(一)
默认模糊搜索、默认拆分语句和过长的短语
如何精确搜索(短语搜索)
通配符*用法
点号匹配任意字符:.
布尔逻辑
①
②
③
④
⑤



⑥
⑦
⑧
⑨
与:空格、AND
或:OR、|
非:-(减号)
约束条件:+
同义词:~
数字范围:..
括号:()
37
2010
默认模糊搜索、默认拆分语句和过长的短语
38
2010
如何精确搜索(短语搜索)
39
2010
通配符*用法
40
2010
41
2010
42
2010
43
2010
44
2010
点号匹配任意字符(也可不用引号)
45
2010
布尔逻辑
46
2010
47
2010
逻辑非
48
2010
约束条件
49
2010
同义词(英文适用)
50
2010
数字范围
51
2010
52
2010
括号分组
53
2010
2.3 谷歌高级搜索语法(一)
①
②
③
④
intitle、allintitle:搜索范围限制在网页的标
题
intext,allintext:搜索范围限制在网页中的
正文中搜索
inurl、allinurl:搜索范围限制在URL
inanchor、allinanchor :搜索范围限制在
页面的链接锚点描述文本进行搜索。
54
2010
intitle:搜索范围限制在网页的标题
55
2010
intext:搜索范围限制在网页中的正文
56
2010
inurl:搜索范围限制在URL
57
2010
Inanchor:限制在页面的链接锚链描述文本

<a href="#A1">网页第一部分</a>
58
2010
2.3 谷歌高级搜索语法(二)
⑤
A.
B.
C.
D.
info:进入某URL更多信息的引导页面
cache:搜索谷歌缓存的页面
related:相关网页
link:搜索所有链接到某个特定 URL上的页面列表
site:搜索范围限制在某网站或域名中。
59
2010
cache
related
link
site
"lib.nit.net.cn"
60
2010
site:搜索范围限制在某网站或域名中。
61
2010
2.3 谷歌高级搜索语法(三)
⑥
⑦
⑧
filetype:根据文件后缀搜索特定文件类型
define:搜索定义
insubject :主题搜索
62
2010
filetype:根据文件后缀搜索特定文件类型
63
2010
define:搜索定义
64
2010
2.4 混合使用搜索技术(一)
缩小搜索范围最好的选择:
混合使用intitle、site【intitle:自动化
site:edu.cn】
 限定搜索特定类别的信息:
inurl限定【等爱的玫瑰 inurl:mp3】
 搜索网站内的文档(一网打尽!):
【 filetype:ppt site:lib.nit.net.cn】

65
2010
2.4 混合使用搜索技术(二)

什么情况下不混合使用




不混合使用有抵消的搜索
【知识管理 site:edu.cn -inurl:edu】
不要重复使用同一语法结构
【知识管理 site:cn site:com】,但是这样可以
【知识管理 (site:cn | site:com)】
在混合使用语法时,不要用别名
如allinurl、allintitle
不要使用过多的语法将搜索结果限制得特别狭窄,
采取逐步增加限制的方法,一般不要一步到位做很
多限制。
66
2010
小结





了解了谷歌和百度的基本情况
是选择什么样的搜索引擎,一般根据个人喜好,不过,
如果搜索学术信息和外文信息,你还是选择谷歌吧
(尽管它的web搜索业务撤出了大陆,但学术搜索等
服务还在)
我们掌握了谷歌网页搜索一般技术、高级语法的具体
应用
知识如何根据需要混合使用搜索语法。
谷歌高级搜索语法也可以通过“高级搜索”页面来实
现部分功能,不过,直接用高级搜索语法能更方便、
更灵活、更高效。
67
2010
小结
当利用信息检索的基本思想(扩检、缩检、主
题概念分析)和技术(逻辑组配、限定检索)
后,网络搜索将能解决复杂的问题,搜索已经
不是search,而是retrieve。
 我们也了解了谷歌的一些有趣的内容,希望你
也能去探索
 我们也展示了谷歌的很多应用,这些应用并不
是谷歌的全部,即使谷歌的全部应用也只是网
络信息环境中的很小一部分。沧海一粟的感觉
真的让个人感觉很渺小。你现在是否理解了
“网上冲浪”?

68
2010
一些疑问?
网络出了搜索一般网页和文件外,能不能搜索
论文、图书等文献信息资源?
 离开学校后,想看电子图书或查点文献资料,
网上有没有免费的?
 不是说“终身学习”吗,我要自学一些知识,
哪有教学信息资源,比如课件、讲义、视频等?
下次课“信息资源的开放获取 ”我们再来探讨
这方面的问题。

69
2010