搜索引擎介绍 - 三峡大学图书馆

Download Report

Transcript 搜索引擎介绍 - 三峡大学图书馆

搜索引擎介绍
网络信息资源分类
简单地可以分为两类:
一类是来自正式文献信息源的信息:质量
高、内容可靠,一般都有检索平台,花钱购
买才能很方便的使用。(如CNKI数据库)
一类是各类网站上的信息:包罗万象、良
莠不齐,一般通过搜索引擎进行检索。
注意:科学研究需要的文献资料,一般要
通过图书馆主页的各种数据库获取。
网络信息资源分类
如按照采取的网络传输协议不同可分为:
WWW信息资源
FTP信息资源(FTP://school.lib.ctgu.edu.cn)
TELNET信息资源 (远程医疗)
用户服务组信息资源
GOPHER信息资源
网络检索工具——搜索引擎
因特网上蕴藏着丰富的信息资源。它已经
成为全球传播科研、教育、商业和社会信
息的最主要渠道。我们怎么从着信息的海
洋中准确迅速地找到所需的信息?从20世
纪80年代起人们开发了各种网络信息检索
工具。1989年,万维网诞生了。
WWW上的资源成为因特网的主流,越来
越多的万维网搜索引擎成为检索网络信息
资源的工具。所以我们在这里介绍WWW上的
搜索引擎。
一、搜索引擎概述
本次课程内容
一、搜索引擎概述
1、常用搜索引擎介绍
2、搜索引擎的关键词语法规则
3、Google与百度的检索技巧
4、网络免费学术资源介绍
搜索引擎概述---概念
1、搜索引擎(Search Engine) :人们经常将网
络信息检索工具概称为搜索引擎.它以一定的策略
在Internet上搜集、发现信息,对信息进行提取、
组织和处理,并为用户提供检索服务,从而达到信
息导航的目的。搜索引擎也是一类网站,即因特网
上具有检索功能的网页。
它能够在万维网上主动搜索其他web站点中的
信息并对其自动进行索引,即记录下各个Web页面
的URL地址并进行有序排列.这些索引内容存放在
可供的查询的索引数据库中。
搜索引擎概述---类型
2、根据搜索引擎的信息搜集方法和服务提供方式
的不同来划分为以下三大类:
(1)全文搜索引擎(机器人搜索引擎)
(2)目录式搜索引擎
(3)元搜索引擎
本质区别:目录索引搜索引擎的资料数据库中,搜索保
存的是互联网上各网站的站名、网址和内容提要;全文
搜索引擎的资料库中,搜索保存的则是互联网上各网站
的每一个网页的全部内容,范围要大得多。
Google主页
百度主页
YAHOO搜索主页
搜索引擎的工作原理
在因特网中发现、搜集网页信息
对信息进行提取和组织、建立索引库
根据用户输入的查询条件,在索引库中快速检出文档,
进行相关度评价,将结果进行排序将查询结果返给用户
信息搜集
索引数据库
用户
1、全文搜索引擎介绍
全文搜索引擎
全文搜索引擎是名副其实的搜索引擎。它
们都是通过从互联网上提取各个网站的信
息(以网页文字为主)而建立的数据库中,
检索与用户查询条件匹配的相关记录,然
后按一定的排列顺序将结果返回给用户,
因此它们是真正的搜索引擎。
国外具代表性的有 Google等,国内著
名的有百度(Baidu)
全文搜索引擎提供的完整信息
全文搜索引擎工作原理
工作原理是由网络机器人软件ROBOT,每天
24小时不停地访问因特网上的网站,并根
据页面上的链接从一个网页跳到另一个网
页,提取网页,以及标题、关键词、超链
接、元数据乃至网页全文等各种信息。搜
索到的网页信息被存储在数据库中,由机
器自动标引形成索引,建立索引库。
1.1、Google搜索引擎介绍
Google搜索引擎介绍
Google是由2名斯坦福大学博士生
Larry Page 和Sergey Brin1998年创
立,是目前世界上最大、用户最多、
全球公认最佳的搜索引擎。
网址(http://www.google.com.hk/)或
(http://www.google.com)
Google搜索引擎介绍
Google 是由英文单词“googol”变化而来
表示 1 后边带有 100 个零的数字。
Google 使用这个词代表公司想征服网上无
穷无尽资料的雄心。
Google支持100多种语言,到2005年已
增长至80亿网页,其对网页进行整理,为
世界各地的用户提供便捷的网上信息查询。
Google概况
优点:信息量大,更新快,能给用户
最全面最广泛的搜索结果。
缺点:有很多无关信息出现,降低相
应的命中率,必须从结果中再筛选。
提供的查询结果重复链接较多。
2006年4月在中国更名“谷歌”
检索途径(网页、图片、视频、新闻、音乐等)
检索途径
检索入口
高级检索页面
检索功能
GOOGLE提供基本搜索和高级搜索两种搜索方式:
1、基本检索
就是直接在主页的检索框内输入检索词和短语提
问,自由检索,直接获取检索结果。
2、高级检索
搜索结果区中的四种匹配方式依此表示and、精确
短语检索、or、not。每个检索框只能输入检索词,
不能输入运算符。同时还可进行时间、语言、网
域等的限制。
基本检索语法规则(记住第1、4条)
(1)默认检索:输入多个检索词以空格分隔,默
认为AND匹配。最多可输入10个检索词。即不需使
用AND或“+”号,其会在关键词之间自动添加AND。
空格表示逻辑“与”。
(2)逻辑“或”检索:用大写OR连接多个检索词。
高级检索中仍然有相当OR逻辑关系的字段。
(3)逻辑“非”检索:检索词前加上减号“-”
(减号前必须留一空格),表示逻辑“非”,搜
索不包含该检索词的网页
基本检索语法规则
(4)短语检索:用半角的双引号括起词组或
短语,进行精确短语匹配。如:“Kidney
failure”.
(5)GOOGLE不区分英文字符大小写:“GoD”
和“god”搜索的结果是一样的。不支持“*”
搜索
(6)不支持“通配符”(*) 搜索: 也就是说,
Google 只搜索与输入的关键词完全一样的
字词
基本检索中的限定检索
(1)site:限定在某个特定的网域或站点中进
行检索。
命令格式:检索词 site:域名
例:三峡旅游 site:com,表示在商业网站
中搜索含“三峡旅游”的网页。
基本检索中的限定检索
(2)intitle:表示限定在网页标题中搜索.
命令格式:intitle:检索词
例:intitle: 王菲写真,表示在网页中
搜索包含“王菲写真”的网页.
基本检索中的限定检索
(3) Filetype:用来限定命中文件的类型。
命令格式: 关键词 Filetype:文件类型
例:文献检索 Filetype:PPT ,表示在网
页中搜索包含“文献检索”内容的PPT文件.
基本检索中的限定检索
(4)inurl:在网页的url内搜索指定的内容。
inurl后面的关键词则可以出现在网页的文
档中。URL中文叫统一资源定位器。
命令格式: inurl:限定的字符串检索词
例:inurl:MP3 宋祖英,表示宋祖英可以
出现在网页的任何位置,而MP3 则必须出
现在网页的URL中。
举例:搜索三峡旅游相关网页
用Site:限定查三峡大学毕业论文格式
如果不限定检索也可以查到,但是查准率低
方法: 检索词直接输入基本检索框
检索结果=138000条
搜索王菲的照片(intitle: 王菲写真)
搜索宋祖英的MP3音乐 (inurl:MP3 宋祖英)
在论坛上查教育技术博士点高校有哪些(教育技术博士点 inurl:bbs)
Google基本检索指令表
符
号
功能说明
举例
注意事项
“ ” 将整个引号中的
"Wuhan niversity" 引号最好用半
角
空格 表示逻辑与
OR 表示逻辑或
Wuhan University
Wuhan OR
OR是大写字母
niversity
Wuhan -University 操作符与后面
的关键字之间
不能有空格,与
前面的词之间
有空格
内容作为一个整
体
-
表示逻辑非
基本检索一般方法举例
例1:查找中国人寿司歌的歌曲名称
第一种检索方法
1、将中国人寿司歌作为检索词直
接输入基本检索框
结果:搜索引擎自动将中国人寿
司歌分隔成中国人和寿司两个检索
词进行查找.(2006年的检索结果)
第一种检索方法
没有在前10条中发现答案(2006年结果)
第二种检索方法
2、用户主动使用空格分隔,默认
为AND
中国人寿 司歌作为两个检索词用
空格隔开并输入。
检索结果如下:
主动使用空格的检索效果
结果在第三条就看到了(2006年结果)
结果在这里
第三种检索方法
3、用半角双引号括起词组或短语,进
行精确短语匹配
将其用半角双引号括起“中国人寿司
歌”,输入到检索框中。
检索结果一目了然(2006年结果)
2007年数据库更新完善后的检索情况
数据更新完善后的检索情况
2011年2月检索情况
高级检索
高级检索
搜索结果区中提供四种逻辑匹配方式
依此表示and、精确短语检索、or、not。
每个检索框只能输入检索词,不能输入运
算符。
同时还提供了语言、更新时间、检索词
位置、网域等限定,另外还可通过“类似
网页”搜索相关网站。
高级检索
将搜索范围限制在某个特定的网站中
排除某个特定网站的网页
将搜索限制于某种指定的语言
查找链接到某个指定网页的所有网页
查找与指定网页相关的网页
示例1:查找微软网站上关于windows2000的
安全课题资料。
高级检索
高级检索界面
security
Windows 2000
Microsoft.com
检索结果
高级检索中的含义解释
1、包含以下全部的字词:相当于词间“与”关系,
2、包含以下的完整字句:相当于“ ”字符串检
索,
3、包含以下任何一个字词:相当于词间“或”关
系
4、不包括以下字词:相当于词间“非”关系
高级检索举例
示例2:搜索”医学论文写作”方面的
网页及PPT课件
包含以下全部的字词
结果=1500,000条
包含以下的完整字句
结果=384,000条
不包括以下字词
结果=1440,000条
搜索”医学论文写作”方面的PPT课件
PDF
PPT
DOC
XLS
SWF
检索结果=620条
Google 的特殊功能
查找某文档类型网页:PDF、PPT、swf、DOC
PostScript (ps)等.
网页快照:单击“网页快照”即可.
定位检索功能:通过“手气不错”键实现.
类似网页:点击“类似网页”键实现.
Google 的特殊功能
1、查找某文档类型网页:Google已经可以支持13
种非HTML文件的搜索。除PDF、DOC、PPT、 xls文
档外(百度可以),Google现在还可以搜索、
Shockwave Flash (swf)、PostScript (ps)和其它
类型文档。如果您只想查找PDF或Flash文件,而不
要一般网页,只需搜索“关键词 filetype:pdf”
或“关键词 filetype:swf”就可以了。
举例(1)流氓兔 filetype:swf
(2)查lung cancer的PDF外文全文文献
lung cancer filetype:pdf
http://www.lifeng.name/document/misc/rabbit/rabbit-6action.swf
查找PDF文档
PDF全文
Google的特殊功能
2、网页快照 Google 在访问网站时,其会
将看过的网页复制一份网页快照,以备在
找不到原来的网页或原地址打开很慢时使
用。单击“网页快照”时,您将看到
Google 将该网页编入索引时的页面。而百
度的“网页快照”不全面。
作用:你可以根据这些快照来分析网页上
的内容,大致了解是否符合您的需求。
武汉大学网页快照
网页快
照
武汉大学网页快照
Google的特殊功能
3、定位检索功能 检索方法很简单,直接
将与检索提问词最相关的网站推荐给用户,
提高检索效率。通过“手气不错”功能键
实现。
举例(1)查找“北京大学”,可直接进入
北京大学主页。
定位检索功能
手气不错
北京大学主页
Google的特殊功能
4、类似网页通过点击“类似网页”或
在高级检索界面“区域”中输入所需
的网址,会得到类似的全部网页。
作用:了解这一类网站的状况及介绍,
帮助提高检索效率。
例:查看武汉大学类似网页
点击类似网页
类似网页
类似网页结果
GOOGLE结果显示技术
GOOGLE搜索结果排序的核心技术就是其独
创的网页级别PageRankTM专利技术,根据
网页被链接的次数来评定某一网页的重要
性,决定排名次序,使排名较为客观公正,
将最相关的结果最先呈现给用户,节约用户
时间。而百度等可用钱买排名,有时使结
果失去公正。
1.2、百度搜索引擎
百度搜索引擎简介
百度搜索是海外留学的学子们回国创办的。
1999年底成立于美国硅谷,2000年1月开始,
相继在北京、上海、深圳成立了百度网络
技术(北京)有限公司和办事处。搜索范
围涵盖了中国大陆、香港、台湾、澳门、
新加坡等华语地区以及北美、欧洲的部分
站点。目前已经拥有世界上最大的中文信
息库。百度目前主要提供中文(简 /繁体)
网页搜索服务。
百度主页
从更多进入
更多检索(词典、百科等)
百度帮助
专业文档搜索
很多有价值的资料,在互联网上并非是普通的网
页,而是以Word、PowerPoint、PDF等格式存在。
百度支持对Office文档(包括Word、Excel、
Powerpoint)、Adobe PDF文档、RTF文档进行了
全文搜索。 方法为:在“Filetype:”后跟以下文
件格式:DOC、XLS、PPT、PDF、RTF。例如,查找
张五常关于交易费用方面的经济学论文。“交易
费用 张五常 filetype:doc”,
您也可以通过 百度文档搜索界面
(http://file.baidu.com/) ,直接使用专业文
档搜索
百度文档搜索界面
入党申请书范文
检索结果
基本检索
基本检索规则
输入多个词语搜索(不同字词之间用一个
空格隔开,可以获得更精确的搜索结果)。
在 百 度 查 询 时 不 需 要 使 用 符 号 “ AND” 或
“+”,百度会在多个以空格隔开的词语之
间自动添加“+”。并把最相关的网页排在
前列。
高级搜索语法
1、intitle:把搜索范围限定在网页标题中
例如,找在网页标题中含有三峡大学的网
页,查询格式:
intitle:三峡大学
注意,intitle:和后面的关键词之间,不
要有空格。
高级搜索语法
2、site:把搜索范围限定在特定站点中.使
用的方式,是在查询内容的后面,加上
“site:站点域名”。
例如,天空网下载软件查询格式:
msn site:skycn.com
注意,“site:”后面跟的站点域名,不要
带“http://”;另外,site:和站点名之间,
不要带空格。
高级搜索语法
3、双引号----精确匹配
如果输入的查询词很长,百度在经过分析后,给
出的搜索结果中的查询词,可能是拆分的。如果
您对这种情况不满意,可以尝试让百度不拆分查
询词。给查询词加上双引号,就可以达到这种效
果。
例如,搜索 上海科技大学,如果不加双引号,搜
索结果被拆分,效果不是很好,但加上双引号后,
“上海科技大学”,获得的结果就全是符合要求
的了。
高级搜索语法
4、书名号----精确匹配
书名号是百度独有的一个特殊查询语法。加上书
名号的查询词,有两层特殊功能,一是书名号会
出现在搜索结果中;二是被书名号扩起来的内容,
不会被拆分。 书名号在某些情况下特别有效果.
例如,查名字很通俗和常用的那些电影或者小说。
比如,查电影“手机”,如果不加书名号,很多
情况下出来的是通讯工具——手机,而加上书名
号后,《手机》结果就都是关于电影方面的了.
高级搜索语法
5、减号语法---要求搜索结果中不含特定
查询词.
例如,搜 神雕侠侣,希望是关于武侠小
说方面的内容,却发现很多关于电视剧方
面的网页。那么就可以这样查询:神雕侠
侣 -电视剧。
注意,前一个关键词,和减号之间必须有
空格,减号和后一个关键词之间,有无空
格均可。
限定在标题中检索( intitle:)
限定在标题中检索( intitle:)
2、目录搜索引擎
目录索引类搜索引擎简介
目录索引虽然有搜索功能,但严格意义讲算不上
是真正的搜索引擎。仅仅是按目录分类的网站链
接列表而已。为便于检索,目录同时提供关键词
检索,但搜索保存的是互联网上各网站的站名、
网址和内容提要 。由于是人工编辑,其信息量相
对较小,更新速度较慢,查全率不高。目录索引
中最具代表性的莫过于久负盛名的 Yahoo(雅
虎)。国内的搜狐、新浪、网易搜索也都属于这
一类。
2006年以后Yahoo(雅虎)与GOOGLE形成伙伴关
系,成为混合型搜索引擎。即:有目录搜索引擎
功能,也有全文搜索引擎功能。
YAHOO搜索引擎(www.yahoo.com)
Yahoo是最著名的目录索引类搜索引擎。1994年斯
坦福大学的两位电子工程学博士生开始编制一个
自己感兴趣的 Internet上的站点目录,这就是最
原始的 Yahoo,1995年成立 Yahoo公司。在全球
共有24个网站,12种语言版本。雅虎中国网站
(www.yahoo.com.cn)于1999年9月正式开通,是雅虎在
全球的第20个网站。
可以通过两种方式在上面查找信息,一是通常
的关键词搜索,一是按分类目录逐层查找。
3、元搜索引擎
3、元搜索引擎
元搜索引擎不同于传统的独立的搜索引擎,其本
身没有搜索引擎的网页搜寻机制,也没有自己独
立的索引数据库,而只是定制统一的检索界面,
通过调用其他搜索引擎的检索功能来实现查询。
原理:接受查询请求,向多个搜索引擎递交,将
结果进行去除重复,重新排序等处理后,返回给
用户。
特点:没有自己的数据,返回的结果信息量更大、
更全,但不能充分使用所有搜索引擎的功能。
3、元搜索引擎
万纬搜索引擎是上海万纬信息技术有限公司开发
的一个中文元搜索引擎,集成了英文搜索引擎如
GOOGLE、YAHOO等和中文搜索引擎如天网、新浪、
搜狐、雅虎(中文)、中文GOOGLE、百度等。
在调用搜索引擎和检索结果的数量上都存在一定
的局限。
也先后出现一些向搜搜星搜索引擎、还有支
持中文搜索较好的比比猫元搜索引擎网站,但是
现在网站都打不开了。
4、 Internet 免费学术资源检索与利用
1、利用搜索引擎
1)google scholar:学术搜索是一项免
费服务,但其中的文摘是公开的,全文一
般需要付费。
2)google book search
2、科学专业搜索引擎:Scirus。
3、利用Open access资源
4、http://www.soyid.com/
google scholar(学术搜索)
Scirus介绍
Scirus(http://www.scirus.com) 是国际著
名的科学信息出版社 Elsevier Science于
2001年创办的科学专业搜索引擎,是目前
互联网上最全面、综合性最强的免费科技
文献搜索引擎。Scirus的本义是能预见未
来的人。Scirus评为2001年最好的专业搜
索引擎。
Scirus覆盖的学科
Scinus搜索引擎以科学资源为主要产品,选取涵
盖科学内容的网站和网页,如:大学网站、学会
网站、政府机构网站、研究机构网站、作者主页
等。
覆盖的学科范围:包括农业与生物学,天文学 ,
生物科学,化学与化工,计算机科学,地球与行
星科学 ,经济、金融与管理科学,工程、能源与
技术,环境科学 ,语言学 ,法学,生命科学,
材料科学 ,数学,医学,神经系统科学,药理
学 ,物理学,心理学,社会与行为科学等。
Scirus的优势
能过滤掉不包含科学信息的网站 :如果欲
检索多利(Dolly),Google查到的还有象人
名如: Dolly Parton(是美国乡村乐坛最
富创造力的女歌手)等,包含许多毫无科
学价值的信息 ,而Scirus查到的就是克隆
山羊(the cloned sheep)等科学文献信息
Open access资源
Open access资源(开放存取,OA),一种
新的重要学术交流模式,是国际学术界、
出版界、图书情报界为打破商业出版者对
学术信息的垄断和暴利经营,而采取的推
动科研成果通过因特网免费或低价利用的
运动。研究者不仅可以更快更廉价更多地
拥有学术信息,也可以通过OA发表自己的
见解,与世界各地的研究人员进行深入的
交流,促进学术上的共同进步。
搜索引擎不是万能的
有时候我们需要获取的资料在搜索引擎中是找不
到的。搜索引擎从抓取网页、解析、索引到提供
检索是有一定周期的,各搜索引擎的信息滞后周
期从一周到一月不等,所以找最新内容应该去看
网站新闻,而用搜索引擎是找不到最新内容的,
找到的只是一个星期或一个月以前的内容。另外,
搜索引擎对动态内容,如:论坛和数据库内容的
网页检索能力较弱,所以这类信息也不适合用搜
索引擎搜索,而是应该去相关的网站寻找
作业
1、刘亚洲将军谈基督教和佛教道教的文章
您看过吗?有时可以看看。请问您知道圣
经中“爱是恒久忍耐...”一段原文内容吗?
请在百度中检索,查到后仔细阅读,并将
“爱是恒久忍耐”一段原文内容的第一句
和最后一句写在作业中。
2、用搜索引擎查询与大学生求职相关的
Word文档一篇,将你使用的检索提问式及
查到的结果标题名写到作业中。
作业
3、通过图书馆书目检索系统查我馆是否有
纸本的“生命的重建”一书(写出作者名、
索书号、馆藏地址),再看看超星图书馆中
有电子版的吗?如果有,请今后抽时间看
看。
作业
4、用搜索引擎查找“三级网络在大学生心
理健康教育中的作用”相关内容的学术论
文全文两篇。如果找到将网页标题名写在
作业中。
5、利用搜索引擎搜索三峡大学网站内有关
毕业设计的有关消息,写出检索提问式和检
索结果数量。
作业
6、有同学准备报考北京大学的研究生,请帮忙使
用百度搜索以下问题:
(1)2011年北京大学传播学硕士研究生招生人数;
(2)导师刘德寰主要研究领域;
(3)刘德寰近十年发表的中文期刊论文有多少篇;
(4)如果去北京大学复试,乘K50宜昌-北京的火车,
到北京火车站后乘多少路公交车可以直接到北京
大学?
关于交作业
一种方式是:交电子文档,
交到:[email protected]
二种方式是:交纸本
直接将作业交给我。
注意:作业要写上姓名和学号!切记!
谢谢光临