第四章搜索引擎简介

Download Report

Transcript 第四章搜索引擎简介

1
第四章 搜索引擎简介
本章要点
·搜索引擎的使用
通过操作与应用,掌握利用常用网络信息搜
索的方法,利用搜索引擎获取网络信息检索的策
略与技巧。掌握搜索引擎的目录类搜索、全文搜
索。搜索引擎的出现和应用,使得在网络中高效
地获取信息成为可能,其搜索技巧的娴熟运用可
以极大地提高信息获取的效率。
搜索引擎简介

4.1 搜索引擎的概念

4.2 搜索引擎的搜索原理和功能

4.3 搜索引擎查询信息的具体步骤

4.4 常用搜索引擎及其使用

4.5 搜索技巧
4.2 主要搜索引擎及其使用
4.1 搜索引擎的概念
搜索引擎(Search Engine)是用来对网
络信息资源管理和检索的一系列软件,是一种在
Internet网上查找信息的工具。它将各站点按主
题内容组织成等级结构。用户可以依照这个目录逐
层深入,直至找到所需信息。
4.2 主要搜索引擎及其使用
4.2 搜索引擎搜索原理与功能
搜索原理:
从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序,自动访问互联网,沿
着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网收
集回来。
建立索引数据库
由分析索引系统程序对收集回来的网页进行分析,提取相关网页信息(包网
页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间大
小、与其它网页的链接关系等),根据一定的相关度算法进行大量复杂计算
得到每一个网页针对页面内容中及超链中每一个关键词的相关度(或重性),
然后用这些相关信息建立网页索引数据库。
4.2 主要搜索引擎及其使用
4.2 搜索引擎搜索原理与功能
搜索原理:
在索引数据库中搜索排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合关
键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好,
所以只需按照现成的相关度数值排序,相关度越高,排名越靠前。 最后,由
页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给
用户。 搜索引擎的Spider一般要定期重新访问所有网页(各搜索引擎的周期
不同,可能是几天、几周或几月,也可能对不同重要性的网页有不同的更新
频率),更新网页索引数据库,以反映出网页内容的更新情况,增加新的网
页信息,去除死链接,并根据网页内容和链接关系的变化重新排序。这样,
网页的具体内容和变化情况就会反映到用户查询的结果中。
4.2 主要搜索引擎及其使用
4.2 搜索引擎搜索原理与功能
收集信息,建立索引数据库,自动跟踪信
息源变动,更新索引记录,维护数据库。
提供网络的导航与检索服务。
提供多种信息服务。
搜索功能
4.2 主要搜索引擎及其使用
4.3 用搜索引擎查询信息的具体步骤
Title
具体步骤
Add your text
制定信息搜
索策略:确定
提供相关信息
的优秀信息源
;检查信息源
所提供的信息
是否合适。
阅读索引擎提供
的搜索命令、搜索
方法及特色;输入
搜索条件 ;使用
AND、OR、NOT
三个布尔操作符来
组合搜索项 。
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用英文关键词搜索引擎
技术特点
(1) Google 并非只使用关键词或代理搜索
技术,它将自身建立在高级的PageRank™
(网页级别)技术基础之上,这项技术可确保
始终将最重要的搜索结果首先呈现给用户。
(2) 网页级别可对网页的重要性进行客观的
分析。网页级别利用巨大的网络链接结构对
网页进行组织整理。实质上,当从网页A 链
接到网页B 时,Google 就认为“网页A 投
了网页B 一票”。Google 还对投票的网页
进行分析。
(3) Google 复杂的自动搜索方法可以避免
任何人为感情因素。与其他搜索引擎不同,
Google 的结构设计即确保了它绝对诚实公
正,任何人都无法用钱换取较高的排名。
Google可以诚实、客观并且方便地帮助用户
在网上找到有价值的信息。
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用英文关键词搜索引擎
特色
可以支持HTML及13种非HTML文件的
搜索,如PDF、DOC、PPT、XLS、RTF、
SWF、PS等。
提供web资源和计算器;中英文字典;
天气查询;股票查询;邮编区号;手机号码;
电子邮件;Google工具栏等服务。
功能
 多样的范围限制功能
指定类型文件查找功能
网页快照功能
 “类似网页” 检索功能
“手气不错” 检索功能
检索词纠错功能
http://www.yiso.com/wanso/index.htm
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用英文关键词搜索引擎
网页搜索特色功能
房地产查询
基本搜索技术:
在线计算器
布尔逻辑检索(AND/OR/NOT)
单位换算
忽略无意义字词
中英文字典
支持通配符
拼音汉字转换
智能型搜索技术:
命令型搜索技术:
错别字改正
指定网域(site)
手气不错
搜索特定类型文件(filetype)
类似网页
按链接搜索(link)
手机号码、股票查询
搜索的关键词包含在URL链接中(inurl/allurl)
邮政编码、电话区号查询
搜索的关键词在网页标题中(intitle/allintitle)
天气查询
查看字词或词组的定义(define)
地图查询
商店、餐馆等本地商户查询
近期影讯
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用英文关键词搜索引擎
Bing.com是一款微软公司
推出的用以取代Live Search的
搜索引擎。Bing搜索的最大特点
在于,与传统搜索引擎只是单独
列出一个搜索列表不同,微软还
会对返回的结果加以分类。例如
,当用户搜索某位歌星的名字时
,搜索结果的主要部分会显示传
统的列表,左侧的导航栏则会显
示图片、歌曲、歌词、专辑和视
频等几个类别。当用户输入某一
产品名称时,侧边栏则会显示评
价、使用手册、价格和维修等类
别。而如果输入的是某一城市名
称,则会显示地图、当地商业指
南、旅游路线以及交通信息等类
别。 另外,侧边栏还会显示一组
相关的搜索关键词。
http://cn.bing.com
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用英文关键词搜索引擎
Lycos是搜索引擎中的元
老,是最早提供信息搜索
服务的网站之一,可从
Web、人物、产品、新
闻、讨论、黄页、多媒体
等多种途径检索。支持布
尔逻辑运算符(and、
or、not)、精确检索符
(双引号),也可在检索
词前加“+”表示该词一
定出现,检索词前加“-”
表示该词一定不出现。
http://www.lycos.com
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用英文关键词搜索引擎
提供网络信息检索服务
和网上交流、免费邮件、天
气预报、股票指数、体育信
息等服务。检索途径有网页
检索、主题目录检索、新闻
检索、图片检索、视频检索
五种,检索方式包括基本检
索和高级检索。基本检索可
以采用双引号来进行精确检
索,“+”表示其后的检索
词一定出现,“-”表示其后
的检索词不能出现。布尔逻
辑运算符(and、or、not)
只能在高级检索中使用。
http://www.excite.com
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用英文关键词搜索引擎
AltaVista提供关键词检
索和主题目录浏览检索两种方
式,主题目录依据Open
Directory的类目体系构建。
关键词检索的检索途径包括网
页、图片、音频/mp3、视频
和新闻,支持基本检索和高级
检索。 高级检索提供用户以日
期、语种、文件类型、布尔逻
辑和近似条件检索。区分字母
大小写。当以大写字母查询时,
默认为精确匹配,即查询结果
不包括小写的关键词;而以小
写字母查询时,则同时查找大
写和小写。基本及高级检索均
容许针对Title、URL或特定的
域名进行检索,容许以20种不
同的语言进行搜索。该搜索引
擎还提供英、汉、法、德、意、
葡萄牙、西班牙语等语种的双
向翻译。已被雅虎收购。
http://www.altavista.com
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用英文关键词搜索引擎
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用中文关键词搜索引擎
检索途径有网页、
mp3、新闻、地区、网站、
图片、百度词典等,提供基
本检索和高级检索两种检索
方式,支持布尔关系“或”
(用“|”表示)、“非”
(用“—”表示),可将检索
范围限制在指定的网站、标
题、URL和文档类型。此外,
高级检索可以定义要搜索网
页的时间、地区、语言、关
键词出现的位置以及关键词
之间的逻辑关系等。
http://www.baidu.com
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用中文关键词搜索引擎
网页搜索特色功能
股票、列车时刻表和飞机航班查询
高级搜索语法
百度快照
把搜索范围限定在标题中-intitle
相关搜索
把搜索范围限定在url链接中-inurl
拼音提示
错别字提示
英汉互译词典
把搜索范围限定在特定网站中-site
精确匹配-书名号、双引号
要求搜索结果中不含特定查询词
高级搜索和个性设置
天气查询
计算器和度量衡转换
货币换算
专业文档搜索
搜索框提示
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用中文关键词搜索引擎
天网提供的检索途径有网页、
文件、目录、主题四种。检索
WWW资源时,只需输入检索词
即可,检索词之间默认关系为逻辑
“与”,支持精确检索符(""),
不区分大小写。FTP资源检索时,
在主页输入框输入要查询的文件名,
可以包含“*”号(通配所有字
符)、“?”号(通配一个字符)、
空格(表示检索词之间是逻辑“与”
关系)。2004年北京大学网络实
验室推出一款教育网p2p资源分享
与下载软件--天网maze,是国
内许多大学学生钟爱的软件。目前
最新版本为天网maze2010版。
http://www.tianwang.com
4.4 常用搜索引擎及其使用
1、关键词型搜索引擎
常用中文关键词搜索引擎
http://www.tianwang.com
4.4 常用搜索引擎及其使用
2、目录型搜索引擎
常用英文目录型搜索引擎
网页快照、相关搜
索、双引号精确匹配、
布尔逻辑、限定站点检
索、网页英汉翻译、
title/link高级语法、
拼音提示、拼写纠错、
列车时刻、日历搜索、
ip查询、手机归属地查
询、股票查询、下拉提
示、。
http://www.yahoo.com
4.4 常用搜索引擎及其使用
2、目录型搜索引擎
常用英文目录型搜索引擎
ODP支持布尔
逻辑运算符(and、
or、not)、右截词
(通配符为*)、精
确检索(将检索词组
用双引号括起),可
以用“+”表示其后
的检索词一定出现,
“-”表示其后的词一
定不出现。
http://www.dmoz.org
4.4 常用搜索引擎及其使用
2、目录型搜索引擎
常用英文目录型搜索引擎
提供网页、主题目
录、新闻和域名四种检索
途径,除了主题目录浏览
检索外,还提供关键词检
索。关键词检索可以分为
基本检索和高级检索,支
持布尔逻辑运算符
(and、not,检索词间
的默认关系为and)、
精确检索(将检索词组用
双引号括起)。
http://www.galaxy.com
4.4 常用搜索引擎及其使用
2、目录型搜索引擎
常用中文目录型搜索引擎-搜狗
双引号精确查找
支持布尔逻辑
指定网域内搜索
收录查询
域名后缀
支持https
端口查询
海量数据支持
文档搜索
http://www.sogou.com
4.4 常用搜索引擎及其使用
2、目录型搜索引擎
常用中文目录型搜索引擎-搜狗
4.4 常用搜索引擎及其使用
2、目录型搜索引擎
常用中文目录型搜索引擎-搜狗
网页搜索特色功能
股票查询
智能分类
邮编查询
智能纠错
天气速查
拼音查询
IP地址查询
扩展查询
手机号码地区查询
网页快照
生字快认
快速搜索音乐
成语查询
快速搜索地图
楼盘查询
快速搜索购物
区号查询
快速搜索人物
软件查询
英文词典
游戏查询
便捷计算
热书荐读
4.4 常用搜索引擎及其使用
2、目录型搜索引擎
常用中文目录型搜索引擎-有道
网易自主研发的全新中文
搜索引擎。目前有道搜索已推出
的产品包括网页搜索、图片搜索、
购物搜索、音乐搜索、视频搜索、
博客搜索、地图搜索、海量词典、
桌面词典、工具栏和有道阅读、
有道热闻等。支持精确检索符
(双引号),也可在检索词前加
“-”表示该词一定不出现。用
带“inlink:”前缀的网站地址搜
索指向特定站点的网页。同时支
持site语法,其格式为:查询词
+空格+site:网址 在指定网址
内搜索。
http://www.163.com
http://www.youdao.com
4.4 常用搜索引擎及其使用
2、目录型搜索引擎
常用中文目录型搜索引擎-有道
搜索服务
常用生活搜索
网页搜索
天气预报
音乐
图片搜索
股票基金
视频
热闻搜索
邮政编码
电视预告
音乐搜索
身份证
地图搜索
博客搜索
万年历/老黄历
火车车次
海量词典
手机号码
航班班次
地图搜索
IP地址
酒店查询
视频搜索
度量转换
海量词典
购物搜索
计算器
汉语字典
影讯
百科词典
4.4 常用搜索引擎及其使用
2、目录型搜索引擎
常用中文目录型搜索引擎
新浪网搜索引擎
是面向全球华人的网
上资源查询系统。提
供网站、网页、新闻、
软件、游戏等查询服
务。网站收录资源丰
富,分类目录规范细
致,遵循中文用户习
惯。
http://search.sina.com
4.4 常用搜索引擎及其使用
3、集合型搜索引擎
常用英文集合型搜索引擎
HotBot曾是比较活跃的搜索引擎,数
据更新速度比其他引擎都快。以独特的
搜索界面著称。该引擎已被Lycos收购,
成为Terra Lycos Network的一部
分。HotBot由用户从Yahoo(默认)、
lygo.com、和MSN三个后台引擎当中
自行选择一个进行检索。
1)基本检索。选择一个搜索引擎,然
后在检索主页的检索文本框中输入检索
词(组),可以使用双引号来实现词组
精确检索,或者在检索词前加“+”,
表示该检索词一定出现,检索词前加
“-”,表示该检索词一定不出现。
2)高级检索。在高级检索页面的文本
框中输入相应内容,从语言、域名、地
区、是否阻止非法内容等方面限制检索
范围。用户可对检索结果的输出进行定
制。此外,HotBot还设计了桌面工具
栏,安装后,用户可在浏览器上直接输
入检索词进行检索。
http://www.hotbot.com
4.4 常用搜索引擎及其使用
3、集合型搜索引擎
常用英文集合型搜索引擎
MetaCrawler检
索界面简洁、直观,操
作简便,有基本检索和
高级检索两种方式。基
本检索无法构造复杂检
索式,不支持布尔逻辑
运算符、精确检索符
("")、通配符(*)
等。
http://www.metacrawler.com
4.4 常用搜索引擎及其使用
3、集合型搜索引擎
常用英文集合型搜索引擎
4.4 常用搜索引擎及其使用
3、集合型搜索引擎
常用英文集合型搜索引擎-Mamma
检索界面简洁友好,既
可同时调用全部后台搜索引
擎,也可自行控制选择,设
置使用偏好,设定检索时间、
每页可显示的记录数、网站
简介的长短等。Mamma
支持精确检索符(""),
在检索词前加“+”表示其
一定出现,在检索词前加
“-”表示其一定不出现。
http://www.mamma.com
4.4 常用搜索引擎及其使用
3、集合型搜索引擎
常用英文集合型搜索引擎-Dogpile
支持关键词检索
和主题目录浏览检索
关键词检索提供基本
检索和高级检索两种
检索方式,高级检索
可从检索词、语种、
日期、结果显示、域
名过滤、成人内容过
滤等方面对检索进行
限制。
http://www.dogpile.com
4.4 常用搜索引擎及其使用
3、集合型搜索引擎
常用中文集合型搜索引擎-万纬搜索
提供基本检索和高
级检索两种方式,支持
“精确查找”,但不支
持布尔逻辑等各种运算。
搜索结果可按相关度、
时间、域名和搜索引擎
分类,可限定检索结果
显示的数量和最大的检
索等待时间。
http://www.widewaysearch.com
4.4 常用搜索引擎及其使用
3、集合型搜索引擎
常用中文集合型搜索引擎-万纬搜索
4.4 常用搜索引擎及其使用
4、专用型搜索引擎
人物查询搜索引擎-Internet Address Finder--IAF
除了通过输入人名
查找其E-mail地址的
服务外,还可输入Email地址确认其有效
性,输入美国的邮编、
电话区号、城市名等
了解所属地域的人口
统计情况,某一社会
保障号所属的州市,
以及商标、专利和版
权检索服务等。
http://www.iaf.net
4.4 常用搜索引擎及其使用
4、专用型搜索引擎
人物查询搜索引擎-Switchboard
可检索公司名
录、个人信息、车
辆信息、网页搜索
等信息。
http://www.switchboard.com
4.4 常用搜索引擎及其使用
4、专用型搜索引擎
地图查询搜索引擎-图行天下
可以查询我国26
个大城市的地图、交
通、生活、旅游等信
息,通过输入关键词,
获取公交路线、周边
环境以及所在位置最
近的所需设施。 内
容涵盖交通、地理、
历史、旅游、商业等
方面信息的多维化搜
素引擎,目前隶属于
搜狐公司。
http://www.go2map.com
4.4 常用搜索引擎及其使用
4、专用型搜索引擎
地图查询搜索引擎-图行天下
4.4 常用搜索引擎及其使用
4、专用型搜索引擎
地图查询搜索引擎-MapBlast
可以检索澳大利亚、
比利时、加拿大、丹麦、
芬兰(赫尔辛基)、法
国、德国、意大利、卢
森堡公国、挪威(奥斯
陆)、葡萄牙、西班牙、
瑞典、瑞士、荷兰、英
国和美国的街道
(street)级地图,以
及相互之间的驾车路线。
现已被微软收购,成为
bing的地图搜索。
http://www.vicinity.com
http://cn.bing.com/ditu
4.4 常用搜索引擎及其使用
4、专用型搜索引擎
地图查询搜索引擎-MapQuest
Find a Business:输
入企业名称或者所属种类,
来查找其位置。
Address or
Intersection输入所在城
市、州或者邮政编码来查找
其位置。
Maps:查询全球多个国
家的城市地图,美国1000
多个城市地图。
Directions:查询北美、
欧洲城市之间的驾车路线。
http://www.mapquest.com
4.4 常用搜索引擎及其使用
4、专用型搜索引擎
图像查询搜索引擎-图像词典
图像词典是一个多语
言、多类别网上图像
搜索引擎,以中、英、
法、德、挪威、意大
利、西班牙、葡萄牙
8种文字显示。目前
中文站登录需账号。
http://www.gograph.com
4.5 搜索技巧
模糊查询与
精确查询
当输入一个
关键词时,搜
索引擎不但返
回包括了关键
词的网址,同
时也发来与关
键词相近的内
容。
逻辑条件
限制查询
输入多个关
键词,而且,
各关键词之间
的关系可以是
“和”、
“或”、
“非”(and、
or、not)。
范围限制
查 询
范围限制
的功能,可
以使我们在
某一范围中
查询和搜索
指定的关键
词。
模糊查询与
精确查询
逻辑条件
限制查询
完
范围限制
查 询