搜索引擎

Download Report

Transcript 搜索引擎

搜索引擎
Google在信息检索中的应用

Google搜索引擎的特色功能

1.查找PDF文件 一般搜索引擎多为全文搜索方式,
搜索HTML文件,Google可以查找Adobe的可移植文
档格式(PDF)文件,虽然互联网中PDF文件不HTML
文件那样多,但这些文件通常包含一些别处没有的重
要资料。
Google搜索引擎的特色功能

2.网页快照 Google在访问网站时,会将看过的网页复制一
份快照,以备在找不到原来的网页时使用。单击“网页快照”
时,查询者将看到Google将该网页编入索引时的页面。
Google依据这些快照来分析网页是否符合查询者的要求,当
然这可能并不是该网站最新的页面信息,但它具有几点好处,
它不但加快了查询者登录该站点的速度,还会在该站点的页面
内用彩色字体标识查询者输入的搜索关键词,使查询者直接浏
览相关的信息。这些对于应急查询非常有益处,尤其遇到原网
站服务器停止工作或原文件已被删除时使用,它也为不愿意保
留自己过去网页的网站,删除网页快照。
Google搜索引擎的特色功能



3.类似网页 如果查询者对某一网站的内容感兴趣,
但又嫌资料不够,点击Google的类似网页会找根据互
联网本身的连接结构对相关网站采用自动方法进行
分类,为信息检索提供准确的结果。Pagerank技术
的应用不仅能够提供准确的信息检索,还确保了检索
的公正性,不同于其他的搜索引擎。
Google以其复杂而全自动的搜索方法排除任何人为
的干扰,并做出承诺:没有人能花钱买到一个更高级
别Pagerank,Google绝不会为了任何商业利益篡改
Pagerank。从而保证了排名的客观公正。
Google搜索引擎的特色功能
4、窗口拦截器 当登录Google网时,Google
 的网面非常整齐简捷,没有常见的广告和充满
未知的网页效果,只有简单的介绍和搜索目标
的输入栏。

Google搜索引擎的特色功能






5、缩小搜索范围 Google提供了许多有效的缩
小搜索范围的方法,而利用提高查准率最有效的方
法是增加关键词,每增加一个关键词则范围就进行
了相应的缩小,也可以去除含有某一关键词的网页,
方法是在关键词前加减号(“-”英文字符),且前面
加一个空格,通过这种方法可以减少不相关的资料。
Google搜索引擎的特色功能



Google提供了限定只查某一网站的功能,要在某个
特定的区域或站点中进行搜索,可以在Google的搜
索框中输入“site.***.com”,也可以利用Google目录,
根据主题来缩小搜索范围,或使用有多种选择的高级
搜索功能,其中包括排除某个特定网站的网到类似资
料的网站或同一级别的网页。
Google搜索引擎的特色功能

6、采用专利网页级别技术Pagerank Goog
页,查找链接到某个指定网页的所有网页,查找
网页相关的网页等功能
二、中文信息的关键词的输入方法

1.基本逻辑符 Google的逻辑符有:与(空格,
取代+)、或(OR)、非(-)。如:搜索所有包含关键
词“教育理论”和“儿童教育”的网页,搜索式:“教
育
理论儿童教育”。搜索所有包含“教育理论”而不
包
含“儿童教育”的中文网页,搜索式:“教育理论-儿

童教育”。。





中文信息的关键词的输入方法







(1)Google不支持通配符。如“*”、“?”等,只做
精确查询,关键词后面的“*”或“?”会被忽略掉。
(2)Google对英文字符大小写不敏感,“CAT”和
“cat”的搜索结果是一样的。
(3)Google的关键词可以是词组(中间没空格),
也可以是句子(中间有空格),但是用句子做关键词
时,必须加英文引号。
2.关键词的选择

(1)特定词的选择 在了解目标信息的构成基
础上,用一些目标信息所特有的字词,就可以很
快查到所需要的资料。
如要寻找毛泽东诗词《念奴娇·鸟儿问答》详
细内容,只需搜索:“毛泽东诗词土豆加牛肉”,
就可以找到目标。
(2)相关词的选择
用与目标信息有密切联系
 的字词,就可以很快的找到所需的资料。
 如要寻找廖仲恺夫人何香凝的基本情况,只需
搜索:“廖仲恺夫人”

(3)专用搜索语法

a专用搜索语法搜索网站的限制符为site。例
如:搜索新浪上所有包含“萨达姆”的页面,搜
索:“萨达姆site:sina.com”。
b查询、搜索PDF文档、图片某一类文件用
 filetype。例如搜索生日的flash文件:“生日
filetype:
 SWF”等。

c搜索的关键字包含在URL链接中,“inurl”搜出
 的网页链接中有第一个关键字,后面的关键字
出现在其链接的该网页或文档中。例如:搜索
文艺评论:“inurl:文艺评论”。注意“inurl:”后
面不能有空格,Google也不对URL符号如“/”
进行搜索

d allinurl:搜出的网页链接中包含所有关键字,
 这些查询的关键字只集中于网页的连接字符
串中。
e 搜索的关键字包含在网页标题中,用“intitle”
或
 “allintitle”对网页的标题栏进行查询。例如:
搜索苏东
 坡作品集:“intitle:苏东坡作品”
f 搜索所有链接到某个URL地址的网页用link。
例如链接搜狐:“link:搜狐”
或”link:www.sohu.com”。但要注意:link不能
与其他语法混用。
g 查找与某个页面结构内容相似的页面用
related(即类似网页)。例如:搜索与新浪网主
页相似的页面,
就搜索:“related:www.sina.com.cn/index.htm”
h 从Google服务器上的缓存页面中查询信息用
cache(即网页快照)。
例如:搜索搜狐Google缓存中的首
页:“cache:www.sohu.com”,这是Google内
“http://www.sohu.com/”的页库快照。
Google已先预览各网站,拍下网页的快照存档。
这网页可能有更新的版本,请按此查看新版
示与某URL相关的一系列搜索用info。
 例如:查找和新浪首页相关的一些资讯,搜
索:“info:www.sina.com.cn”。

2.关键词的选择









如查《天龙八部》具体是哪几部。以“天龙八部”
做关键词,搜索结果有2780项,而排在前面的主要
与金庸小说《天龙八部》有关,很难找到所需要的信
息。用特定词法搜索,用八部中的某一部如“阿修
罗”做检索词,“天龙八部阿修罗”,可以搜索到982
项,可以直接找到全部的八部。如不知道天龙八部
中的任何一部,可用相关词法,“天龙八部佛教金庸”,查询结果1100项,也可以找到所需要的资
料
3.专用搜索语法
(1)site表示搜索结果局限于某个具体网站。
 如布什site:sina.com.cn搜索关于布什的中文
新浪网站的页面。

3.专用搜索语法
(2)查询PDF文档、图片等一类的文件用file typ。
 如搜索漫画的flash文件“漫画filetype:SWF”。

专用搜索语法
(3)搜索的关键词包含在URL连接中,inurl可以
搜索出的网页链接中的第一个关键词,后面的
关键词出现在其链接的该网页或文档中。比
如MP3.GALLARY.
 查找MIDI“黄昏”。搜索式:inurl:midi黄昏。已
搜索有关inurl:midi黄昏的中文简体网页,共有
6项查询结果。

专用搜索语法






(4)allinurl搜出网页链接中包含所有关键词,这
些查询的关键词只集中于网页的链接字符串中。如
查找可能具有PHF安全漏洞的公司网站,通常这些
网站的CGI-BIN目录中含有PHF脚本程序。表现
在链接中就是“域名/cgi - bin/phf”。搜索式:
“allinurl:“cgi-bin”phf+com”。
专用搜索语法
(5)搜索的关键词包含在网页标题中,用“intile”
 或“allintitle”对网页栏进行查询,可以找到有
较高相关率的专题网页。如苏东坡作品集,搜
索式:“inti-tle:苏东坡作品”。

专用搜索语法

(6)搜索所有链接到某个URL地域的网页用link。
如搜索所有含有中国新闻网
www.chinanew.com.cn链接网页.搜索
式:“link:www.chinanew.com.cn”(link不能与其
他语法相混合操作)
专用搜索语法
(7)related用来搜索与结构内容相似的网页。
 如搜索所有与新浪网主页内容相似的网页。
搜式:“Related:www.sina.com.cn/index.htm”。

专用搜索语法

(8)cache用来搜索Google服务器上的某页面
的缓存。这个功能与“网页快照”相同,通常
用于查找某些已经被删除的死链接网页。
专用搜索语法
(9)info用于显示与链接相关的一系列搜索,提
 供cache、link、related和完全包含该链接的
网页的功能。如查找和新浪首页相关的一些
资料,搜索式:“info:www.sina.com.cn”。

三、Google在中文信息检索中的运用
1.图书搜索
 2.图片搜索
 3.音像制品的搜索
 4.软件搜索

1.图书搜索

首先,找书的关键,是你先了解一些著名的电子
图书馆网站。可以用site语法找到某本书(如
果该网站上有的话)。比如,通过中国国家图书
馆寻找西游记的书,就搜索:“西游记
site:nlc.gov.cn”。

。
1.图书搜索

其次,通过“特定词法”,对于迅速找到某书或
者文章也是极其有用的,当然,这得建立在我们
已经读过该书,并对该书的内容有印象的基础
上。比如想了解金庸小说中“华山论剑”的
情节,就可以搜索“华山论剑郭靖射雕英雄
传”,于是便于迅速找到目标。
2.图片搜索

Google是互联网最好用的图像搜索工具,点击
Google首页上的“图像”,出现关键词输入栏,在栏
内输入关键词,就可以找到要搜索的图片的缩小图,
而且可以查看原始图片及查找出该图片的出处。除
了Google提供的专门图片搜索功能以外,还可以组合
使用一些搜索语法,达到图片搜索的目的。其中一组
是专门的图片集合,提供图片的网站,通常会把图片
放在某个专门的目录下。
图片搜索
如:
 “gallery、album、photo、iruage等等,这样就
可以使用INURL语法迅速找到这类目录。另
一组是提供图片集合的网页,通常在标题栏内
会注明某个人的图片集合,可以用intile语法找
到这类网页,还可以用site语法指定某免费主
页提供站点。

3.音像制品的搜索

可以用“inurl”进行搜索音像制品。例如:搜索
电视剧《邓小平》可用:“inurl:电视剧邓小
平”,搜索mp3“祝福”:“inurl:mp3祝福”,就很
容易找到目标。也可以用“intitle”等字符进行
搜索,例如搜索有关文艺复兴内容的电视节
目:“intitle:电视节目文艺复兴”
4.软件搜索

可直接输入软件名称下载,但这样随意下载是
不安全的,供下载的软件有可能带有病毒或捆
绑木马,所以用SITE语法搜索可以对下载网站
作个限定。搜索下载软件的serial、number、
sn、序列号等直接输入关键词即可。如搜索
winzip8.0的注册码,搜索式:“winzip8.0 sn”。
四、Google在使用中应该注意的问题
1.关键词查询时的拆分问题
 2.中文简体与繁体的自动转换问题
 3.搜索结果随时间和范围的不同出现较大的
差

1.关键词查询时的拆分问题

利用Google在进行简单查询时,一般情况下不需要引
号。但有时Google也将一个词或词组进行拆分,这样
会降低查准率,为避免Google可能对其拆分,查询者
应将所查的词或词组用引号括起来。如查“使用偏
好”,有引号的搜寻结果为1790项,无引号的查询结
果为49700项,所以为了增加查准率,应将关键词或词
组用括号括起来,特别是对两个或两个以上的关键词
组合查询时,也应将查询的关键词用括号括起来
2.中文简体与繁体的自动转换问题

Google具有智能型汉字繁简自动转换系统,具
有汉字繁简字体自动转换的功能,可为查询者
找到更多的信息,但Google有时用的转换词典
不一定正确,结果会出现一些错误。例如搜索
“梅国”,搜索结果为7530项记录,从查询结
果中发现有大量含有“美国”的繁体文献,也
就是说Google将中文简体“梅国”自动转换
为中文繁体“美国”,从而产生了错误的查询
结果。
3.搜索结果随时间和范围的不同出现
较大的差
异








Google在查询中文简体网页时,会出现查询结
果大于所有网页的现象,而随着时间的不同,即使是
同一搜索范围,哪怕仅有一天的差异也有可能出现
查询结果有较大幅度的变化。如查询“计算机”的
简
体中文网页,2004年9月20日的查询结果为356
项,21日的查询结果为475项,之后每一天的查询
结果都不一样,所以查询结果随着时间和范围的不
同差异也很大。