Transcript 搜索引擎
搜索引擎
Google在信息检索中的应用
Google搜索引擎的特色功能
1.查找PDF文件 一般搜索引擎多为全文搜索方式,
搜索HTML文件,Google可以查找Adobe的可移植文
档格式(PDF)文件,虽然互联网中PDF文件不HTML
文件那样多,但这些文件通常包含一些别处没有的重
要资料。
Google搜索引擎的特色功能
2.网页快照 Google在访问网站时,会将看过的网页复制一
份快照,以备在找不到原来的网页时使用。单击“网页快照”
时,查询者将看到Google将该网页编入索引时的页面。
Google依据这些快照来分析网页是否符合查询者的要求,当
然这可能并不是该网站最新的页面信息,但它具有几点好处,
它不但加快了查询者登录该站点的速度,还会在该站点的页面
内用彩色字体标识查询者输入的搜索关键词,使查询者直接浏
览相关的信息。这些对于应急查询非常有益处,尤其遇到原网
站服务器停止工作或原文件已被删除时使用,它也为不愿意保
留自己过去网页的网站,删除网页快照。
Google搜索引擎的特色功能
3.类似网页 如果查询者对某一网站的内容感兴趣,
但又嫌资料不够,点击Google的类似网页会找根据互
联网本身的连接结构对相关网站采用自动方法进行
分类,为信息检索提供准确的结果。Pagerank技术
的应用不仅能够提供准确的信息检索,还确保了检索
的公正性,不同于其他的搜索引擎。
Google以其复杂而全自动的搜索方法排除任何人为
的干扰,并做出承诺:没有人能花钱买到一个更高级
别Pagerank,Google绝不会为了任何商业利益篡改
Pagerank。从而保证了排名的客观公正。
Google搜索引擎的特色功能
4、窗口拦截器 当登录Google网时,Google
的网面非常整齐简捷,没有常见的广告和充满
未知的网页效果,只有简单的介绍和搜索目标
的输入栏。
Google搜索引擎的特色功能
5、缩小搜索范围 Google提供了许多有效的缩
小搜索范围的方法,而利用提高查准率最有效的方
法是增加关键词,每增加一个关键词则范围就进行
了相应的缩小,也可以去除含有某一关键词的网页,
方法是在关键词前加减号(“-”英文字符),且前面
加一个空格,通过这种方法可以减少不相关的资料。
Google搜索引擎的特色功能
Google提供了限定只查某一网站的功能,要在某个
特定的区域或站点中进行搜索,可以在Google的搜
索框中输入“site.***.com”,也可以利用Google目录,
根据主题来缩小搜索范围,或使用有多种选择的高级
搜索功能,其中包括排除某个特定网站的网到类似资
料的网站或同一级别的网页。
Google搜索引擎的特色功能
6、采用专利网页级别技术Pagerank Goog
页,查找链接到某个指定网页的所有网页,查找
网页相关的网页等功能
二、中文信息的关键词的输入方法
1.基本逻辑符 Google的逻辑符有:与(空格,
取代+)、或(OR)、非(-)。如:搜索所有包含关键
词“教育理论”和“儿童教育”的网页,搜索式:“教
育
理论儿童教育”。搜索所有包含“教育理论”而不
包
含“儿童教育”的中文网页,搜索式:“教育理论-儿
童教育”。。
中文信息的关键词的输入方法
(1)Google不支持通配符。如“*”、“?”等,只做
精确查询,关键词后面的“*”或“?”会被忽略掉。
(2)Google对英文字符大小写不敏感,“CAT”和
“cat”的搜索结果是一样的。
(3)Google的关键词可以是词组(中间没空格),
也可以是句子(中间有空格),但是用句子做关键词
时,必须加英文引号。
2.关键词的选择
(1)特定词的选择 在了解目标信息的构成基
础上,用一些目标信息所特有的字词,就可以很
快查到所需要的资料。
如要寻找毛泽东诗词《念奴娇·鸟儿问答》详
细内容,只需搜索:“毛泽东诗词土豆加牛肉”,
就可以找到目标。
(2)相关词的选择
用与目标信息有密切联系
的字词,就可以很快的找到所需的资料。
如要寻找廖仲恺夫人何香凝的基本情况,只需
搜索:“廖仲恺夫人”
(3)专用搜索语法
a专用搜索语法搜索网站的限制符为site。例
如:搜索新浪上所有包含“萨达姆”的页面,搜
索:“萨达姆site:sina.com”。
b查询、搜索PDF文档、图片某一类文件用
filetype。例如搜索生日的flash文件:“生日
filetype:
SWF”等。
c搜索的关键字包含在URL链接中,“inurl”搜出
的网页链接中有第一个关键字,后面的关键字
出现在其链接的该网页或文档中。例如:搜索
文艺评论:“inurl:文艺评论”。注意“inurl:”后
面不能有空格,Google也不对URL符号如“/”
进行搜索
d allinurl:搜出的网页链接中包含所有关键字,
这些查询的关键字只集中于网页的连接字符
串中。
e 搜索的关键字包含在网页标题中,用“intitle”
或
“allintitle”对网页的标题栏进行查询。例如:
搜索苏东
坡作品集:“intitle:苏东坡作品”
f 搜索所有链接到某个URL地址的网页用link。
例如链接搜狐:“link:搜狐”
或”link:www.sohu.com”。但要注意:link不能
与其他语法混用。
g 查找与某个页面结构内容相似的页面用
related(即类似网页)。例如:搜索与新浪网主
页相似的页面,
就搜索:“related:www.sina.com.cn/index.htm”
h 从Google服务器上的缓存页面中查询信息用
cache(即网页快照)。
例如:搜索搜狐Google缓存中的首
页:“cache:www.sohu.com”,这是Google内
“http://www.sohu.com/”的页库快照。
Google已先预览各网站,拍下网页的快照存档。
这网页可能有更新的版本,请按此查看新版
示与某URL相关的一系列搜索用info。
例如:查找和新浪首页相关的一些资讯,搜
索:“info:www.sina.com.cn”。
2.关键词的选择
如查《天龙八部》具体是哪几部。以“天龙八部”
做关键词,搜索结果有2780项,而排在前面的主要
与金庸小说《天龙八部》有关,很难找到所需要的信
息。用特定词法搜索,用八部中的某一部如“阿修
罗”做检索词,“天龙八部阿修罗”,可以搜索到982
项,可以直接找到全部的八部。如不知道天龙八部
中的任何一部,可用相关词法,“天龙八部佛教金庸”,查询结果1100项,也可以找到所需要的资
料
3.专用搜索语法
(1)site表示搜索结果局限于某个具体网站。
如布什site:sina.com.cn搜索关于布什的中文
新浪网站的页面。
3.专用搜索语法
(2)查询PDF文档、图片等一类的文件用file typ。
如搜索漫画的flash文件“漫画filetype:SWF”。
专用搜索语法
(3)搜索的关键词包含在URL连接中,inurl可以
搜索出的网页链接中的第一个关键词,后面的
关键词出现在其链接的该网页或文档中。比
如MP3.GALLARY.
查找MIDI“黄昏”。搜索式:inurl:midi黄昏。已
搜索有关inurl:midi黄昏的中文简体网页,共有
6项查询结果。
专用搜索语法
(4)allinurl搜出网页链接中包含所有关键词,这
些查询的关键词只集中于网页的链接字符串中。如
查找可能具有PHF安全漏洞的公司网站,通常这些
网站的CGI-BIN目录中含有PHF脚本程序。表现
在链接中就是“域名/cgi - bin/phf”。搜索式:
“allinurl:“cgi-bin”phf+com”。
专用搜索语法
(5)搜索的关键词包含在网页标题中,用“intile”
或“allintitle”对网页栏进行查询,可以找到有
较高相关率的专题网页。如苏东坡作品集,搜
索式:“inti-tle:苏东坡作品”。
专用搜索语法
(6)搜索所有链接到某个URL地域的网页用link。
如搜索所有含有中国新闻网
www.chinanew.com.cn链接网页.搜索
式:“link:www.chinanew.com.cn”(link不能与其
他语法相混合操作)
专用搜索语法
(7)related用来搜索与结构内容相似的网页。
如搜索所有与新浪网主页内容相似的网页。
搜式:“Related:www.sina.com.cn/index.htm”。
专用搜索语法
(8)cache用来搜索Google服务器上的某页面
的缓存。这个功能与“网页快照”相同,通常
用于查找某些已经被删除的死链接网页。
专用搜索语法
(9)info用于显示与链接相关的一系列搜索,提
供cache、link、related和完全包含该链接的
网页的功能。如查找和新浪首页相关的一些
资料,搜索式:“info:www.sina.com.cn”。
三、Google在中文信息检索中的运用
1.图书搜索
2.图片搜索
3.音像制品的搜索
4.软件搜索
1.图书搜索
首先,找书的关键,是你先了解一些著名的电子
图书馆网站。可以用site语法找到某本书(如
果该网站上有的话)。比如,通过中国国家图书
馆寻找西游记的书,就搜索:“西游记
site:nlc.gov.cn”。
。
1.图书搜索
其次,通过“特定词法”,对于迅速找到某书或
者文章也是极其有用的,当然,这得建立在我们
已经读过该书,并对该书的内容有印象的基础
上。比如想了解金庸小说中“华山论剑”的
情节,就可以搜索“华山论剑郭靖射雕英雄
传”,于是便于迅速找到目标。
2.图片搜索
Google是互联网最好用的图像搜索工具,点击
Google首页上的“图像”,出现关键词输入栏,在栏
内输入关键词,就可以找到要搜索的图片的缩小图,
而且可以查看原始图片及查找出该图片的出处。除
了Google提供的专门图片搜索功能以外,还可以组合
使用一些搜索语法,达到图片搜索的目的。其中一组
是专门的图片集合,提供图片的网站,通常会把图片
放在某个专门的目录下。
图片搜索
如:
“gallery、album、photo、iruage等等,这样就
可以使用INURL语法迅速找到这类目录。另
一组是提供图片集合的网页,通常在标题栏内
会注明某个人的图片集合,可以用intile语法找
到这类网页,还可以用site语法指定某免费主
页提供站点。
3.音像制品的搜索
可以用“inurl”进行搜索音像制品。例如:搜索
电视剧《邓小平》可用:“inurl:电视剧邓小
平”,搜索mp3“祝福”:“inurl:mp3祝福”,就很
容易找到目标。也可以用“intitle”等字符进行
搜索,例如搜索有关文艺复兴内容的电视节
目:“intitle:电视节目文艺复兴”
4.软件搜索
可直接输入软件名称下载,但这样随意下载是
不安全的,供下载的软件有可能带有病毒或捆
绑木马,所以用SITE语法搜索可以对下载网站
作个限定。搜索下载软件的serial、number、
sn、序列号等直接输入关键词即可。如搜索
winzip8.0的注册码,搜索式:“winzip8.0 sn”。
四、Google在使用中应该注意的问题
1.关键词查询时的拆分问题
2.中文简体与繁体的自动转换问题
3.搜索结果随时间和范围的不同出现较大的
差
1.关键词查询时的拆分问题
利用Google在进行简单查询时,一般情况下不需要引
号。但有时Google也将一个词或词组进行拆分,这样
会降低查准率,为避免Google可能对其拆分,查询者
应将所查的词或词组用引号括起来。如查“使用偏
好”,有引号的搜寻结果为1790项,无引号的查询结
果为49700项,所以为了增加查准率,应将关键词或词
组用括号括起来,特别是对两个或两个以上的关键词
组合查询时,也应将查询的关键词用括号括起来
2.中文简体与繁体的自动转换问题
Google具有智能型汉字繁简自动转换系统,具
有汉字繁简字体自动转换的功能,可为查询者
找到更多的信息,但Google有时用的转换词典
不一定正确,结果会出现一些错误。例如搜索
“梅国”,搜索结果为7530项记录,从查询结
果中发现有大量含有“美国”的繁体文献,也
就是说Google将中文简体“梅国”自动转换
为中文繁体“美国”,从而产生了错误的查询
结果。
3.搜索结果随时间和范围的不同出现
较大的差
异
Google在查询中文简体网页时,会出现查询结
果大于所有网页的现象,而随着时间的不同,即使是
同一搜索范围,哪怕仅有一天的差异也有可能出现
查询结果有较大幅度的变化。如查询“计算机”的
简
体中文网页,2004年9月20日的查询结果为356
项,21日的查询结果为475项,之后每一天的查询
结果都不一样,所以查询结果随着时间和范围的不
同差异也很大。