因特网信息检索

Download Report

Transcript 因特网信息检索

随着网络数字时代的到来,网络已成
为人们获取信息的重要手段.因特网是一个
信息的海洋,如何在这个浩瀚的海洋中迅
速而准确地找到你想要的信息呢?
§什么是搜索引擎?
• 它以一定的策略在因特网中搜集、发现信息;
• 它对信息进行理解、提取、组织和处理;
• 它为用户提供检索服务,从而起到信息导航的目的。
全文搜索引擎 ---关键词检索
用代表所需信息的主题的关键字进行
信息查询
目录式搜索引擎 ---分类检索
利用罗列目录的方式引导搜索者依据目
录查找需要的信息。
常用全文搜索引擎:
www.google.com
www.baidu.com
http://162.105.146.27/
常用目录索引类搜索引擎:
www.sina.com
www.sohu.com
www.yahoo.com.cn
信息检索工具工作原理:
1、全文搜索引擎的工作原理
搜索器:负责定期地自动到
各个网站上,把网页抓下来,
并顺着上面的链接,持续不断
地抓取网页。如“网络机器
人”、“爬虫”、“蜘蛛”。
3
2
索引器:把搜索器抓来的网
页进行分析,按照关键词句进
行索引,并存入服务器的数据
库中。
检索器:面向用户,接收用
1
户提交的查询字串,在索引数
据库中查询,并将结果反馈给
用户。
§全文搜索引擎的工作原理
实例分析:你在“百度”搜索引
擎中输入“北京概况”进行检索,
结果出来后,有上万条信息,查
看其中一项,就看到了相应的网
页。(中国西部投资网
http://www.cwinvest.com/tzhj.asp?dq=11)
三
个
过
程
:
Step1 “百度”的“蜘蛛”程序“爬”到了“中国西部投资网”上,抓到
了“http://www.cwinvest.com/tzhj.asp?dq=11”页面;
Step2 从页面全文中抽取一系列关键字,包括“北京”、“概况”等等,
并把网页网址与这些关键字关联,利用“索引器”建立网页索引数据库;
Step3 当用户向“百度”提交了关键字,“百度”就利用“检索器”从索
引数据库中搜索,并将搜索到的结果展示在页面上。
§全文搜索引擎的工作原理
“百度”的“蜘蛛”是如何知道有(中国西部投
资网http://www.cwinvest.com/tzhj.asp?dq=11)这个网页的呢?
1、“北京国际投资促进网”在“百度”的网站目录中
两
个
可
能
:
注册过,“蜘蛛”顺着注册的地址找到其首页,并顺着
首页找到“北京概况”这个特定页面。
2、“蜘蛛”顺着其他网站上的“中国西部投资网”链
接爬到了其首页上,并顺藤摸瓜,抓到了“北京概况”
这个页面。
关键字
提炼搜索关键词(提炼最具代表性和指示性的
关键词)
细化搜索条件(如多输入一两个关键词)
用好逻辑符号(and、or、not)
强制搜索(添加英文双引号来搜索短语词)
目录索引类搜索引擎一般采用人工方式
采集的存储网络信息,依靠手工为每个网
站确定 一个标题,并给出大概的描述,建
立关键字索引,将其放入相应的类目体系
中。
1、总目录
2、专题目录
•总目录——专题目录——链接——网站
3、链接
§目录索引类搜索引擎的特点
从使用的角度讲,目录索引类搜索引擎最大
的特点就是在查询信息时,事先可以没有特定的
信息检索目标(关键词),通过浏览主题了解某一
主题的相关资源。
而且,目录索引类搜索引擎的网页由人工精
选,网页内容丰富,学术性较强。
§目录索引类搜索引擎的不足
因特网上的信息量大,信息资源不断增加、复杂多
变,人工分类具有一定的主观性;
同时,由于人工编制和维护要花费大量的人力和时
间, 因此,更新速度慢。
部分网络目录并不全是人工方式采集和组织信息,
而是利用自动功能或者由用户递交的方式来丰富和补充
资源。
由于目录索引类搜索引擎与全文搜索引擎检索有各
自的优点和缺点,目前它们谁也无法完全取代谁,于是
很多搜索网站都同时提供这两种类型的服务,例如
Yahoo、Sina 等。
搜索引擎的发展趋势
1、多媒体信息检索
传统的多媒体数据库中,除了文本和数字还
包括图形、图象、声音、视频、动画等各种媒体组合。
但多媒体信息具有丰富的内涵,如:图象的颜色、纹
理、形状,动画中的运动、声音和音调等。例如歌曲
的旋律、音调、音质等难以用文字描述。这正是基于
内容的音频检索需要研究和解决的问题,以期达到更
深的检索层次和更好的检索效果。
2、专业垂直搜索引擎
专业垂直类搜索引擎只面向某一个特
定的领域,专注于自己的特长和核心
技术,能够保证对该领域信息的完全
收录和及时更新。
题问365试题搜索引擎
www.tiwen365.com
其他信息检索工具:
以FTP 、Telnet 、Usenet
等资源为检索对象的检索工具,如:北大天网、
Archie等
下面以“北大天网”为例。
http://maze.tianwang.com:8080/
北大天网既提供因特网信息资源检索,
也以因特网形式提供FTP文件检索
元搜索引擎:
元搜索引擎是一种调用其他多个独立搜索引擎的
引擎,是对多个独立搜索引擎的整合、调用、控
制和优化,能方便地检索多个搜索引擎,扩大检
索范围,提高检索的全面性。如:
http://www.dogpile.com
元搜索引擎的特点
元搜索引擎在搜索的时候,用户只需提
交一次搜索请求,而且可以同时搜索多
个数据库,并根据多个搜索引擎的检索
结果进行二次加工,如对检索结果进行
重排和标明检索结果来源等,输出给用
户。
利用困特网进行信息资源检索时,如果
想大致了解某一个领域的信息资源,可以
使用目录索引类搜索引擎;如果需要检索
的信息资源目标比较明确,则可以根据信
息资源的类型选择搜索工具。