Transcript Document

计算机检索的原理与
步骤
主讲人:董宁
介绍内容:
计算机检索概念和发展历程
 计算机检索的基本概念
 计算机检索的基本技术
 计算机检索步骤
 计算机检索的发展趋势

 1.0

计算机检索概念和发展历程
1.1 计算机检索概念
计算机检索:是通过计算机(单机、网
络)可以查找、利用各种信息资源。
包括图书馆的公共书目(OPAC--O
nline Public Access Catalogue)、
各种联机数据库、Internet上的信息资源
等。

1.2 计算机检索的发展历程
脱机检索
联机检索
国际联机检索
单机光盘检索
光盘网络检索
Web信息资源检索
1.脱机检索(50年代末~60年代中期 )
 这时是计算机检索的原始时期。


只能进行简单的检索。

为满足专业检索人员定期批量处理用户
的情报要求。

用户不能立刻获得检索结果。

2.联机检索(60年代末~70年代初)
 1963年-1964年间,美国洛克希德导弹与宇航
公司的情报实验室建立了”人-机“对话的联
机情报检索系统(DIALOG的前身),此后在
60年代末到70年代初联机检索系统得以快速发
展。国际著名的DIALOG系统、ORBIT系统、
MEDLINE系统都是从这个时期发展起来的。
 用户可随时浏览检索结果
 由于这个阶段的计算机网络主要是通过电话线
联接,因而联机检索受到地区的限制
3.国际联机检索(70年代中期-)
 卫星通讯技术的出现,使得联机检索系
统打破了地域限制。而数据库生产的迅
速发展及微机大量的涌现,更使得国际
联机检索蓬勃发展。


联机检索系统进入发展的黄金时期。实
现了人类情报资源的共享。
4.单机光盘检索(80年代--)
 CD-ROM技术促使计算机检索成本迅速
下降 (一张光盘可存贮600〔MB〕兆字
节机读数据、成本价格便宜,而一张
DVD光盘的容量最少可达4.7G)

5.光盘网络检索(90年代-)
 光盘网络是一种计算机网络,如图书馆
局域网
 实现多用户光盘资源共享


6. Web信息资源检索(90年代末-)

进入90年代后,随着网络技术的发展,
尤其是互联网的迅猛发展,使计算机检
索进入一个崭新的时期。

检索方法更简单,检索结果更全面
2.0 计算机检索的基本概念
2.1 信息检索
 广义:信息检索是将信息按一定的方式
组织和存储起来,并根据信息用户的需
要找出有关信息的过程。
 狭义:仅是指从信息集合中找出所需信
息的过程。相当于人们所说的信息查询。
 分类:根据检索手段的不同,信息检索
可分为手工检索、光盘检索、联机检索
和网络检索。


2.2 检索方法

检索方法(检索策略)是指根据现有的
检索工具,能够省时、省力获取最佳检
索效果而采用的检索顺序和途径。

包括:直接法、追溯法、综合法
2.2.1 直接法(常用法)
 直接法是指直接利用检索工具(系统)检索文
献信息的方法,这是文献检索中最常用的一种
方法。它又分为顺查法、倒查法和抽查法。
 顺查法
顺查法是指按照时间的顺序,由远及近地利用
检索系统进行文献信息检索的方法。
例,已知某课题的起始年代,现在需要了解其
发展的全过程,就可以用顺查法从最初的年代
开始,逐渐向近期查找。


倒查法
倒查法是由近及远,从新到旧,逆着时间的顺
序利用检索工具进行文献检索的方法。此法的
重点是放在近期文献上。

2.2.2 追溯法(引文法)
追溯法是指利用已经掌握的文献末尾所列的参
考文献,进行逐一地追溯查找“引文”的一种
最简便的扩大信息来源的方法。
像滚雪球一样,依据文献间的引用关系,获得
越来越多的内容相关文献。
2.2.3 综合法
综合法又称为循环法,它是把上述两种方法
加以综合运用的方法。综合法既要利用检索工
具进行常规检索,又要利用文献后所附参考文
献进行追溯检索,分期分段地交替使用这两种
方法。即先利用检索工具(系统)检到一批文
献,再以这些文献末尾的参考目录为线索进行
查找,如此循环进行,直到满足要求时为止。
 综合法兼有常用法和追溯法的优点,可以查得
较为全面而准确的文献,是实际中采用较多的
方法。

2.3检索数据库
 2.3.1 概念

数据库就是在计算机存储设备上按一定
方式存储的相互关联的数据集合。是计
算机技术与信息检索技术相结合的产物,
是现代重要的信息资源,也是信息检索
的重要资料来源。





2.3.2 分类
根据载体的不同,数据库可分为:联机数据库、
光盘数据库、网络数据库
根据数据库的内容与功能不同,数据可划分为:
⑴全文数据库(full text database)
是存储文献全文或其中的主要部分的数据库。
⑵书目数据库(bibliographic database)
是以文档的形式组织起来的、提供书目信息的
数据库,包括各种目录、文摘与索引数据库。
(3)图像数据库(image database)
提供人们存储和检索图像及其文字说明
资料的一种源数据库。
 (4)交易(执行)数据库(transactional
database)
是指各种用于交易的数据库,如股票、
房地产交易数据库、中国科技成果交易
数据库。
(5)专利、标准、会议录数据库

3.0 计算机检索的基本技术
3.1 布尔逻辑检索(boolean logic)
 是当今检索理论中最成熟的理论之一,也是构
造检索表达式最基本、最简单的匹配模式。布
尔逻辑检索是通过布尔逻辑算符来实现的,这
些运算符能把一些具有简单概念的检索词(或
检索项)组配成为一个具有复杂概念的检索式,
用以表达用户的检索要求。
 逻辑运算符有三种:与(AND)、或(OR)、非
(NOT)
逻辑运算符的优先顺序为NOT、AND、OR
如果要改变运算顺序需要用“()”
A AND (B OR C)

3.2 邻近检索
又称位置运算检索。适用于两个检索词以指定
间隔距离或者指定的顺序出现的场合。
 常用位置运算符有(w)、(n)、(s)、(f)

(W)算符中的W含义为“With”。
 •词序不许颠倒
 •两词之间不许插词,只允许出现空格或连字符
号
 例: solar ( w) energy 检出 solar energy
(N)算符中的N含义为“Near”
 •词序可以颠倒
 •两词之间不许插词,只允许出现空格或
连字符号
 例:cross (N) section
 可检出 cross section 和 section cross
 (S)算符中的S含义为“Sentence”
 •词序可以颠倒
 •两词必须出现在同一句子(子字段)中

(F)算符中的F含义为“Field”
 •两词必须出现在同一字段中
 •词序不限

例如:
 pollution (F) control
 可检出control and management of
industrial pollution 等等。

3.3 截词检索
截词检索就是使计算机保留检索词中的相同词
干部分,允许检索词可有一定范围的变化。
截词有前方一致、后方一致和中间截词几种形
式。
例:
 前方一致:cat?,可检索出
cat,cats,catalog,category…
 后方一致: ?ther,可检索出mother,father
 中间截词,只替代一个字符,允许检索词中间
有若干变化。例如wom?n,检索到woman、
women

3.4 字段限制检索 (field limiting)
 字段限定也是调整检索策略的一种重要
手段。


字段限制适用于在已有一定数量输出记
录的基础上,通过指定字段的方法,减
少输出篇数,提高检索的查准率。

常有的字段:
篇(题)名字段
文摘字段
叙词字段
自由词字段
著者字段
著者机构字段
刊名字段
出版年字段
文献类型字段
语种字段
分类号字段
TI=Title
AB=Abstract
DE=Descriptor
ID=Identified
AU=Author
CS=Corporate Source
JN=Journal
PY=publication Year
DT=Document Type
LA=Language
CC=Classification

3.5 括号检索 (phrase search)

用于改变运算的先后次序,括号内的运
算优先进行。
例:
A AND (B OR C)
4.0 计算机检索步骤
确定检索目标
 选择数据库
 制定检索策略
 上机检索
 整理检索结果并对检索效率进行评价

确定检索目标
 1.明确检索的目的
明确用户是要查新、查参考资料还是查
询论文被收录或引用情况等,以便对检
索的查准、查全和时间范围的指标要求
有一个大致的了解,从而制定出符合情
况的检索策略。
 2.课题分析
对课题内容进行分析,找出核心概念和
隐含概念,排除无关的概念,明确概念
之间相互的逻辑关系。

选择数据库
 根据检索目标分析所确定的检索目的、
涉及的学科范围和信息类型,选择合适
的数据库。
 具体选择过程中还应考虑数据库的类型
(参考、全文还是电子期刊)、内容
(专利、标准、会议)、收录的数据学
科范围、数据库的更新周期,收录文献
的语种等因素。
 例如,要看全文就要选用全文数据库或
电子期刊;要查标准或专利就要选择标
准库或专利库








制定检索策略
考虑运用顺查法,倒查法,追溯法,还是综合
法
上机检索
(1)输出篇数过多时
此时多数是由误检造成的,原因主要有以下几
点:
1)没有对检索词进行限制。包括字段限制,时
间限制,分类限制等。
2)主题概念不够具体或具有多义性导致误检。
例如,仅使用mathematics进行检索结果很多,
将概念具体化。
如:mathematics and economic
 再如,检索世界贸易组织仅输入“WTO”,
系统可能会检索出“World Tourism
Organization”(世界旅游组织)
 3) 对所选的检索词截词截得过短。例如,
使用math? 将有太多的检索结果。








(2)输出篇数过少时
此时多数是由漏检造成的,原因可能有以下几
点:
1)选用了不规范的主题词或某些产品的俗称、
商品名作为检索词。
例如,没有使用学名“马铃薯”而使用了俗名
“土豆”
又如,没有使用“表面活性济”而使用了商品
名称“迪恩普”,都会造成漏检。
2)同义词没有充分考虑。
例如,“检索物理化学”,没有考虑到“物理
有机化学”,“物化”等同义词,导致漏检。
5.0 计算机检索的发展趋势
可视化
相对于纯文本,图像的表达方式生动、
形象,从多角度揭示主题。
 简单化
 多样化
(1)提供多媒体检索功能
(2)多语种检索
(3)服务多元化

个性化
例:Google在”My Preference”中根据用
户个人偏好对检索用语种、网站语种进行
设置,还可将检索范围限制在商业网站、
教育网站、政府网站等域名中。
 商业化
网络检索系统拥有全世界数量众多的用户,
吸引了大量的广告,为电子信息的增值服
务。网络检索系统已成为新的投资热点。
