Transcript Document
计算机检索的原理与
步骤
主讲人:董宁
介绍内容:
计算机检索概念和发展历程
计算机检索的基本概念
计算机检索的基本技术
计算机检索步骤
计算机检索的发展趋势
1.0
计算机检索概念和发展历程
1.1 计算机检索概念
计算机检索:是通过计算机(单机、网
络)可以查找、利用各种信息资源。
包括图书馆的公共书目(OPAC--O
nline Public Access Catalogue)、
各种联机数据库、Internet上的信息资源
等。
1.2 计算机检索的发展历程
脱机检索
联机检索
国际联机检索
单机光盘检索
光盘网络检索
Web信息资源检索
1.脱机检索(50年代末~60年代中期 )
这时是计算机检索的原始时期。
只能进行简单的检索。
为满足专业检索人员定期批量处理用户
的情报要求。
用户不能立刻获得检索结果。
2.联机检索(60年代末~70年代初)
1963年-1964年间,美国洛克希德导弹与宇航
公司的情报实验室建立了”人-机“对话的联
机情报检索系统(DIALOG的前身),此后在
60年代末到70年代初联机检索系统得以快速发
展。国际著名的DIALOG系统、ORBIT系统、
MEDLINE系统都是从这个时期发展起来的。
用户可随时浏览检索结果
由于这个阶段的计算机网络主要是通过电话线
联接,因而联机检索受到地区的限制
3.国际联机检索(70年代中期-)
卫星通讯技术的出现,使得联机检索系
统打破了地域限制。而数据库生产的迅
速发展及微机大量的涌现,更使得国际
联机检索蓬勃发展。
联机检索系统进入发展的黄金时期。实
现了人类情报资源的共享。
4.单机光盘检索(80年代--)
CD-ROM技术促使计算机检索成本迅速
下降 (一张光盘可存贮600〔MB〕兆字
节机读数据、成本价格便宜,而一张
DVD光盘的容量最少可达4.7G)
5.光盘网络检索(90年代-)
光盘网络是一种计算机网络,如图书馆
局域网
实现多用户光盘资源共享
6. Web信息资源检索(90年代末-)
进入90年代后,随着网络技术的发展,
尤其是互联网的迅猛发展,使计算机检
索进入一个崭新的时期。
检索方法更简单,检索结果更全面
2.0 计算机检索的基本概念
2.1 信息检索
广义:信息检索是将信息按一定的方式
组织和存储起来,并根据信息用户的需
要找出有关信息的过程。
狭义:仅是指从信息集合中找出所需信
息的过程。相当于人们所说的信息查询。
分类:根据检索手段的不同,信息检索
可分为手工检索、光盘检索、联机检索
和网络检索。
2.2 检索方法
检索方法(检索策略)是指根据现有的
检索工具,能够省时、省力获取最佳检
索效果而采用的检索顺序和途径。
包括:直接法、追溯法、综合法
2.2.1 直接法(常用法)
直接法是指直接利用检索工具(系统)检索文
献信息的方法,这是文献检索中最常用的一种
方法。它又分为顺查法、倒查法和抽查法。
顺查法
顺查法是指按照时间的顺序,由远及近地利用
检索系统进行文献信息检索的方法。
例,已知某课题的起始年代,现在需要了解其
发展的全过程,就可以用顺查法从最初的年代
开始,逐渐向近期查找。
倒查法
倒查法是由近及远,从新到旧,逆着时间的顺
序利用检索工具进行文献检索的方法。此法的
重点是放在近期文献上。
2.2.2 追溯法(引文法)
追溯法是指利用已经掌握的文献末尾所列的参
考文献,进行逐一地追溯查找“引文”的一种
最简便的扩大信息来源的方法。
像滚雪球一样,依据文献间的引用关系,获得
越来越多的内容相关文献。
2.2.3 综合法
综合法又称为循环法,它是把上述两种方法
加以综合运用的方法。综合法既要利用检索工
具进行常规检索,又要利用文献后所附参考文
献进行追溯检索,分期分段地交替使用这两种
方法。即先利用检索工具(系统)检到一批文
献,再以这些文献末尾的参考目录为线索进行
查找,如此循环进行,直到满足要求时为止。
综合法兼有常用法和追溯法的优点,可以查得
较为全面而准确的文献,是实际中采用较多的
方法。
2.3检索数据库
2.3.1 概念
数据库就是在计算机存储设备上按一定
方式存储的相互关联的数据集合。是计
算机技术与信息检索技术相结合的产物,
是现代重要的信息资源,也是信息检索
的重要资料来源。
2.3.2 分类
根据载体的不同,数据库可分为:联机数据库、
光盘数据库、网络数据库
根据数据库的内容与功能不同,数据可划分为:
⑴全文数据库(full text database)
是存储文献全文或其中的主要部分的数据库。
⑵书目数据库(bibliographic database)
是以文档的形式组织起来的、提供书目信息的
数据库,包括各种目录、文摘与索引数据库。
(3)图像数据库(image database)
提供人们存储和检索图像及其文字说明
资料的一种源数据库。
(4)交易(执行)数据库(transactional
database)
是指各种用于交易的数据库,如股票、
房地产交易数据库、中国科技成果交易
数据库。
(5)专利、标准、会议录数据库
3.0 计算机检索的基本技术
3.1 布尔逻辑检索(boolean logic)
是当今检索理论中最成熟的理论之一,也是构
造检索表达式最基本、最简单的匹配模式。布
尔逻辑检索是通过布尔逻辑算符来实现的,这
些运算符能把一些具有简单概念的检索词(或
检索项)组配成为一个具有复杂概念的检索式,
用以表达用户的检索要求。
逻辑运算符有三种:与(AND)、或(OR)、非
(NOT)
逻辑运算符的优先顺序为NOT、AND、OR
如果要改变运算顺序需要用“()”
A AND (B OR C)
3.2 邻近检索
又称位置运算检索。适用于两个检索词以指定
间隔距离或者指定的顺序出现的场合。
常用位置运算符有(w)、(n)、(s)、(f)
(W)算符中的W含义为“With”。
•词序不许颠倒
•两词之间不许插词,只允许出现空格或连字符
号
例: solar ( w) energy 检出 solar energy
(N)算符中的N含义为“Near”
•词序可以颠倒
•两词之间不许插词,只允许出现空格或
连字符号
例:cross (N) section
可检出 cross section 和 section cross
(S)算符中的S含义为“Sentence”
•词序可以颠倒
•两词必须出现在同一句子(子字段)中
(F)算符中的F含义为“Field”
•两词必须出现在同一字段中
•词序不限
例如:
pollution (F) control
可检出control and management of
industrial pollution 等等。
3.3 截词检索
截词检索就是使计算机保留检索词中的相同词
干部分,允许检索词可有一定范围的变化。
截词有前方一致、后方一致和中间截词几种形
式。
例:
前方一致:cat?,可检索出
cat,cats,catalog,category…
后方一致: ?ther,可检索出mother,father
中间截词,只替代一个字符,允许检索词中间
有若干变化。例如wom?n,检索到woman、
women
3.4 字段限制检索 (field limiting)
字段限定也是调整检索策略的一种重要
手段。
字段限制适用于在已有一定数量输出记
录的基础上,通过指定字段的方法,减
少输出篇数,提高检索的查准率。
常有的字段:
篇(题)名字段
文摘字段
叙词字段
自由词字段
著者字段
著者机构字段
刊名字段
出版年字段
文献类型字段
语种字段
分类号字段
TI=Title
AB=Abstract
DE=Descriptor
ID=Identified
AU=Author
CS=Corporate Source
JN=Journal
PY=publication Year
DT=Document Type
LA=Language
CC=Classification
3.5 括号检索 (phrase search)
用于改变运算的先后次序,括号内的运
算优先进行。
例:
A AND (B OR C)
4.0 计算机检索步骤
确定检索目标
选择数据库
制定检索策略
上机检索
整理检索结果并对检索效率进行评价
确定检索目标
1.明确检索的目的
明确用户是要查新、查参考资料还是查
询论文被收录或引用情况等,以便对检
索的查准、查全和时间范围的指标要求
有一个大致的了解,从而制定出符合情
况的检索策略。
2.课题分析
对课题内容进行分析,找出核心概念和
隐含概念,排除无关的概念,明确概念
之间相互的逻辑关系。
选择数据库
根据检索目标分析所确定的检索目的、
涉及的学科范围和信息类型,选择合适
的数据库。
具体选择过程中还应考虑数据库的类型
(参考、全文还是电子期刊)、内容
(专利、标准、会议)、收录的数据学
科范围、数据库的更新周期,收录文献
的语种等因素。
例如,要看全文就要选用全文数据库或
电子期刊;要查标准或专利就要选择标
准库或专利库
制定检索策略
考虑运用顺查法,倒查法,追溯法,还是综合
法
上机检索
(1)输出篇数过多时
此时多数是由误检造成的,原因主要有以下几
点:
1)没有对检索词进行限制。包括字段限制,时
间限制,分类限制等。
2)主题概念不够具体或具有多义性导致误检。
例如,仅使用mathematics进行检索结果很多,
将概念具体化。
如:mathematics and economic
再如,检索世界贸易组织仅输入“WTO”,
系统可能会检索出“World Tourism
Organization”(世界旅游组织)
3) 对所选的检索词截词截得过短。例如,
使用math? 将有太多的检索结果。
(2)输出篇数过少时
此时多数是由漏检造成的,原因可能有以下几
点:
1)选用了不规范的主题词或某些产品的俗称、
商品名作为检索词。
例如,没有使用学名“马铃薯”而使用了俗名
“土豆”
又如,没有使用“表面活性济”而使用了商品
名称“迪恩普”,都会造成漏检。
2)同义词没有充分考虑。
例如,“检索物理化学”,没有考虑到“物理
有机化学”,“物化”等同义词,导致漏检。
5.0 计算机检索的发展趋势
可视化
相对于纯文本,图像的表达方式生动、
形象,从多角度揭示主题。
简单化
多样化
(1)提供多媒体检索功能
(2)多语种检索
(3)服务多元化
个性化
例:Google在”My Preference”中根据用
户个人偏好对检索用语种、网站语种进行
设置,还可将检索范围限制在商业网站、
教育网站、政府网站等域名中。
商业化
网络检索系统拥有全世界数量众多的用户,
吸引了大量的广告,为电子信息的增值服
务。网络检索系统已成为新的投资热点。