Transcript 4 计算机信息检索
计算机信息检索
教师:王春莲
[email protected]
图书馆信息咨询部
计算机信息检索——主要内容
一、机检索概述
1、含义
2、原理
3、类型
4、构成
5、特点
二、技术与方法
1、布尔检索
2、截词检索
3、限定检索
4、策略、步骤
三、系统的应用
1、提高查全率的方
法
2、提高查准率的方
法
一、计算机信息检索概述
1、含义
计算机信息检索是指人们在计算机或计算机检
索网络的终端机上,使用特定的检索指令、检索词
和检索策略,从计算机检索系统的数据库中检索出
需要的信息,继而再由终端设备显示或打印的过程。
通过检索系统,采用一定的技术手段,根据一
定的准则,在数据库或其他形式的网络信息资源中
自动找出用户所需相关信息。
简单的说,是一个信息存取的过程,是人、计算机
和网络共同作用下自动完成的。
计算机网络:是由地理上分散的具有独立功
能的多个计算机系统,通过通信线路和设备
互联而形成的网络系统。
互联网:是世界上最大的计算机互联通信网
络,最早起源于美国国防部的计算机网络
ARPAnet.
2、计算机信息检索原理
信息检索的本质是对信息集合和需求
集合的选择与匹配。
用户
提问
匹配运算
命中结果
数据库
计算机信息检索原理
计算机信息检索是用计算机代替人工检索的
匹配过程。计算机一方面接受检索提问(即
检索提问表达式),另一方面从数据库中接
受文献记录,然后在两者之间匹配运算,即
将检索提问与数据库中文献记录标识进行比
较,如果比较结果一致,那么这篇文章可能
是需要的。如果比较结果不一致,该篇文章
则不符合检索要求,不是用户所需要的。
3、计算机信息检索类型
根据检索的工作方式,可分为:
(1)脱机检索:利用计算机的输入输出装置进行检索,
用户不参与检索过程。
(2)联机检索:用户直接与计算机对话,参与检索过程,
可随时修改检索策略。
(3)光盘检索:利用光盘存储和传送数据,在本地进行
检索的方式。
(4)网络检索:利用网络,特别是互联网检索的方式。
计算机信息检索类型
根据信息的服务方式,可分为:
(1)定题检索:根据课题需要,事先编写出检索
提问式,定期检索不断更新的数据库,定期将检索
结果提供给用户。
(2)回溯检索:针对某一课题的需要,一次检索
若干年的数据,或检索数据库中所包含的所有数据。
网络信息检索系统
数据库
服务器
通信网络
检索终端
4、构成
服务器
通信网络
检索终端
数据库
5、特点
(1)速度快
(2)范围广
(3)内容新
(4)途径多
(5)检法易
6、我国计算机检索发展概况
1、试验准备阶段—70年代中期到80年代初期
2、联机检索阶段—80年代中期到90年代初期
3、网络化检索阶段—90年代中期到现在
4、自建数据库发展阶段—90年代初期到现在
二、技术与方法
1、逻辑检索(重点内容)
逻辑检索的基础是布尔逻辑运算,主要
是“与”,“或”,“非”的运算。并通过
一定的算法和实现手段进行检索。
布尔运算符包括:逻辑与、逻辑或、逻
辑非
①
逻辑“或”(OR)运算符: 也可用“ + ”代替,是用
来组配具有同义或同族概念的词。
如:检索提问式:“A OR B”或“A + B”
其含义是数据库记录中任何一条记录,只要含有“A”或
“B”中任何一个检索词即为命中的文献(如下图阴影部
分)。
“OR”算符的基本作用是扩大检索范围,增加命中文献量,
提高文献的查全率。如:
“微机 + 电脑 + PC机”、 “微机 or 电脑 or PC机”
②
逻辑“与”(AND)运算符:也可用“*”代替,用来组
配不同检索概念,是一种概念相交和限定关系的组配。
例如:“A AND B”或“A * B”,
其含义是检出的记录中必须同时含有“A”和“B”两个
检索项(如图中阴影部分所示)。
“AND”算符的基本作用是对检索词加以限定,逐步缩
小检索范围,提高检索结果的查准率。例如,检索“计
算机在图书馆中的应用”方面的文献,其提问式可写成:
“computer * library”
或 “ computer AND library”
③ 逻辑“非”(NOT)运算符 :
也可用“—”代替,
“NOT”算符是排除含有某些词的记录,其逻辑提问表
达式为“A NOT B”或 “A - B”,即检出的记录中
只能含有“NOT”算符前的检索词 A,但不能同时含有
“NOT”后的检索词 B(如图中阴影部分)。
“NOT”算符的基本作用是缩小检索范围,但并不一定
能提高文献命中的准确性,一般只起到减少文献输出
量的作用。在联机检索中可降低检索费用。例如:
“计算机 NOT 微机”
应注意,由于“NOT”算符有排除掉相关文献的可
能,因此,在实际检索中应慎重使用。
布尔逻辑表达式
名称
符号
逻辑
与
AN
*
D
逻辑
或
OR +
逻辑
非
NO
—
T
效果图
A
A
A
例
功能
B
篮球*训
练
缩小检
索范围
B
篮球+足
球
扩大检
索范围
B
世界-亚
洲
缩小检
索范围
交换率
逻辑与: A * B = B * A
逻辑或: A + B = B + A
A *(B + C)=A * B + A * C
例如:
(1)检索张艺谋与巩利相关文献:张艺谋*巩
利
(2)检索张艺谋或巩利相关文献:张艺谋+巩
利
(3)检索除亚洲地区的世界文献:世界 – 亚
洲
布尔检索的特点
(1)与人们的思维习惯一致
(2)表达直观清晰、结构化强
(3)方便扩检和缩检
(4)易于计算机实现
2、截词检索
截词检索就是使计算机保留检索词中的相同词干部分,允许检索词
有一定范围的变化,这种检索功能可以减少输入步骤,简化检索
程序,获得较高的查全率。尤其是英语的单词词尾变化较多,为
避免输入过多的词易出现失误或漏检,经常要使用截词检索。
不同的检索系统有其不同的截词符(如 EI COMPENDEX 数
据库的截词符在 DIALOG 系统用“?”,而 EI CompendexWeb
数据库的截词符则为 “*” ,故应注意不同系统中截词符的形
式),但其功能基本相同。截词的用法主要有两种形式:“限制
截词”和“非限制截词”。
截词包括后截、中截、前截等。不同检索系统截词符各有规定,
常用有:?、*、!、$
在DIALOG国际联机检索系统中,用?作为截词符,主要包括下列
情形:
符号
意义
后截实例
中截实例
?
? ?
??
后截断(非限制截词)
中截一字符
后截一字符
后、中截二字符
computer?;
computer? ?
act??;
???
后、中截三字符
computat???
wom?n
encyclop??dia
computer? 会自动检索出下列等词
Computer、computers、computerise、computerize、
computerisation ……
wom?n 自动检索出 women、 woman
computer? ? 仅自动检索出 Computer、 computers,而词尾其它变化的词不会
出现
computat??? 会自动检索出 Computer、computers、computerise、
computerize,而对于computerisation ……等词尾字符变化超出3个以上的
词不会出现;
3、限定词检索
1)字段限制检索
字段限制检索是计算机检索常用的一种检索形式,通常情况下检索系
统在所有基本字段中进行检索,不限定字段。如果希望检索词在某些字段
(如文献的题目或者叙词)中出现,就需要用相应的字段限制。字段限制
适用于在已有一定数量输出记录的基础上,通过限定字段的方法,减少输
出篇数,提高检索结果的查准率。
(2) 位置限定检索
位置限定检索,主要用于限定两个检索词之间间隔距离(即允许插入
其他词的个数)或者两个检索词的前后顺序,它是调整检索策略的一种重
要手段。
4、策略、步骤
(1)分析检索课题,明确检索目的
(2)选择检索系统和数据库,确定检索途径
(3)选择检索词,构造检索式,确定查找过程。
(4)分析检索结果,调整检索策略。
(5)检索结果的排序输出
5、分析检索课题
分析检索课题应注意以下几个方面:
1、了解情报需求的目的和意图。
2、分析检索课题的主题要求。
3、时间要求。
4、检索效果要求。
5、检索费用及其他要求。
6、选择检索系统和数据库
在具体数据库选择过程中应注意:
1、明确数据库收集的数量、类型。存贮年限
和更新周期。
2、明确数据库所具有的特殊性和交叉性。
3、明确数据库所提供检索途径、功能和服务
方式。
7、检索功能
检索功能是指检索系统在检索界面上提供给
用户的基本功能。
通用的检索功能有:浏览、索引、简单检索、
复杂检索、自然语言检索等。
三、系统的应用
1、提高查全率的方法
(1)使用所有可能的同义词和近义词
(2)采用上位词检索
(3)使用截词检索
(4)通过分类途径检索
(5)尽量减少使用逻辑与运算
(6)尽量少用限定检索
2、提高查准率的方法
(1)使用规范词检索
(2)少用上位词、分类号检索
(3)使用逻辑与运算缩小检索范围
(4)使用限定检索缩小检索范围
数字图书馆发展的理论与实践
一、数字图书馆概述
二、国外数字图书馆的发展现状
三、国内数字图书馆的发展现状
数字图书馆概述
1、数字图书馆的定义
2、数字图书馆特性
3、数字图书馆的基本功能
数字图书馆定义
广义认为,数字图书馆与现有的印本图书
馆没有任何关系,它实际上是“信息库”的概念,
数字图书馆要解决的是海量信息的存贮与检索
问题,特别是多媒体的检索问题。持这一观点
的人通常是计算机界的专家。
数字图书馆定义
狭义定义认为,数字图书馆是在传统的
图书馆基础上发展起来的,是印本文献的数
字化与数字化资源的融合。数字图书馆要解
决的是收集和建立数字化资源并有效地提供
信息服务。持有这种观点的人通常是图书馆
界的从业人员。
数字图书馆定义
数字图书馆是提供资源(包括专业人员)
服务的组织,目的在于搜集、构建、存取、
揭示、传递、保管大量的数字化作品,并保
证其时间上的持久性,从而可以被特定的群
体方便而经济地加以利用。
——美国数字图书馆联盟
数字图书馆的特征
数字图书馆至少应具有以下一些特征:
海量存储的数字化资源,跨时空的网络化信
息存取,智能化的搜寻索引擎和友好易用的
用户界面,具有电子商务特征的用户服务模
式,以及便于资源共享的组织模式。
国内数字图书馆的发展现状
1、中国数字图书馆工程
2、国家科技图书文献中心网络服务系统
3、国家教育部CALIS系统
4、上海数字图书馆项目
5、中科院国家科学数字图书馆项目
6、其他建设项目
国家教育部CALIS计划
中国高等教育文献保障系统,简称
CALIS是经国务院批准的我国高等教育“211
工程)总体建设规划中两个公共系统之一。
1998年11月,国家发展计划委员会正式批准
了项目可行性研究报告, CALIS项目正式启
动。
CALIS的建设目标
1、文献资源建设登上一个新的台阶。其中,
外文期刊品种要增加三分之一,使文献保障
率达到中文95%以上,外文80%;
2、高校图书馆服务手段有较大改善。有超过
100种数据库上网服务,24小时不间断开机,
具在支持100个用户同时检索的能力;
3、初步形成整体化的发展模式。改变过去高
校图书馆分散发展、自我保障的模式,走资
源共建、共知、共享的整体化发展之路。
超星数字图书馆
http:/ / w w w .ssreader.com
1、海量电子图书资源,丰富的电子图书资源提供
阅读,其中包括文学、经济、计算机等五十余大类,
数十万册电子图书,300万篇论文,全文总量4亿余
页,数据总量30000GB大量免费电子图书,并且每
天仍在不断的增加与更新。为目前世界最大的中文
在线数字图书馆。
2、阅读方便与快捷,图书不仅可以直接在线阅读,
还可以提供下载和打印。多种图书浏览方式、强大
的检索功能与在线找书专家的共同引导,帮助您及
时准确查找阅读到书籍。书签、交互式标注、全文
检索等实用功能,让您充分体验到数字化阅读的乐
趣。24小时在线服务,不受地域时间限制。
超星数字图书馆
3、先进的技术依托
先进成熟的超星数字图书馆技术平台和“超星阅览
器”,给您提供各种读书所需功能。专为数字图书馆
设计的PDG电子图书格式,具有良好的显示效果,适
合在互联网上使用等优点。“超星阅览器”具有电子
图书阅读、资源整理、网页采集、电子图书制作等功
能。
4、十五万作者授权
本着“尊重知识,尊重版权”的原则,超星数字图书
馆在国内首家提出了一套电子图书版权解决方案,并
大规模的开展与作者和出版社的签约授权工作。至今
为止已经有十五万以上的作者将作品授权超星数字图
王春莲
[email protected]
图书馆信息咨询部