4 计算机信息检索

Download Report

Transcript 4 计算机信息检索

计算机信息检索
教师:王春莲
[email protected]
图书馆信息咨询部
计算机信息检索——主要内容
一、机检索概述
1、含义
2、原理
3、类型
4、构成
5、特点
二、技术与方法
1、布尔检索
2、截词检索
3、限定检索
4、策略、步骤
三、系统的应用
1、提高查全率的方
法
2、提高查准率的方
法
一、计算机信息检索概述
1、含义
计算机信息检索是指人们在计算机或计算机检
索网络的终端机上,使用特定的检索指令、检索词
和检索策略,从计算机检索系统的数据库中检索出
需要的信息,继而再由终端设备显示或打印的过程。

通过检索系统,采用一定的技术手段,根据一
定的准则,在数据库或其他形式的网络信息资源中
自动找出用户所需相关信息。
 简单的说,是一个信息存取的过程,是人、计算机
和网络共同作用下自动完成的。
 计算机网络:是由地理上分散的具有独立功
能的多个计算机系统,通过通信线路和设备
互联而形成的网络系统。
 互联网:是世界上最大的计算机互联通信网
络,最早起源于美国国防部的计算机网络
ARPAnet.
2、计算机信息检索原理
信息检索的本质是对信息集合和需求
集合的选择与匹配。
用户
提问
匹配运算
命中结果
数据库
计算机信息检索原理
 计算机信息检索是用计算机代替人工检索的
匹配过程。计算机一方面接受检索提问(即
检索提问表达式),另一方面从数据库中接
受文献记录,然后在两者之间匹配运算,即
将检索提问与数据库中文献记录标识进行比
较,如果比较结果一致,那么这篇文章可能
是需要的。如果比较结果不一致,该篇文章
则不符合检索要求,不是用户所需要的。
3、计算机信息检索类型
根据检索的工作方式,可分为:
(1)脱机检索:利用计算机的输入输出装置进行检索,
用户不参与检索过程。
(2)联机检索:用户直接与计算机对话,参与检索过程,
可随时修改检索策略。
(3)光盘检索:利用光盘存储和传送数据,在本地进行
检索的方式。
(4)网络检索:利用网络,特别是互联网检索的方式。
计算机信息检索类型
 根据信息的服务方式,可分为:
 (1)定题检索:根据课题需要,事先编写出检索
提问式,定期检索不断更新的数据库,定期将检索
结果提供给用户。
 (2)回溯检索:针对某一课题的需要,一次检索
若干年的数据,或检索数据库中所包含的所有数据。
网络信息检索系统
数据库
服务器
通信网络
检索终端
4、构成
服务器
通信网络
检索终端
数据库
5、特点
(1)速度快
(2)范围广
(3)内容新
(4)途径多
(5)检法易
6、我国计算机检索发展概况
 1、试验准备阶段—70年代中期到80年代初期
 2、联机检索阶段—80年代中期到90年代初期
 3、网络化检索阶段—90年代中期到现在
 4、自建数据库发展阶段—90年代初期到现在
二、技术与方法
1、逻辑检索(重点内容)
逻辑检索的基础是布尔逻辑运算,主要
是“与”,“或”,“非”的运算。并通过
一定的算法和实现手段进行检索。
布尔运算符包括:逻辑与、逻辑或、逻
辑非
①
逻辑“或”(OR)运算符: 也可用“ + ”代替,是用
来组配具有同义或同族概念的词。
如:检索提问式:“A OR B”或“A + B”
其含义是数据库记录中任何一条记录,只要含有“A”或
“B”中任何一个检索词即为命中的文献(如下图阴影部
分)。
“OR”算符的基本作用是扩大检索范围,增加命中文献量,
提高文献的查全率。如:
“微机 + 电脑 + PC机”、 “微机 or 电脑 or PC机”
②
逻辑“与”(AND)运算符:也可用“*”代替,用来组
配不同检索概念,是一种概念相交和限定关系的组配。
例如:“A AND B”或“A * B”,
其含义是检出的记录中必须同时含有“A”和“B”两个
检索项(如图中阴影部分所示)。
“AND”算符的基本作用是对检索词加以限定,逐步缩
小检索范围,提高检索结果的查准率。例如,检索“计
算机在图书馆中的应用”方面的文献,其提问式可写成:
“computer * library”
或 “ computer AND library”
③ 逻辑“非”(NOT)运算符 :
也可用“—”代替,
“NOT”算符是排除含有某些词的记录,其逻辑提问表
达式为“A NOT B”或 “A - B”,即检出的记录中
只能含有“NOT”算符前的检索词 A,但不能同时含有
“NOT”后的检索词 B(如图中阴影部分)。
“NOT”算符的基本作用是缩小检索范围,但并不一定
能提高文献命中的准确性,一般只起到减少文献输出
量的作用。在联机检索中可降低检索费用。例如:
“计算机 NOT 微机”
应注意,由于“NOT”算符有排除掉相关文献的可
能,因此,在实际检索中应慎重使用。
布尔逻辑表达式
名称
符号
逻辑
与
AN
*
D
逻辑
或
OR +
逻辑
非
NO
—
T
效果图
A
A
A
例
功能
B
篮球*训
练
缩小检
索范围
B
篮球+足
球
扩大检
索范围
B
世界-亚
洲
缩小检
索范围
交换率
逻辑与: A * B = B * A
逻辑或: A + B = B + A
A *(B + C)=A * B + A * C
例如:
(1)检索张艺谋与巩利相关文献:张艺谋*巩
利
(2)检索张艺谋或巩利相关文献:张艺谋+巩
利
(3)检索除亚洲地区的世界文献:世界 – 亚
洲
布尔检索的特点
(1)与人们的思维习惯一致
(2)表达直观清晰、结构化强
(3)方便扩检和缩检
(4)易于计算机实现
2、截词检索
截词检索就是使计算机保留检索词中的相同词干部分,允许检索词
有一定范围的变化,这种检索功能可以减少输入步骤,简化检索
程序,获得较高的查全率。尤其是英语的单词词尾变化较多,为
避免输入过多的词易出现失误或漏检,经常要使用截词检索。
不同的检索系统有其不同的截词符(如 EI COMPENDEX 数
据库的截词符在 DIALOG 系统用“?”,而 EI CompendexWeb
数据库的截词符则为 “*” ,故应注意不同系统中截词符的形
式),但其功能基本相同。截词的用法主要有两种形式:“限制
截词”和“非限制截词”。
 截词包括后截、中截、前截等。不同检索系统截词符各有规定,
常用有:?、*、!、$
 在DIALOG国际联机检索系统中,用?作为截词符,主要包括下列
情形:
 符号
意义
后截实例
中截实例
?
? ?
??
后截断(非限制截词)
中截一字符
后截一字符
后、中截二字符
computer?;
computer? ?
act??;
???
后、中截三字符
computat???
wom?n
encyclop??dia
computer? 会自动检索出下列等词
Computer、computers、computerise、computerize、
computerisation ……
wom?n 自动检索出 women、 woman
computer? ? 仅自动检索出 Computer、 computers,而词尾其它变化的词不会
出现
computat??? 会自动检索出 Computer、computers、computerise、
computerize,而对于computerisation ……等词尾字符变化超出3个以上的
词不会出现;
3、限定词检索
1)字段限制检索
字段限制检索是计算机检索常用的一种检索形式,通常情况下检索系
统在所有基本字段中进行检索,不限定字段。如果希望检索词在某些字段
(如文献的题目或者叙词)中出现,就需要用相应的字段限制。字段限制
适用于在已有一定数量输出记录的基础上,通过限定字段的方法,减少输
出篇数,提高检索结果的查准率。
(2) 位置限定检索
位置限定检索,主要用于限定两个检索词之间间隔距离(即允许插入
其他词的个数)或者两个检索词的前后顺序,它是调整检索策略的一种重
要手段。
4、策略、步骤
(1)分析检索课题,明确检索目的
(2)选择检索系统和数据库,确定检索途径
(3)选择检索词,构造检索式,确定查找过程。
(4)分析检索结果,调整检索策略。
(5)检索结果的排序输出
5、分析检索课题
 分析检索课题应注意以下几个方面:
 1、了解情报需求的目的和意图。
 2、分析检索课题的主题要求。
 3、时间要求。
 4、检索效果要求。
 5、检索费用及其他要求。
6、选择检索系统和数据库
 在具体数据库选择过程中应注意:
 1、明确数据库收集的数量、类型。存贮年限
和更新周期。
 2、明确数据库所具有的特殊性和交叉性。
 3、明确数据库所提供检索途径、功能和服务

方式。

7、检索功能
 检索功能是指检索系统在检索界面上提供给
用户的基本功能。
 通用的检索功能有:浏览、索引、简单检索、
复杂检索、自然语言检索等。
三、系统的应用
1、提高查全率的方法
(1)使用所有可能的同义词和近义词
(2)采用上位词检索
(3)使用截词检索
(4)通过分类途径检索
(5)尽量减少使用逻辑与运算
(6)尽量少用限定检索
2、提高查准率的方法
(1)使用规范词检索
(2)少用上位词、分类号检索
(3)使用逻辑与运算缩小检索范围
(4)使用限定检索缩小检索范围
数字图书馆发展的理论与实践
 一、数字图书馆概述
 二、国外数字图书馆的发展现状
 三、国内数字图书馆的发展现状
数字图书馆概述

1、数字图书馆的定义

2、数字图书馆特性

3、数字图书馆的基本功能
数字图书馆定义
广义认为,数字图书馆与现有的印本图书
馆没有任何关系,它实际上是“信息库”的概念,
数字图书馆要解决的是海量信息的存贮与检索
问题,特别是多媒体的检索问题。持这一观点
的人通常是计算机界的专家。
数字图书馆定义

狭义定义认为,数字图书馆是在传统的
图书馆基础上发展起来的,是印本文献的数
字化与数字化资源的融合。数字图书馆要解
决的是收集和建立数字化资源并有效地提供
信息服务。持有这种观点的人通常是图书馆
界的从业人员。
数字图书馆定义


数字图书馆是提供资源(包括专业人员)
服务的组织,目的在于搜集、构建、存取、
揭示、传递、保管大量的数字化作品,并保
证其时间上的持久性,从而可以被特定的群
体方便而经济地加以利用。
——美国数字图书馆联盟
数字图书馆的特征

数字图书馆至少应具有以下一些特征:
海量存储的数字化资源,跨时空的网络化信
息存取,智能化的搜寻索引擎和友好易用的
用户界面,具有电子商务特征的用户服务模
式,以及便于资源共享的组织模式。
国内数字图书馆的发展现状
 1、中国数字图书馆工程
 2、国家科技图书文献中心网络服务系统
 3、国家教育部CALIS系统
 4、上海数字图书馆项目
 5、中科院国家科学数字图书馆项目
 6、其他建设项目
国家教育部CALIS计划

中国高等教育文献保障系统,简称
CALIS是经国务院批准的我国高等教育“211
工程)总体建设规划中两个公共系统之一。
1998年11月,国家发展计划委员会正式批准
了项目可行性研究报告, CALIS项目正式启
动。
CALIS的建设目标
 1、文献资源建设登上一个新的台阶。其中,
外文期刊品种要增加三分之一,使文献保障
率达到中文95%以上,外文80%;
 2、高校图书馆服务手段有较大改善。有超过
100种数据库上网服务,24小时不间断开机,
具在支持100个用户同时检索的能力;
 3、初步形成整体化的发展模式。改变过去高
校图书馆分散发展、自我保障的模式,走资
源共建、共知、共享的整体化发展之路。
超星数字图书馆
http:/ / w w w .ssreader.com
 1、海量电子图书资源,丰富的电子图书资源提供
阅读,其中包括文学、经济、计算机等五十余大类,
数十万册电子图书,300万篇论文,全文总量4亿余
页,数据总量30000GB大量免费电子图书,并且每
天仍在不断的增加与更新。为目前世界最大的中文
在线数字图书馆。
 2、阅读方便与快捷,图书不仅可以直接在线阅读,
还可以提供下载和打印。多种图书浏览方式、强大
的检索功能与在线找书专家的共同引导,帮助您及
时准确查找阅读到书籍。书签、交互式标注、全文
检索等实用功能,让您充分体验到数字化阅读的乐
趣。24小时在线服务,不受地域时间限制。
超星数字图书馆
 3、先进的技术依托
 先进成熟的超星数字图书馆技术平台和“超星阅览
器”,给您提供各种读书所需功能。专为数字图书馆
设计的PDG电子图书格式,具有良好的显示效果,适
合在互联网上使用等优点。“超星阅览器”具有电子
图书阅读、资源整理、网页采集、电子图书制作等功
能。
 4、十五万作者授权
 本着“尊重知识,尊重版权”的原则,超星数字图书
馆在国内首家提出了一套电子图书版权解决方案,并
大规模的开展与作者和出版社的签约授权工作。至今
为止已经有十五万以上的作者将作品授权超星数字图
王春莲
[email protected]
图书馆信息咨询部