第4章计算机信息检索

Download Report

Transcript 第4章计算机信息检索

第四章 计算机信息检索



计算机信息检索系统
数据库的类型及结构
计算机信息检索的原理
第一节、计算机信息检索系统
计算机信息检索系统的构成
计算机信息检索系统的类型
(一)计算机信息检索系统的构成
1、概念
计算机信息检索(简称机检),指检索人员在
电子计算机或计算机网络的终端上,对用户的
检索提问使用特定的检索指令和组配关系,由
计算机从数据库中检索出所需的文献、事实、
数据或其他记录,用电子化的手段传输,显示
或打印检索结果,提供给用户使用的过程.
计算机信息检索系统——利用计算机的有
效存贮和快速查找能力来进行信息的分析、
组织、存贮和查找的系统。
2、构成
按物理构成分:硬件、软件、数据库
(1)硬件系统:
主机:计算机的核心部件。
外围设备: 外部存贮器:磁带、磁盘、光盘等 输
入输出设备:数据录入设备、键盘、鼠标器、光学
字符识别装置、光笔、缩微扫描器、扫描仪、显示
终端等。
其他:运算器、控制器。
(2)软件系统
软件是用来管理、控制与规定计算机运行步骤
的各种程序的总称。包括系统软件和应用软件。
系统软件: 主要用于简化设计及使用方法,管理
计算机资源,提高其使用效率,发挥和扩大其功
能及用途。包括各种系统服务程序、语言处理程
序、操作及数据库管理系统。如WINDOWS。
应用软件(检索软件),是用户利用计算机来解
决某一问题而编制的程序,包括数据库管理系统、
自动标引、输入输出控制软件及检索匹配程序等.
如文件管理程序、检索程序、记帐统计程序等。
(3)数据库
其含义有多种表达:
国际标准组织标准ISO/DIS5127规定,数据库是指
至少由一种文档(file)组成,能满足特定目的或特定
功能数据处理系统需要的数据集合.
数据库是“按照数据结构来组织、存储和管理数据的
仓库”。
数据库(DataBase,DB)是一个长期存储在计算机
内的、有组织的、有共享的、统一管理的数据集合。
它是一个按数据结构来存储和管理数据的计算机软
件系统 。
数据库是依照某种数据模型组织起来并存放二级存储
器中的数据集合
(二)计算机检索系统的功能
1.信息处理、存贮与检索的功能: 包括对
信息的自动搜集、排序、生成关联数据库,
并按一定方式进行检索。
2.输出功能:将检出文献按一定的格式(目
录、题录、文摘或全文等)输出。
3.自我完善与更新的功能:即可维护功能
4.网上检索功能:
三、计算机信息检索系统的类型
检索系统存储的内容
文献信息检索系统
事实信息检索系统
数值信息检索系统
图像信息检索系统
多媒体信息检索系统
计算机信息检
索系统的类型
检索访问模式
脱机信息检索系统(20世纪50~60年代)
联机信息检索系统(20世纪70年代~
光盘信息检索系统(20世纪80年代~
网络信息检索系统(20世纪90年代~
如:按检索系统的访问模式分
1.脱机检索
是采用单机进行存储和处理信息,回答检索提问
时,采用批处理方式。这种机检方式,人机不能
进行应答,必须由专职人员建立用户提问档,系
统定期进行检索。
时间:20世纪50年代-60年代
检索人员→检索策略→成批检索→用户
不足:地理上的障碍;时间上的迟滞;封闭式的
检索
2.联机检索(Online search)
联机检索是指利用检索终端,通过通信网络和检
索系统联机,从检索系统的数据库中进行检索
时间:20世纪70年代-
用户→ 检索策略→“人机对话” → 获取所需信
息
著名的国际联机检索系统有美国的DIALOG系统、
ORBIT系统、BRS系统以及IBM公司的“文献
处理系统”等.
3.光盘检索(CD-ROM search)
时间:20世纪80年代以后
光盘检索阶段:
单机光盘检索 →联机光盘检索(光盘库,2-6个
光驱,多达500张光盘→光盘塔,8-64个光
驱)
4.网络信息检索

网络信息检索一般指因特网检索,通过网络接口软
件,用户可以在任一终端查询各地上网的信息资源。
时间:20世纪90年代以来
广域网(WAN):连接地理范围较大,常常是一个国家
或是一个洲。通信系统是广域网的关键。
局域网(LAN):一般是由一个部门或一个单位组建,
范围限于一幢楼或一个单位内。如:校园网。
城域网(MAN):介于两者之间。
网间网(Internetwork):是一系列局域网和广域网
的组合,Internet便是一个当前最大也最为典型的
网间网。
第二节、 数据库的类型及结构
数据库的类型
数据库的结构
(一)数据库的类型
按存储文献类型分为:
1.全文数据库: 存贮一次文献全文或其中主
要部分等。
2.书目数据库: 存贮文摘、索引、目录、题
录等二次文献,提供文献线索,一般都有相
应的印刷型检索工具。
书目型
全文型
(一)数据库的类型(续)
3.事实数据库 指包含大量数据、事实的数据库,
如指南数据库、术语数据库等,相当于印刷
型文献中的字典、辞典、百科全书、组织机
构指南、人名录、图册(集)等。
4.数值数据库 提供数值信息,如统计数据库
5.图像数据库 提供图像信息。
6.多媒体数据库 提供文字、图像和声音等多种
信息。
数值型
(二)数据库的结构
数据库 database
文档 file, archive
顺排文档
记录Record
字段Field
倒排文档(索引index)
1、记录(record)
记录:构成数据库的基本单元,也是文
档的构成单位,是对某一实体的属性进
行描述的结果。在书目数据库中,被
描述的实体是某一特定文献,其属性
就是该文献的外表特征和内容特征。
即一条文献信息(款目)。
如:一条文摘信息(记录)
2、字段(field)
是组成记录的下级单位(条目中的一个
信息项) ,用来描述实体的某一具体属
性。如表述文献内容特征的有文摘、叙
词、自由词字段,表述文献外表特征的
有著者、篇名、出版年、专利号等等字
段,
子字段(subfield),是字段的构成单位。
3、文档(file)


文档:是由若干数量的记录所构成
的一类数据的集合。
一般地说,一个数据库至少包括一个顺
排文档和一个倒排文档。
顺排文档
是将记录中的信
息按某一字段
(一般为存取
号)的顺序存
放起来形成的
文档,通常按记
录存入的先后顺
序线性排列,所
以也称为线性文
档,或主文档.
122 Student Teaching in the Context
of a School-University
123 Cooperative Learning in Response
to an
124 In Search of Responsive Teaching
for
125
Teaching
Topography:
Introducing Students to Contour
Map Construction.
Fife, Barbara S.
Science Teacher, v62 n5 p38-43
May 1995
ISSN: 0036-8555
Available From: UMI
倒排文档

数据库的“索引”即是
它的倒排文档,它是将
记录中一切可检索的标
识抽出,按某种顺序
(如字顺,分类)重新
排列而形成的文档。如
主题、著者、文种等倒
排文档。
倒排文档
著者倒排档
主题倒排档
文种倒排档
著者
存取号
主题词
存取号
文种
存取号
Han js
010003
基因
010003
China
010002
Han qd
010001
心血管
010001
Eng
010003
Ma dl
010002
肿瘤
010002
Eng
010001
第三节、计算机信息检索的原理
信息存贮
信息检索
一、信息存贮
信息的存贮实际上是生成数据库:文献数据
库的形成,先产生线性主文档,然后依一
定的规则,由线性文档构造倒排文档。这
个过程要对禁用词和词标引作一些处理。
禁用词: 是指那些频率较高而对标引和检索
没有价值的词,如一些介词,连词,冠词
及一些泛指意义的词等。
 ♣ ♥ ♠ ‫ﷲ ﺦ ﻚ‬
二、信息检索
布尔逻辑检索
截词检索
字段限定检索
全文检索
1、布尔逻辑检索
它是不同的单一主题概念,通过“布尔”
逻辑算符组配形成多主题概念的检索式。
常用的布尔逻辑算符有4种:逻辑与
(AND、*)、逻辑或(OR、+)、逻辑
非(NOT、-)、异或(XOR,不常用)。
如solar和energy,它们的三种逻辑组
配关系分别为:
逻辑与(and、*、空格等)
solar and energy
solar * energy
逻辑或(or、+、| )
solar or energy
solar + energy
逻辑非(not、-、^、!)
solar not energy
solar - energy
例如:







1、“城市绿化”
检索式:城市绿化+(城市+北京+天津+上海+… )*
(园林绿化+绿化建设+…)
2、“禾谷类作物病害防治,不是白粉病”
(禾谷类作物+小麦+水稻+玉米+…)* 病害 -(白粉
病)
3、土壤环境条件对豆科植物固氮作用的影响
关键词:土壤环境条件(温度、湿度,ph值) 豆科
植物(大豆、花生等) 固氮作用(固氮菌、根瘤菌)
检索式:(土壤环境条件+温度+湿度+ph值)*(豆科
植物+大豆+花生+…)*(固氮作用+固氮菌+根瘤菌)
2、截词(truncation)检索
截词——指检索者将检索词在他认为合适的地方截断。
截词检索(也称模糊检索或词干检索),是用截断的词的一
个局部进行的检索,并认为凡是满足这个词局部中的所
有字符(串)的文献,都为命中文献。
截词符号一般为“ ?”,也常用“$”,“*”。加在检索词的词
干或不完整的词形后或中间,可以减少词的输入量。其
基本含义是布尔逻辑OR的组配
截词方式:
根据截词的位置不同分为:前截断、后截断、中截断;
根据截断的数量不同分为:有限截断和无限截断。
A.无限截词*(或叫非限定性截词?)
后方截词:在一个词干后加一个“*”,表示可
检出在该词后加任意个字符或不加字符的记录,
如computer*,可检出
computer,computers,computerisation等词。
前方截词:如 *computer,可检出
computer,minicomputer,microcomputer等
前后截词 又称无限中截词,它是满足中间一致的检索。
用截词符“*、?”加在词干的前后,表示检索词与被
检索词之间只需中间匹配即可,如“*relation*”,可
检索出“relation”,“relations”,“interrelation”
等等。
B、有限截词(controlled Length
truncation)(又叫限定性截词 )
有限后截词:
smok???,其后最多有三个字符变化
可检出:smoke, smoky, smoker,
smokers,smokes, smoking等
Smok??,最多有两个字符变化,可检出:
smoker, smokes等.
smok? ?,最多有一个字符变化
可检出:smoke, smoky等
有限中截词(中间屏词)
如:
wom?n
可检出: women
woman
如:
fib??board
可检出: fiberboard
fibreboard
3、字段限定检索


将检索词限定在某一字段中,检索时,计算机只对限
定字段进行运算。
A.主题字段:是内容特征的字段(有Title,Keywords,
Subject,Summary等)
 B、非主题字段:是外部特征字段,如作者、文献类型、语
种、出版年份等字段.
常用的检索符号有:
in、=、<、>、≤、≥
例1:English in la
例2: py≥1992
例3:查“玉米方面的英文”文献
检索式=(maize or zea-mays or corn)in de and(English
in la)
4、全文检索
又叫位置检索position operators)、或邻
接检索(proximity)限定两个关键词在
文本中的距离,
(1)记录级检索
C(cition)——两词必须同时出现在同一
文献记录中,不限定词序和字段.如
Solar (C) energy
(2)字段级检索


F(field)——两词必须同时出现在文
献记录的同一个字段中,词序和词间插
入词数不限,但需指明要查找的字段,
如pollution (F) control/AB
文摘中含有如:control and
management of industrial
pollution ,等等均为命中文献 。
(3)子字段级检索
S(Subfield)——表示两词必须同时出现在同
一个子字段中,即同一句子或短语中,词序和
中间插入词数不限 。
Same(Sent)——两个词在同一个段落中。
(4)词位置检索
W(with)或 Pre——检索算符两侧的词必须相
邻且词序不能颠倒。
如:(w)及(nW)——与(with)
flue(w)cure tobacco
可检出: flue-cure tobacco
flue cure tobacco
building(1W)construction
可检出:
building and construction
building under construction等
N(near)——检索算符两侧的词必须相邻但
词序可以变。
如:(N)及(nN)——邻近(near)
如:information(1N)retrieval
可检出:information retrieval,retrieval
of information等
L(link)——检索算符两侧的词必须在数据库界
定的统一规范字段内。且有一定的从属关系,
可以用来链接主标题词和副标题词
X两边的检索词完全一致,并以指定的顺序相邻.
注意:
不是每一个检索系统都使用上述位置算符,不同
的系统使用的位置算符不同,不同的算符在不
同的系统中有时可能含义不同。例如“W”算符,
在Dialog检索系统表示两词相邻,输入顺序不
变;在ProQuest系统中,“W”算符表示输入
的两个词相邻,但顺序可变,如顺序要求不变,
则使用“Pre”算符。用户可以查阅help帮助文
档说明。
检索式
命中记录
solar
energy
solar + energy
solar * energy
solar (F) energy
solar (S) energy
solar (2w) energy
solar (1w) energy
solar (w) energy
1796
21526
22548
774
722
522
444
439
434
三、检索技巧
检索技巧主要是对逻辑运算符、词间位置算符、检索主题
概念的提取方法等的综合应用,其目的是保证查全率和
查准率.
(一)扩大检索结果的检索技巧
1、同义词技术:
(1)元素和元素符号,例:“AI”和“Aluminium”
(2)缩写和全称,例:“计算机辅助设计”和“CAD”和
“Computer Aided Design”
(3)相关词,例:“Database”,其相关词有“Expert
System”、“software”等。
2、截断技术
3、布尔逻辑或“OR”
(二)缩小检索结果的检索技术
1、布尔逻辑与“AND”
2、布尔逻辑非“NOT”
3、字段限定检索
小结



1、数据库的类型及结构
2、几种主要的计算机信息检索技术
3、扩大或缩小检索范围的方法