第二章信息检索基础理论

Download Report

Transcript 第二章信息检索基础理论

第二章 信息检索基础理论
目录:
2.1 信息检索的含义及类型
2.2 信息检索技术与策略
2.3 信息检索语言和工具
2.1 信息检索的含义及类型

2.1.1 信息检索的含义

2.1.2 信息检索的类型
2.1 信息检索的含义及类型
2.1.1 信息检索的含义
1. 信息标引和存储过程
信息标引是对大量无序的信息特征进行著录、标引和组织,使之有
序化,信息存储是对有关信息进行选择,并按科学的方法存储,组成检
索工具和检索文档,建立信息数据库;即组织检索系统的过程。
2.信息的需求分析和检索过程
分析用户的信息需求,利用已组织好的检索系统,按照系统提供的方
法与途径检索有关信息,即信息系统的应用过程。信息检索就是根据提问
制定策略和表达式,利用信息数据库获取相关信息。
信息使用情况包括:需要信息、接受信息、消费信息
★ 信息检索的实质是将描述特定用户所需信息的提问特征,与信息存储
的检索标识进行异同的比较,从中找出与提问特征一致或基本一致的信息。
2.1 信息检索的含义及类型
2.1.2 信息检索的类型
1.根据检索的内容和查找的对象,信息检索可分为:数据信息检索、事实信息检索、文献信息检索。
2. 根据检索(组织)方式分:信息检索分手工信息检索和机器(计算机)信息检索。
3.根据检索要求区分:信息检索分为强相关检索和弱相关检索。*
4.按照检索的运行性质,信息检索分为定题检索和回溯检索。
5、按照检索的信息形式,信息检索分为文本检索和多媒体检索。*
2.2 信息检索的技术与策略

2.2.1 信息检索基本技术
在计算机信息检索系统中,比较通用的有浏览、简单检索和高级检索等功能
*。浏览功能是由信息工作者将各种信息按一定的方式组织起来,按信息的主题、
分类等方式编制成树状结构体系,供用户层层点击,进入不同分支查看检索结果
列表。简单检索和高级检索是利用检索词(或检索式)进行检索,返回与之相符
的检索结果。利用检索词(或检索式)检索时通常会用到布尔逻辑检索、截词检
索、词间位置检索和限定字段检索等检索技术。
2.2 信息检索的技术与策略
2.2.1 信息检索基本技术
词间位置检索
基本技术
2.2 信息检索的技术与策略
2.2.1 信息检索基本技术

1.布尔逻辑检索
逻辑与( A*B) 检出的记录必须同时含有所有检索词。缩小检索主题范围,提高查准率
逻辑或( A+B)检出记录只需满足检索项中任何一个或同时满足。概念相加,扩大检索范围,避免漏检,提高查全率
逻辑非(A-B) 从原检索范围中剔除一部分不需要的内容

2.截词检索
截词符:“*”、“?”或“$”、“!”
前方截词(截词符在词根前):
“*ood”:food、blood…
后截词(截词符在词根后):
“Comput*”:compute、computer、computerized、computerization…
中间截词(截词符在检索词中间):
“co?e”:
“co*e”:
2.2 信息检索的技术与策略
2.2.1 信息检索基本技术

3.词间位置检索
W(With)算符:
A(W)B 表示A、B两词必须紧挨且位置关系不可颠倒。
X(W)ray:x ray和x-ray
IBM(W)PC:IBM PC和IBM-PC
A(nW)B表示A、B间最多可插入n个单词且位置关系不可颠倒。
Computer(1W)retrieval:computer information retrieval,computer document retrieval
N(Near)算符
A(N)B表示A、B两词必须紧密相邻,词间不容许插入任何词,但词序可颠倒。
A(nN)B表示A、B两词间可插入n个单词,且词序可变。
A(1N)B:A in B,B of A。
Cotton(2N)processing:cotton processing、processing of cotton、processing of Chinese cotton。
F(Field)算符
A(F)B表示A、B检索词必须同时出现在同一记录的同一字段(仅限题名、文摘字段),词序、中间可插入单词数不限,
但需指定所要查找的字段(如AB、TI、DE、AU等)。
2.2 信息检索的技术与策略
2.2.1 信息检索基本技术
Pollution(F)control/AB 表示检索出文摘字段中同时含有pollution和control两词的文献记录。
L(Link)算符、SAME算符
4.限定字段检索
限定子段检索指在检索时,计算机只在限定字段内进行匹配运算,以提高检索效率和查准率。
5.限定范围检索
通过限制数字信息的检索范围,以达到优化检索的方法。
6.加权检索
基本方法:在每个检索词后给定一个数值表示其重要程度,这个数值称为权,在检索时,先查找这些检索词在数据库
记录中是否存在,然后计算存在的检索词的权值总和。权值之和达到或超过预先给定的阈值,该记录即为命中记录。
7.精确与模糊检索
2.2 信息检索的技术与策略

2.2.2 信息检索策略
检索策略就是在分析课题内容的基础上,确定检索系统、检索途径和检索词,
并科学安排各词之间的位置关系、逻辑联系和查找步骤等。
2.2 信息检索的技术与策略
2.2.2 信息检索策略
信息需求分析是让检索
者了解检索目的,明确课题
的主题或主要内容,课题所
涉及的学科范围,所需信息
的数量、出版类型、年代范
围、涉及语种、已知的有关
作者、机构,课题对查新、
查准和查全的指标要求等。
1、检索策略的制定
信息需求分析
检索词的选取应适当尽可能地
考虑其相关的同义词、近义词
作为检索词,避免使用低频词
或高频词。选用国外惯用的技
术术语。尽量使用代码,以提
高查全率。
选择数据库
根据检索需求,选
择相应的数据库。
确定检索词
利用布尔逻辑运算符、位置运算
符、截词符和字段符等,对各检
索词进行准确、合理地逻辑和位
置组合编制出检索提问式,执行
检索。
编制检索式、执行检索
当命中文献太多时,可进行缩检,对检
索策略进行细化;当命中文献太少时,
应进行扩检,对检索策略扩展 。
调整检索式,优化策略
2.2 信息检索的技术与策略
2.2.2 信息检索策略
2、检索途径
内容特征途径
题名途径
主题途径
分类途径
外表特征途径
代码途径
3、检索效果的评价
责任者途径
机构名称途径
编号途径
检索效果是指检索结果的有效程度,反映了检
索系统的检索性能和检索能力。评价检索效果
常用的指标有收录范围、查全率、查准率、响
应时间和输出形式等,其中,查全率和查准率
是最重要的也是最常用的指标。
其他途径
2.3 信息检索的语言和工具
2.3.1 信息检索语言
1、信息检索语言的概念
信息检索语言是人们在加工、存储及检索信息时所使用的标识符号,也就是
一组有规则的、能够反映出信息内容及特征的标识符。检索语言是标引人员与
检索人员之间进行交流的媒介,也是人与检索系统之间进行交流的桥梁,实质
上就是双方之间约定的共同语言。
2、信息检索语言的作用
信息
存储
文
献
信
息
信息
检索
用
户
信
息
主
题
主
题
信
息
检
索
语
言
标引
主标
题引
标引
检标
索引
检
索
系
统
检
索
结
果
2.3 信息检索的语言和工具
2.3.1 信息检索语言
3.信息检索语言的种类
就其结构原理来划分,信息检索语言主要有 :
等级体系分类语言
分类语言
信
息
检
索
语
言
主题语言
名称语言
代号语言
引文语言
分面组配分类语言
标题词语言
元词语言
叙词语言
关键词语言
2.3 信息检索的语言和工具
2.3.1 信息检索语言
3.信息检索语言的种类
按照信息特征描述划分,信息检索语言主要有 :
信
息
检
索
语
言
描述文献外部特征的语言
书名、刊名、篇名等
著者、编者、译者等
号码(报告号、专利号、标准号等)
文献类型
文献出版类型
分类语言
描述文献内部特征的语言
主题语言
标题词语言
元词语言
叙词语言
关键词语言
2.3 信息检索的语言和工具
2.3.1 信息检索语言
4.信息检索语言的构成及其要求
1)构成
从语言学的角度分析信息检索语言的构成应分为三个部分
用于组成词汇的
表达基本
形式化符号,通
概念意义
常有字母、数字
的词汇
或文字等。
控制语言使用的语
法,据此把基本的
词汇组合起来表达
更为复杂的概念意
义,主要体现为各
种标引规则、组配
规则、引用次序等
2.3 信息检索的语言和工具
2.3.1 信息检索语言
4.信息检索语言的构成及其要求
2)要求
检索语言应该能够描述文
献和提问的特征,即要有充分的表达
能力,能全面、准确地描述任何复杂
的文献信息以及提问内容。
具体要求如下:
专 惟
指 一
性 性
灵
活
性
检索语言应该能够联
系和沟通标引与检索两方面,
即要求在语言的使用上应具有
相当的一致性,能保证取得共
同的理解和准确无误的沟通。
对此的具体要求有:
易 严 户 障 文
用 谨 保 和 献
性 性 障 用 保
2.3 信息检索的语言和工具
2.3.2 检索工具
1. 检索工具的定义与类型
检索工具是人们用来报道、存储和查找各类信息的工具。包括传统
的二次、三次印刷型检索工具,缩微阅读检索工具,基于计算机的光盘
检索系统、联机检索系统,以及基于Internet的网络信息检索系统、网
上工具书、搜索引擎、Archie、Wais等各种信息检索工具和检索系统。
按照检索手段的不同,检索工具可分为手工检索工具、机械检索工
具和计算机检索系统。
按照著录形式的不同可分为:目录型检索工具、题录型检索工具、
索引型检索工具、文摘型检索工具、全文型检索工具等。
按照载体形式的不同可分为:书本式检索工具、卡片式检索工具、
缩微式检索工具和机读式检索工具等。
2.3 信息检索的语言和工具
2.3.2 检索工具
2.手工检索工具
1)检索类工具书
索引
按著录内容划分
文摘
题录
目录
目录通常是以文献的
“本”、“种”、“件”等
为单位,对一批相关文献外
表特征的揭示和报道.
例如:《全国新书目》、《
全国总书目》、《全国报刊
简明目录》等。
题录报道和揭示单
篇文献的外表特征,是
在目录的基础上发展起
来的一种检索工具。它
与目录的主要不同点在
于著录的对象不同,目
录的著录对象是整部文
献,而题录的著录对象
是文献中的论文或部分
内容。例如:美国《化
学题录》、《中文科技
期刊题录数据库》等。
文摘是系统著录、报
道、积累和揭示文献信息
外表特征和内容特征的检
索工具,是重要的二次文
献。它是对文献中的论文
或内容进行浓缩,概括地
描述其主要论点、数据、
结论等,并注明其出处,
按一定的规则编排起来的
一种检索工具。文摘分三
种:指示性文摘、报道性
文摘和评论性文摘。例如
:《新华文摘》、《经济
学文摘》等 。
索引是将文献信
息中的题名、人
名、地名、字句
及参考文献等分
别摘录出来,并
注明出处,按一
定的规则编排起
来的一种检索工
具。
例如:《经济科
学论文索引 》《
社会科学引文索
引》等。
2.3 信息检索的语言和工具
2.3.2 检索工具
2.手工检索工具
1)检索类工具书——目录
2.3 信息检索的语言和工具
2.3.2 检索工具
2.手工检索工具
1)检索类工具书——题录
2.3 信息检索的语言和工具
2.3.2 检索工具
2.手工检索工具
1)检索类工具书——题录
Ei CPX Web (《工程索引》网络版记录题录显示格式)
2.3 信息检索的语言和工具
2.3.2 检索工具
2.手工检索工具
1)检索类工具书——文摘
2.3 信息检索的语言和工具
2.3.2 检索工具
2.手工检索工具
1)检索类工具书——文摘
Ei CPX Web (《工程索引》网络版记录文摘显示格式)
2.3 信息检索的语言和工具
2.3.2 检索工具
2.手工检索工具
1)检索类工具书——索引
Ei CPX Web (《工程索引》网络版索引显示格式)
2.3 信息检索的语言和工具
2.3.2 检索工具
2. 手工检索工具
2)词语类工具书
词语类工具书包括各类字典、词典,主要提供字词的形、音、义和使用方法,以
及学科名词术语的含义、演变和发展。字典以字为单位,按一定次序排列,说明形体、
读音、意义和用法;词典,也作辞典,以词语为单位,按一定次序排列,解释词汇的
概念、含义和用法。
例如:《辞海》、《汉语成语大词典》、《社会科学大词典》等。
3)资料类工具书
资料类工具书能够为读者提供各种基本知识或某一课题的具体资料。主要包括百科
全书、年鉴、手册、名录、类书、政书等。
年鉴是汇辑
一年内时事
动态、学科
发展和各项
统计资料等
重要资料,
按年度出版
的工具书。
手册也
称指南、便
览、大全等,
是把某一学
科或某一专
题的概括性
又具体实用
的知识、资
料和数据汇
编在—起。
名录是专门
收录人名、
地名、机构
名以及其他
事物名,按
照一定规则
进行排序,
并予以简要
揭示和介绍
的工具书。
政书是汇集历代或
某一朝代的政治、军
事、经济、文化、外
交等方面的法律、法
令和法规制度史料的
工具书。
类书是收录古代文
献资料,按类别或韵
目编排,提供检索、
征引使用的工具书。
百科全书是人类知识的
总汇,是记录人类知识最全
面、最系统的大型综合性工
具书。它概述了人类一切知
识领域的基本资料,对每一
学科提供定义、原理、方法、
历史及现状、系统和参考书
目等方面的资料,被誉为
“工具书之王”、“没有围
墙的大学”。
2.3 信息检索的语言和工具
2.3.2 检索工具
2. 手工检索工具
4)表谱类工具书
表谱类工具书是以表格或其他较为整齐的形式,记录史实、时间、地理等资料,
并附以简略的文字说明,以反映史实和时间。
主要包括年表、历表和专门性历史表谱三种类型。
年表是按年代顺
序编制,专供查考历
史年代、历史纪元及
历史大事的检索工具。
如《中华人民共和国
大事记》等。
历表是一种把不
同历法的历日按一定的
次序汇编在一起,以相
互对照的表格,提供查
找和换算不同历法的年、
月、日的工具书。《中
国先秦史历表》
专门性历
史表谱主要用
于查考人物、
职官、地理和
数据等专题资
料,如《中西
回史日历》等。
2.3 信息检索的语言和工具
2.3.2 检索工具
2.手工检索工具
5)图录类工具书
图录类工具书是以图形、图像、符号等为主体,附以简略的文字说明,以反映各
种事物、人物的空间特征和形象特征的工具书。
它包括地图、历史图录、文物图录、人物图录、艺术图录、科技图像等。
地图是地球表面自
然和社会现象在平
面图上的缩影,以
反映各种事物和景
象的地理分布及其
在空间与时间上的
相互制约、内在联
系和发展动态。
历史图录是以
图形、图像等
揭示历史人物
和事物的工具
书。
2.3 信息检索的语言和工具
2.3.2 检索工具
2. 手工检索工具
6)边缘类工具书
边缘类工具书主要指那些介于工具书与非工具书之间,既具有一般
图书的阅读功能,又具有工具书的查检功用的文献。它主要包括资料汇
编、史书、方志等。资料汇编有针对性地摘编文献信息的片断或全文,
按专题或学科分类编排,提供读者阅读或查检。包括法规资料汇编、条
约资料汇编、统计资料汇编等。
2.3 信息检索的语言和工具
2.3.2 检索工具
3. 机械检索工具
机械检索工具是手工检索工具向计算机检索系统过渡的中间检索工
具。它主要包括两种类型:机电检索工具(如打孔机)和光电检索工具
(如缩微机)。机械检索工具利用机械装置改进信息资源的存储和检索
方式,但是只能对某一固定存储形式的信息资源进行特定检索,过分依
赖于设备,检索操作复杂,成本很高,并且检索质量和效率也不理想。
所以很快被计算机检索系统所取代。
2.3 信息检索的语言和工具
2.3.2 检索工具
4. 数据库
1)数据库的概念
数据库(DB,Database)是长期储存在计算机内,有组织的、可共享的数据
集合。数据库中的数据按一定的数据模型组织、描述和储存,具有较小的冗余度,
较高的数据独立性和易扩展性,并可在一定范围内为各种用户所共享。
● 数据库管理系统(DBMS,Database Management System)是位于用户与操作系统
之间的一个数据管理软件。
基
本
功
能
①数据定义,用户通过它可以定义数据库中的数据对象;
②数据操纵功能,使用它可以实现如插入、删除和修改等数据库的基本操作;
③数据库的运行管理,包括数据的安全性、完整性、多用户对数据的并发使用及发生故障后的系统恢复;
④数据库的建立和维护等。
● 数据库系统(DBS,Database system)是指在计算机系统中引入数据库后构成的
计算机应用系统。数据库系统一般由数据库、操作系统、数据库管理系统及相关管理工具、
应用系统、数据库管理员和用户构成。
2.3 信息检索的语言和工具
2.3.2 检索工具
4.数据库
按收录的文献类型划分
2)数据库的类型
按信息处理层次划
分
书
目
数
据
库
文
摘
数
据
库
全
文
数
据
库
书
目
及
图
书
全
文
数
据
库
学
位
论
文
数
据
库
期
刊
论
文
数
据
库
专
利
数
据
库
按收录文献信息的范围划分
产
品
数
据
库
综合性数据库
文本数据库
按
媒
体
信
息
划
分
声音数据库
专业性数据库
网络数据库
单机数据库
联机数据库
数值数据库
图像数据库
多媒体数据库
视频数据库
按服务模式划分
2.3 信息检索的语言和工具
2.3.2 检索工具
4. 数据库
3)数据库的结构
字 段
文档
是数据库中数据组
织存储的基本形式,是
数据和信息的有序集合,
由若干条记录组成,一
个或若干个文档构成一
个数据库。通常一个数
据库至少包括一个顺排
文档和一个或多个倒排
文档。
记录
是数据库的基本单元,
是对某一实体属性进行描述
的结果。一个数据库可以有
一个或多个文档,一个文档
由若干条记录构成,而一条
记录由若干字段组成。在文
摘数据库中,一条记录相当
于检索刊物中的—条文摘款
目。
是记录的基本组成单元,是有关
一篇文献或称一条记录的基本数据
单元,每一个字段都反映该篇文献
的一个方面的信息,组合在一起形
成对一篇文献信息的内容特征和外
表特征的完整描述。在文摘数据库
中,一条记录应包含原始文献的题
名、作者、出处、出版时间、分类
号、文摘、主题词或关键词等字段。
每一个字段都有一个相应的标识符,
以便计算机识别。
2.3 信息检索的语言和工具
2.3.2 检索工具
5. 计算机检索系统
计算机检索系统是借助计算机技术、通信技术、光盘技术、网络技术等信息技术建立的存储
和检索信息的检索工具。检索系统由硬件和软件组成,硬件主要包括计算机主服务器、检索终端、
数据输出设备等。软件主要包括检索程序和数据库等。检索软件是检索系统的灵魂,负责管理数
据库和处理检索提问,它决定系统的检索能力。
计算机检索系统一般可分为光盘检索系统、联机检索系统和网络检索系统等。
1)光盘检索系统
光盘检索系统是指利用计算机、光盘驱动器和光盘数据库及其检索软件建立起来的信息检
索系统,由计算机、光盘数据库、检索软件等组成。
光盘网络检索系统由光盘服务器、计算机局域网、光盘库或光盘塔、检索软件等组成。
与手工检索相比,光盘检索的可检信息量大,一套《四库全书》印刷版有3 000多册,而
光 盘版10多张盘片即可容纳下。光盘检索功能强大,检索入口多,检索速度快,检索及输出灵
活方便。与联机检索相比,光盘检索价格低廉,检索方法简单容易,规格统一,容易复制,便
于保存。其缺点是时效性不够,检索范围受光盘数据库的限制,更新不够及时,一般是定期更
新(快者1个月,慢者1年),因此信息的获得比国际联机检索慢。
2.3 信息检索的语言和工具
2.3.2 检索工具
5. 计算机检索系统
2)联机检索系统
是指用户利用终端设备(包括检索终端、调制解调器和打印机),通过国际(卫星)通信
网络,与本地计算机检索系统或远程计算机检索系统的主机连接,从而检索世界各地存储在计
算机数据库中的信息资料。联机检索系统是一个典型的计算机检索系统,能完成数据收集、分
析、加工处理、存储、传递通信和检索信息的全过程,由联机服务中心的主计算机、检索终端、
通信网络、联机数据库、检索软件等组成。我国国内用户采用该方法查找国外计算机检索系统
中的信息被称为国际联机检索。
联机检索系统主要有以下四种服务方式:
回溯检索是用
户对检索系统中积
累多年的文献信息
数据库进行检索,
查找一定时间范围
内或特定时间以前
的文献信息的一种
联机检索方式。
定题检索
是指在回溯检
索的基础上,
定期从文献数
据库中检索出
回溯检索日之
后出现的新的
文献信息的一
种联机检索方
式。
联机订购。联
机检索的结果通常
是一些文摘或题录
形式的二次文献。
联机检索系统可以
为用户提供原始文
献的联机订购服务
。
电子邮件 联机检
索系统为用户提供Email和电子邮政的功
能。用户输入E-mail
号码和通信内容,就
可以在几秒钟内接收
到本需耗时几天的信
件投递。
2.3 信息检索的语言和工具
2.3.2 检索工具
5. 计算机检索系统
3)网络检索系统
网络检索是指通过因特网检索和获取网上电子信息。网络检索系统是通过因特
网提供网络数据库、出版物、书目、动态信息等网上信息资源查询和利用的检索系
统。一般由计算机服务器、用户终端、通信网络、网络数据库等组成,其特点是方
法简单、灵活、方便、时效性强、费用低。
发出检索请求
匹配检索
服务器
客户机
返回检索结果
返回检索结果
客户机/服务器请求与响应示意图
数据库
2.3 信息检索的语言和工具
2.3.2 检索工具
5.计算机检索系统
3)网络检索系统
早期的网络检索工具主要是基于传输和下载网上信息,包括远程登录(Telnet)、文件
传输服务(FTP)、电子邮件(E—mail)、电子公告栏(BBS)、新闻组(USENET)等。
FTP获取信息资源的最大问题是查找需要的资料必须预先知道这些资料存放在哪个文件服务
器中,随着FTP服务器的增多,这个问题变得越来越严重,于是人们就开发出Archie、
WAIS、Gopher系统,以解决寻找FTP资源的困难。
Archie Server又称为文档查询服务器,是检索匿名FTP资源的工具。为了从匿名FTP
服务器上下载一个文件,用户必须知道这个文件的所在地,即必须知道该文件存放在哪台服
务器的哪个目录上。Archie就是帮助用户在因特网的FTP服务器上寻找文件的工具,用户只
要给出所要查找文件的全名或部分名字,Archie Server就会查找在哪些FTP服务器上存放
着这样的文件,然后用户可以使用FTP软件下载该文件。WAIS(广域消息服务)是一种数
据库索引查询服务。Archie所处理的只是文件名,而WAIS则可以对文件内容进行查询。
Gopher是基于菜单驱动的因特网文本信息检索工具,提供的信息仍然有限。
具有WWW检索功能的检索系统是随着网上巨量信息的出现而开发的,常用的如网络
数据库检索系统、搜索引擎、多媒体信息检索系统等。
完