信息检索技术与方法

Download Report

Transcript 信息检索技术与方法

第二章 信息检索技术与方
法
第一节 信息检索及其类型
第二节 信息检索技术
第三节 检索工具
第一节 信息检索及其类型
一、信息检索的概念
二、信息检索的类型
三、信息检索的意义
一、信息检索
信息检索:是指将信息
(主要指文献信息)按一定
的方式组织和存储起来,并
根据用户的需要找出相关信
息的过程。
存储
信息检索
检索
存储:是对信息进行著录、
检索:是指面向信息需求
标引、整序,编制检索工
而进行高度选择性的查找
具和建立检索系统的过程。
过程。
原始文献
加工整理
提 问
数据库
检 索
存 储
输 出
检 索
二、信息检索的类型
(一)按检索内容划分
1、书目检索
是以文献线索为检索内容的信息检索。
2、数据检索
是以数据为检索内容的信息检索,要求从检
索系统存储的大量原始调查数据和其它统计数据中
查出所需的数字资料。
3、事实检索
是以具体事项为检索内容的信息检索,要求从检索
系统存储的各种原始信息资源中查出专门的事实材料。
4、全文检索
即检索系统存储的是整篇文章或整本图书。
5、图像检索
即以图形、图像或图文信息为检索内容的信息检索。
6、多媒体检索
是以文字、图像、声音等多媒体信息为检索内容的
信息检索。
(二)按是否使用检索工具划分
1、直接检索
就是指利用一次文献进行检索,这是以前比较常用的
一种查找方法。所花时间多和精力大,检出文献少。
2、间接检索
就是指利用各种检索工具获得文献线索,再根据线索
去查找原始文献线索的方法。
(三)按信息检索手段划分
1、传统信息检索
就是手工信息检索,是利用各种印刷型检索工具来
查找文献的一种方法。
2、现代信息检索
现代信息检索即计算机信息检索,是指利用计算机
和网络来处理和查找文献信息的检索方式。
三、信息检索的意义
1、信息检索是现代人才的基本生存技能
2、信息检索是现代人才信息素质的重要方面
3、信息检索是科学交流的重要途径
4、信息检索是开发信息资源的工具
5、信息检索是管理决策的基础
6、信息检索是继承和借鉴前人成果,避免重
复研究的必由之路
7、信息检索是治学之道
第三节
检索技术
一、概念检索
二、布尔逻辑运算符组配检索
三、截词检索
四、字段限制检索
五、位置运算符
六、检索技巧和方法
一、概念检索
检索标识是具体的检索词或词组,每
个检索词表达一个概念,具体检索时,将
检索词与数据库中的文献特征标识进行类
比,两者相同,则该记录为命中文献。
二、 布尔逻辑算符组配检索
布尔逻辑组配运算是采用布尔代数中的
逻辑“与”逻辑“或”、逻辑“非”等算符,
将检索提问式转换成逻辑表达式,限定检索
词在记录中必须存在的条件或不能出现的条
件。凡符合布尔逻辑所规定的条件的文献,
既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“或”
2、逻辑“与”
3、逻辑“非”
1、逻辑“或”(和)
—————————————————
A
B
用符号“or”或“+”表示,其逻辑表达式为:
A or B
或 A+B
其意义为检索记录中凡含有检索词A或检索词B,
或同时含有检索词A和B的,均为命中文献。
2、逻辑“与”
————————————————
A
B
用符号“and”或“*”表示,其逻辑表达式为:
A * B 或 A and B
其意义为检索记录中必须同时含有检索词A和B
的文献,才算命中文献。
3、逻辑“非”
————————————————
A
B
用符号“not”或“-”,其逻辑表达式为:
A not B
或
A-B
其意义为:检索记录中含有检索词A,但不能
含有检索词B的文献,才算命中文献。
三、截词检索
截词检索主要是利用检索词的词干或不完整的词形
进行检索。
截词符一般用“?”、“ :”、“#”表示
1、后方截词:用于前方一致的派生词检索。
如:信息?
则表示在数据库中含有信息、信息技术、信息检索等
方面的文献记录均为命中文献。
2、前方截词:用于后方一致的派生词检索。
如:?经济
则数据库中含有经济、工业经济、农业经济等方面的
文献均为命中文献。
3、有限截词
在检索词后面加上一个或一个以上(最多4
个)的“?”,空一格,再加一个“?”。如:
Comput??? ? 可检索出:
Computer,Computers,Computing
截词检索在不同的计算机检索系统中规
定不同,请使用时注意。
四、字段限制检索
为了缩小检索范围,可利用字段代码来限制
检索词出现的字段,以提高检索速度和命中率。
如:rice in ti(表示只在题目字段中查找文献)
rice in de(只在主题词中查找)
rice in ab(只在文摘中查找)
au = Smith,J.C (查作者为Smith,J.C 的
文章)
py = 1998(只查1998年的文章)
la =Chinese (只查语种为中文的文献)
六、检索的技巧和方法
1、检索策略
计算机检索,实际上是由计算机将用户输入的检
索策略与系统中存储的文献特征标识及逻辑组配关系
进行类比、匹配,并把完全匹配的文献输出的过程。
检索策略是科学地运用检索词和逻辑运算符正确
地构造逻辑提问式的原则和方法。其核心内容在于检
索策略的构造与检索的步骤。
信息检索方法
直接检索法
间接检索法
追溯检索法
循环检索法
顺查法
倒查法
抽查法
间接检索方法
• 顺查法:按时间顺序,从过去到现在,
由远及近地利用检索系统进行文献信息
检索的方法。
• 倒查法:利用检索工具从最近期向早期
查找。
• 抽查法:根据检索课题的特点,选择有
关课题的文献发表较多的年代,利用检
索工具进行重点检索的方法。
追溯检索法
是指不利用检索工具,而是利用
文献后面所列的参考文献,逐一追
查原文(被引用文献),然后再从
这些原文后所列的参考文献目录逐
一扩大文献的信息范围,一环扣一
环地追查下去的方法。
追溯检索法
是指不利用检索工具,而是利用
文献后面所列的参考文献,逐一追
查原文(被引用文献),然后再从
这些原文后所列的参考文献目录逐
一扩大文献的信息范围,一环扣一
环地追查下去的方法。
信息检索途径
责任者途径
题名途径
分类途径
主题途径
序号途径
引文途径
信息检索的步骤
课题分析
选择相关信息资源
制定检索策略,选择检索入口
试验性检索和修改检索策略
检索结果的评价
课题分析
1 明确检索目的
* 需要关于某一课题的系统详尽的信息
* 需要关于某课题的最新信息
* 了解一些片段信息,解决一些具体问题
2 明确课题的主题或主要内容
要形成若干个既能代表信息需求又具有检
索意义的主题词(关键词),及其关系
3 课题涉及的学科范围
4 所需信息的数量、语种、年代范围等指标
制定检索策略,选择检索入口
• 检索策略是为完成检索课题,实现检索
目的,对检索的全过程进行谋划之后所
制定的全盘检索方案。
• 检索式:是检索策略的逻辑表达式,是
用来表达用户检索提问的,由基于检索
概念产生的检索词和各种组配算符构成。
选择检索入口(检索途径/字段)
•
•
•
•
•
•
题名
责任者
篇名
主题词
文摘
关键词
检索结果的评价
• 查全率:从数据库中检出的相关
文献量与数据库中总文献量的比
率。
• 查准率:指数据库中检出的相关
文献量与检出的文献总量的比率。
索原文
• 原文的含义
• 如果索取原文
什么是原文
• 原文就是原始文献。相对于题
名、文摘、参考文献等从不同
侧面描述文献的检索标识和著
录信息来说,原文就是我们所
要查找的文献本身。
如何索取原文
• 通过相应的链接直接获取原文
• 通过专门收藏机构获取原文
• 在相应的数据库或检索系统中
检索后,直接采取单篇购买方
式获取全文
第三节
检索工具
检索工具:是在不同学科范围内对
某阶段出版的有关文献进行收集、整理
或对新文献加以及时报道的二次文献。
一、检索工具的作用
二、检索工具的特点
三、检索工具的类型
一、检索工具的作用
1、报道作用
2、存储作用
3、检索作用
二、检索工具的特点
1、详细而又完整地记录了文献的外部特征和内部特征。
2、对所著录的文献,标引了可供检索的检索标示。
3、提供必要的检索手段,配备各种体系的索引。
三、检索工具的类型
1、目录
2、题录
3、文
摘
4、索
引
是一种著录文献题
是按照某种明白易
是将书籍、期刊等
懂的顺序编排的文献清
文献中所刊载的论文题
录和内容摘要的检索工
具。
单或清册,通常以一个
目、作者、出处以及讨
完整的出版单位或收藏
论或涉及的学科主题、
单位为著录的基本单元。
名词术语等分别摘录出
它对文献的描述比较简
来,并按照一定的原则
单,只记述其外部特征。
和方法排列起来的一种
检索工具。
•
•
•
•
5、字典、词典
6、百科全书
7、类书、政书
8、年鉴、综述、手册、名录
9、表谱、图录
• 1. 指示线索型检索工具(二次文献):
(1)书目、馆藏目录(包括联合目录、各
种档案基本目录);(2)索引:包括报刊、
文集、代号、人名、机构、地名索引;
(3)文摘;工具书指南;
• 2.提供具体信息的工具书(三次文献):
(1)词典;(2)百科全书;(3)传记资料;(4)
手册;(5)机构名录;(6)地理资料;(7)统
计资料;(8)年鉴;(9)政府文献;(10)
引语工具书;(11)表册和图谱;(12)
类书和政书。
索引
• 是“某一文献集合包含的文献单元或概
念的系统性指南”。没有索引,期刊、
报纸中多得不计其数的资料就无法利用,
收录在图书(如文 集)中的论文也难以
查到。索引可以分为篇目索引和内容索
引。篇目索引的主要作用是查阅报纸、
期刊、会议录中的文章。期刊索引、报
纸索引、会议录索引和文集索引均以篇
为检索单元,著录文献著者姓名和出处。
文摘
• 是一种既揭示文献外部特征又通过 摘录
文献要点报道文献内容的检索工具。
• 字典,词典按编撰目的可分为语文词典、
专科词典。语文词典是汇集词语(或词
语的某些部分),根据一定的编纂目的
加以处理,通常按字顺排列,供人们查
考的工具书。
• 百科全书是荟萃一切门类或某一门类知
识、以概要方式提供有关信息的多功能
工具书。
• 年鉴:年鉴是以描述和统计的方式逐年提
供某年度某一领域信息的工具书 ,或者
说是相应年度内信息的汇编。
类书、政书
• 类书是辑录中文文献中的史实典故、名
物制度、诗赋文章等,按类或按韵编排,
以便寻检和征引的工具书。类书是我国
类似于百科全书式的资料汇编,在各条
目下罗列或采摘各种文献所记载的有关
原始资料,加以编撰而成,可用于查找
辞藻典故和诗词文句出处,查考史实和
事物掌故,亦可用于辑佚和校勘古籍。
上次课思考题答案
• 1、什么是信息意识?
– 信息意识:对新知识新信息的敏感力、观察力、判
断力、吸收能力以及对开发利用信息知识的主动性
• 2、文献按加工类型可以分几钟?零次文献(灰色文献)
一次文献 二次文献 三次文献
• 3、用图表描述知识、信息、文献的关系。
文献 信息
知识
知识
• 1、用图表来表示“布尔逻辑运算符”的
• “或” “与” “非”
• 2、信息检索方法有几种?
• 3、什么是文摘?