第二章信息检索基础知识

Download Report

Transcript 第二章信息检索基础知识

第二章 信息检索基础知识
第一节 信息检索及其类型
第二节 信息检索语言
第三节 信息检索技术
第四节 信息检索策略
第一节 信息检索及其类型
一、信息检索的含义
二、信息检索的类型
一、信息检索的含义
信息检索:是指将信息
(主要指文献信息)按一定
的方式组织和存储起来,并
根据用户的需要找出相关信
息的过程。
存储
信息检索
检索
存储:是对信息进行著录、
检索:是指面向信息需求
标引、整序,编制检索工
而进行高度选择性的查找
具和建立检索系统的过程。
过程。
原始文献
加工整理
提 问
数据库
检 索
存 储
输 出
检 索
二、信息检索的类型
(一)按检索内容划分
1、书目检索
是以文献线索为检索内容的信息检索。
2、数据检索
是以数据为检索内容的信息检索,要求从检
索系统存储的大量原始调查数据和其它统计数据中
查出所需的数字资料。
3、事实检索
是以具体事项为检索内容的信息检索,要求从检索
系统存储的各种原始信息资源中查出专门的事实材料。
4、全文检索
即检索系统存储的是整篇文章或整本图书。
5、图像检索
即以图形、图像或图文信息为检索内容的信息检索。
6、多媒体检索
是以文字、图像、声音等多媒体信息为检索内容的
信息检索。
第二节 检索语言
一、检索的基本原理
二、检索语言的定义
三、检索语言的类型
一、信息检索的基本原理
信息检索的核心是用户信息需求与文献信息
集合的比较和选择, 是两者匹配的过程。
为了顺利实现这种匹配,两者必须依赖统一
的交流“语言”,以此来描述文献信息内容的特
征,同时也以此来描述用户需求特征。只有两者
采用共同的“语言”,才能把文献特征的标识与
需求特征的标识彼此对应,完成检索的标识匹配
过程。
这种信息交流中沟通双方的“语言”就是检
索语言
二、检索语言
1.定义:
是从自然语言中精选出来的一整套词汇、
符号,用来对文献内容和信息特征进行
概括和规范的一种人工语言。它是文献
信息工作者用来描述文献特征,检索者
用来表达检索提问的语言,是沟通存储
过程和检索过程的桥梁,是信息检索全
过程得以顺利实现的语言保证。
2.检索语言所具备的功能
(1) 对文献的信息内容及其外表特征加以规
范化的标引;
(2) 对内容相同及相关的文献信息加以集中
或揭示其相关性;
(3) 可使文献信息的存贮集中化、系统化、
组织化,便于检索者按一定的排列次序进行
有序化检索;
(4) 便于将标引用语和检索用语进行相符性
比较。
3.检索语言的类型
检
索
语
言
的
类
型
表述文献外表
特征的语言
题名
责任者
号码
引文
分类法
表述文献内容
特征的语言
主题法
标题词法
叙词法
关键词法
3.1分类检索语言
• 分类检索语言:是用分类号和相应的
分类款目名称来表达信息内容的主题
概念,并按学科体系的逻辑次序将信
息资源系统地加以划分和组织的语言.
分类语言能反映事物的从属派生关系,
便于按学科门类进行族检索。
3.2主题检索语言
主题检索语言:是采用描述文献主
题的语词排列主题标识,提供各种检索
词语的途径。
一般由主题词表及其编制和使用规
则组成。
主题检索语言的基本类型
 1)标题法(System of subject heading)
 2)单元词法(Uniterm indexing)
 3)叙词法(Descriptor indexing)
 4)关键词法(Keyword indexing)
第三节
计算机信息 检索技术
一、布尔逻辑运算符组配检索
二、截词检索
三、字段限制检索
四、位置运算符
一、 布尔逻辑算符组配检索
布尔逻辑组配运算是采用布尔代数中的
逻辑“与”逻辑“或”、逻辑“非”等运算
符,将检索提问式转换成逻辑表达式,限定
检索词在记录中必须存在的条件或不能出现
的条件。凡符合布尔逻辑所规定的条件的文
献,既为命中文献。
布尔逻辑运算符
————————————
1、逻辑“与”
2、逻辑“或”
3、逻辑“非”
1.逻辑与(AND)* 缩检
• 假设A和B是两个检索词,
则A*B表示A与B必须同
时存在。运用“逻辑与”
表达式,有助于明确限
定检索范围。
逻辑与(AND)* 缩检
• 例如用户想在题名中检索有
关新闻美学的文献,如只输
入“新闻”或“美学”,则
命中文献太多,且有许多不
是自己所要的。如果输入
“新闻*美学”,则检索出
题名中同时含有“新闻”和
“美学”的文献,检索结果
大大缩小。
1.逻辑与(AND)* 缩检
• 换一个角度看,“逻辑与”又
能防止漏检。
•
例如,用户输入“新闻美
学”作为检索词,可命中《戈
公振的新闻美学实践》这样的
文献,但漏检了《新闻的美学
属性》、《新闻标题中的美学》
这些文献。如果用“新闻*美学”
来进行检索,则上述三篇文献
都检中。
2.逻辑或(OR)+ 扩检
• A+B,表示A或B中
任何一个词存在都
可以(当然A和B同
时存在也可以)。
“逻辑或”表达式,
有助于提高查全率
2.逻辑或(OR)+ 扩检
• 例如某用户想查找研究杜甫的
文献,检索途径选择题名后,
输入“杜甫”,命中540篇。但
考虑到研究杜甫的文献题名中
未必都出现“杜甫”两字,也
可能会出现“杜诗”、“李
杜”,于是改用“杜甫+杜诗+
李杜”表达式,结果命中608篇。
3.逻辑非(NOT)- 缩检
•
A-B,表示A必须存
在,但不能有B。“逻
辑非”表达式,主要用
于排除那些与检索意图
无关的文献。
• 例如:“计算机”NOT“文献检
索”,表示查找文献内容中含
有“计算机”而不含有“文献
检索”的那部分文献。
4.逻辑检索的优先级别
•
当布尔运算符在一个检索式中连
续出现时,它们的“级别”是不同的。
大部分数据库是这样规定的:-优先
级最高,*次之,+最低。
•
例如要查找研究唐宋诗歌的文献,
可以用“(唐+宋)*诗”、“唐*诗+
宋*诗”,而不能用“唐+宋*诗”。
“唐+宋*诗”查找的是含有“唐”的
文献或者同时含有“宋”和“诗”的
文献,这样就把涉及到的唐代、唐姓
的文献都找出来了。
二、截词检索
• 截词检索是预防漏检提高查全率的一种常用
检索技术,大多数系统都提供截词检索的功
能。
• 截词是指在检索词的合适位置进行截断,然
后使用截词符进行处理,这样既可节省输入
的字符数目,又可达到较高的查全率。
• 截词符一般用“?”、“ *”、“#”表示
二、截词检索
(一) 根据截词的位置可以分为
1、后方截词:用于前方一致的派生词检索。
如:信息?
则表示在数据库中含有信息、信息技术、信息检索等
方面的文献记录均为命中文献。
2、前方截词:用于后方一致的派生词检索。
如:?经济
则数据库中含有经济、工业经济、农业经济等方面的
文献均为命中文献。
二、截词检索
• 3.中截词
•
中截词也称屏蔽词。一般来说,中
截词仅允许有限截词,主要用于英、美
拼写不同的词和单复数拼写不同的词。
如organi?ation可检索出含有organisation
和organization的记录。由此可知,中截
词使用的符号为"?",即用"?"代替那个
不同拼写的字符。
(二)按所截断的字符数目来分,分为
有限截词
在检索词后面加上一个或一个以上(最多4
个)的“?”,空一格,再加一个“?”。如:
Comput??? ? 可检索出:
Computer,Computers,Computing
无限截词
截去某个词的尾部,是词的前方一致比较,也称前方一致检
索。在检索词(关键词、主题词)干后加1个截词符 “?”或
“*”。表示该词尾允许变化的字符数不受任何限制。
三、字段限制检索
为了缩小检索范围,可利用字段代码来限制
检索词出现的字段,以提高检索速度和命中率。
如:rice in ti(表示只在题目字段中查找文献)
rice in de(只在主题词中查找)
rice in ab(只在文摘中查找)
au = Smith,J.C (查作者为Smith,J.C 的
文章)
py = 1998(只查1998年的文章)
la =Chinese (只查语种为中文的文献)
四、位置运算符
With:设定需检索的两个词或词组在同一字段中,但
不限制位置的先后。
Near:设定需检索的两个词或词组在同一语句中,相
对于“with”更接近。此外,在使用“near”运算符时
,还可以在该运算符后添加一个数字以便进一步限定
两个词之间的邻近程度,如“near3” 设定需检索的两
个词或词组在同一句子中且相隔不超过3个单词。
第四节 信息检索策略
• 信息检索的要领
•What?找什么?
• Where?哪里找?
•
How?怎样找?
第四节 信息检索策略
•
•
•
•
•
一、什么是检索策略
二、常见的检索策略类型
三、检索策略的制定
四、检索效果的评价
五、信息检索的实施
信息检索的核心
• 是用户信息需求与文献信息
集合的比较和选择, 是两者
匹配(match)的过程。[通过
检索语言匹配]
检索与查找、搜索有什么区别?
检索
查找、搜索
英文
Retrival 或 Retrieval
Search
概念
是从信息集合中识别与获取所
需信息的过程。
过程
有一定的策略,是系统的查找
资料。
随机或更随意一些。
技能
需要一定的专门知识和技能
简单,任意词
用途
课题或专题
日常生活、学习
一、什么是检索策略
• 所谓检索策略广义上是指为实现检索目的而制
订的全盘计划和方案;狭义讲是指检索式。
• 具体而言就是在明确检索目的、分析课题特征
的基础上,选择合适的数据库和检索系统,拟
定检索方案,确定检索词,构建检索提问式,
执行检索并调整检索式,直至获得较满意的检
索结果的全过程。
一、什么是检索策略
• 狭义的检索策略 特指检索过程中构建检
索式的环节。
• 包含检索词的确定,运算符的选择,检
索字段 的设定及限制选项的设置等
• 检索式是用来表达用户提
问的逻辑表达式,是检索
策略的综合体现,通常由
检索词和各种逻辑算符、
位置算符及检索系统中规
定的其他连接符号构成。
二、常用的检索策略类型
• 计算机检索策略是近几年才得到人们的
重视和广泛研究的,很多检索策略只不
过是某种检索方式或检索式构造方法,
真正称得上检索策略的还不多。其中,
美国人鲍纳(Charles Bourne)提出的检
索策略影响较大:
二、常用的检索策略类型
例如:以检索“文献检索课与大学生信息素质培养的研究”课题为
例。 • 1.积木型(Building Block)
分析主题:
– 把检索课题剖析成若干个不同的概念面。
1)确定检索本课题的主要概念:文献检索、信息素质、大学生
– 逐个 查找各个概念。 在每个概念面检索时尽可能
2)“文献检索”的同义词、近义词或相关词:文献检索、信息检
全地列举同义词、 近义词和相关词,用“OR”连接,
索、资源检索、情报检索、文检课、信检课等;
构成针对每个 概念面的检索式,即多个子检索式
3)“信息素质”的同义词、近义词或相关词有:信息素养、信息
– 最后根据课题要求,选用合适的布尔算符把所 有子
检索式连接起来,构成一个总的检索式
能力、信息意识、检索能力等;
– 这种策略类似把各个积木块拼成完整图案,因 此称
4)“大学生”的同义词、近义词或相关词:高校、高等院校、高
等学校等 为积木型检索策略
5)(文献检索+信息检索+情报检索+资源检索+数据库检索+
文检课+信检课)×(信息素质+信息素养+信息意识+信息能力
+信息道德+检索能力) × (大学生+高校+高等院校+高等学
二、常用的检索策略类型
• 2.引文珠形增长(Citation Pearl-Growing)
– 首先检索课题中较为核心的、最专指的概念
面,以便至少检出一篇命中文献或相关信息
– 浏览检出文献,从中选出新的相关检索词,
补充到检索式中,重新检索出更多的命中文
献 这种策略最具交互性,检索词更具
针对性,检 索式在变化中完善,不
– 然后再重复进行浏览选词再检索的过程,直
到 获得理想的最终检索结果为止
足是检索费时较多
二、常用的检索策略类型
• 3.逐次分馏(Successive Fractions)
–先用较宽泛的检索式,确定一个范围较广的
例如:要检索有关“钙通道阻滞剂”的文献,其要求是1994
命 中文献初始集
年用英文发表的,且仅仅是有关人的,检出文献量最多不能
这种策略有利于平衡检索
超过20篇,
– 然后逐步利用各种检索限制或限定措施,逐
的全面性和准确性, 如
步骤如下:①扩检主题词“Calcium
Channel Blockers”,
渐 提高检索式的专指度,缩小命中文献集,
能较好地掌握检索限制和
以便将钙通道阻滞剂及其下属主题词的有关文献全部检索出
直到限定的尺度,可取得相当
得到数量适宜、用户满意的命中文献集
来;②分别用特征词人类(Human)和文献语种限制;③当
为止好的检索效果
文献量还大于所要求的数量时,再用年代限制;④最后再用
主要标引主题词(Major MeSH)限制。
检索策略
• 在计算机检索中,检索策略直接关系到
检索结果的成败,要想构造高水平的检
索策略,不仅要求用户对检索系统十分
了解,还需要对检索课题进行深入的分
析并能灵活运用各种检索方法和技巧。
三、检索策略的制定
(1)列出检索课题的学科范围,主题内容及其检索目标。
(2)选择相关数据库。
(3) 对检索提问进行概念分析,选择能代表各概念面的检索项,
把提问的主题概念转换成适合检索系统的检索词,完成由概
念表达到计算机系统所能接受的检索标识的转换。
(4)拟订检索表达式
(5)编排具体的检索程序
以上步骤不一定按顺序执行,可根据所检课题和所使用的检索系统的情况
灵活运用。其中(3)和(4)是比较重要的。
四、检索效果评价
信息检索效果,就是利用检索系统进行检索服
务时所获得的有效结果。它对用户利用信息的效果
产生直接的影响,是对检索系统的性能和质量检验
的尺度。评价信息检索效果,目的是为了准确掌握
检索系统的各种性能水平,分析影响检索效果的因
素,调节检索策略,改进检索系统的性能,提高检
索效果,满足用户信息检索的需求。
检索效果评价
•
•
•
•
(一)查全率
(二)查准率
(三)查全率与查准率的关系
(四)影响查全率和查准率的因素
查全率指标和查准率指标的评价标准
理论
评价
标准
经验
评价
标准
查
全
率
检出相关文献量
查
准
率
检出相关文献量
-------------------- -----------×100%
检索系统中相关文献总量
----------------------------
×100%
检出文献总量
系统文献库中相关
文献总量对于用户来讲
几乎无从得知。由此可
见,查全率和查准率很
难成为用户自我评价检
索效率的准绳
 通过相关领域从业的人员情况
 通过手头掌握的信息资料
查全率指标和查准率指标的评价标准
例:垃圾填埋中渗透液的处理
• 方案一:检索词选择“垃圾” 、
• 查全率R,查准率P
“处理”,则查全率较高,但查准
• A点:检索词泛指性强,
率较低,即处于A点;
查全率较高,但查准率却
• 方案二:检索词选择“垃圾”
、
非常低;
“填埋”、“渗透液”、“处理”,
• B点:检索词专指性较强,
则查准率较高,而查全率却较低,
查准率高,查全率降低;
即处于B点;
• C,D两点:两种极端的折
• 方案三:检索词选择“垃圾”
、
衷,查全率一般在60%一
“填埋”、“渗透液”,或选择
70%,查准率一般在40%
“垃圾”
、“渗透液”,则查全率
一50%。
和查准率处于折衷点,即C、D点。
提高查全率的方法
 注意相关领域(如近缘学科、交叉学科和边缘学科)的检
索,这是扩大检索范围、提高查全率非常重要而有效的途
径。
 采用分类法或规范化词检索
 分类检索时可以采用更加宽泛的上位类号来检索
 增加同义词或近义词 如:(lung cancer or lung carcinoma)
 计算机检索时可采用模糊检索或运用逻辑“或”检索,放
宽条件。减少使用逻辑“与”、逻辑“非”运算符
 尽可能选择信息收全率高的检索工具,如果一个工具不能
满足信息查全率上的要求,应精心挑选多个工具进行检索
 选词不全是很重要的漏检原因。选词时除参阅相关词表以
外,还应参阅已在手的相关文献或征询有关专家的意见。
提高查全率的方法
将检索词限定到文摘、全部字段等
使用截词符。如:transplant*
查全同义单词的不同拼写方式
如:fibre or fiber
查全缩写与全称
如:“ang 1 7” OR “angiotensin 1 7”
变词组检索为邻近检索
如:“acute pancreatitis” 改为 acute adj2 pancreatitis
提高查准率的方法
提高检索词的专指度
利用逻辑“非”剔除不需要出现的词语
多使用逻辑“与”,减少逻辑“或”运算
符
限制检索词的出现字段
利用文献外表特征进行限制。如增加机构
名、人名、地名、出版物名称等作为限制
检索项
提高查准率的方法
将检索词限定到标题、关键词字段
设定在数据库的某个或若干个子集中检索
例:core clinical journals子集(Medline)
Clinical Medicine大类(Elsevier)
使用词组精确匹配运算符“ ”
例:“renal failure”
五、信息检索的实施
信息检索五步走
如何选择信息源——使用航海指南针
信息获取的思路
问题1
应按照什么步骤完
成信息检索?
这种对信息检索过程公式化
的理解,不能帮助我们真正
把握解决问题的思考方式,
也就无法产生一个全局的检
索思路,以至于最终无法有
效实现检索目标。
信息检索过程是一个检索的操作过
程,如选择数据库、确定关键词、
构造检索式等?
(一)信息检索的一般步骤
5 索取原始文献
4 查找和阅读文献线索
3 确定检索途径、检索方法
2 选择检索工具或检索系统
1 分析检索课题、明确检索要求
(一)信息检索五步走
• 信息检索实质是信息问题解决,信息检
索的一般步骤也应是一个问题解决的过
程。
• 需要具备一定信息素养,结合一定信息
技术使用能力,并在检索过程中将信息
成功应用于批判性思考中,最终解决问
题。
信息检索五步走
分析和利用信息
评价信息
制定策略并实施检索
选择信息源
界定问题
信息检索五步走
假定这样一个生活场景:你所在的单
位主要从事车用燃料的生产和销售,近年来
由于生产原材料的上涨导致利润率有所下降,
开始考虑结合现有市场形式开拓车用替代燃
料的生产。
需要你在较短时间内初步对目前车用替
代燃料的应用情况做一个预调研,并以报告
形式提供给相关同事参考。这一任务该如何
完成?
信息检索五步走
• 第一步:界定问题
界定问题过程首先需要根据待完成的任务,
确定信息问题。
自己是否完全理解待解决问题的相关概念含义?
然后根据信息问题,确定信息需要。
需要查找哪些方面的信息?
需要第一手即时消息还是经过加工的信息?
最终问题解决后应该是一个什么样的报告类型?
信息检索五步走
• 第一步:界定问题
•如何选用恰当的分类方式描述要解决的问题?
•如何选用恰当的主题词描述要解决的问题?
对问题的主题进行分析,形成相关的检索词
(关键词)
主要概念词
次要概念词
—— 检索词
信息检索五步走
选择信息源主要是个信息源的确定过程。
• 第二步:选择信息源
首先确定所有可能的信息源,
然后加以比较,确定其优先顺序。
需要考虑可能存在那些信息源?
哪些信息源又是我可获得的?
在这些可获得的资源中,
哪些是比较易得而有意义的?
最终完成拟定策略的过程。
信息检索五步走
• 第三步:制定检索策略并实施检索
• 信息源中包含的信息可能是海量的,如
果在着手开始检索之前没有一个确定的
检索策略,可能很快你就会在信息中
“迷失”。
• 确定好需要查找的信息源及查找的顺序
之后,就需要确定具体的检索策略,根
据拟定好的优先顺序检索文献信息。
信息检索五步走
• 第四步:评价信息
——在对不同信息源进行检索之后,取得的文献
信息数量可能相当庞大,内容也有相互重复甚
至冲突的地方。这就需要有一定的评价方法对
信息进行筛选,找到那些来源可靠,内容相关
且详尽的文献,剔除错误、过时、不相关的信
息。
信息检索五步走
• 第五步:分析、利用信息
– 筛选后的检索结果来源广泛,内容涉及方方面面。
如何有效组织整理,以提炼出一个综合性的信息内
容,完成报告的编撰是这一步骤的主要工作。
– 此时选用相关的工具将检索结果有效组织,将极大
减少工作量。同时进一步通过阅读确定:哪些信息
是切合需要的?哪些信息表述内容之间存在冲突,
需要进一步考察?并依据相关规范正确引用文献资
源,最终形成文字性的研究成果。
(二)如何选择信息源——
使用航海指南针
• 信息检索无时不有、无处不在
• 信息源种类繁多、特点各异
以下将主要介绍:
如何界定问题
如何选出最有效的信息源
1.界定问题
• 界定问题是信息检索的第一步
• 其内涵主要包括:
1)分析研究问题
2)建立背景知识
3)拟定主题概念
1)分析研究问题
对研究问题的了解越多,所走的弯路越少
• 确定研究问题需要查找的类型、
所属领域、地域范围和哪一时期
的文献资料
• 明确研究目标 ,以确定检索的深
度和广度
1)分析研究问题
• (1)明确检索的目的与要求
撰写论文?项目研究?技术跟踪?申请
专利?
• 分析问题
–
–
–
–
–
研究目标
时间范围
地域范围
前景/事件
·················
(2) 明确课题的主题或主要内容:要形成若干
个既能代表信息需求又具有检索意义的主题概
念,包括所需的主题概念有几个、概念的专指
度是否合适,哪些是主要的,哪些是次要的,
概念之间的关系如何,等等。
(3) 课题涉及的学科范围:搞清楚课题所涉及
的学科领域,是否是跨学科研究,以便按学科
选择信息资源。
(4) 所需信息的数量、语种、年代范围、类型
等具体指标。
1)分析研究问题
• 研究问题分析
——以“车用替代燃料的应用情况研究”
为例
• 首先分析研究问题本身包含的主题概念有哪些?
• 研究问题中可能包括哪些子问题,涉及哪些学科领域?
• 子问题是否过多,需要缩小研究问题的范围?
• 研究问题是否过于狭窄,意义不大,需要扩大研究问题的
范围?
• 需要原始资料或经过专家学者整理过的资料?一般性信息
还是学术性信息?
• 对信息的新颖性要求多高?
• 地域范围的选择是应该越宽泛越好,还是越典型越好?
2)建立背景知识
• 研究问题分析过程中的许多问
题往往不能一步回答得比较准
确
• 这时就需要通过初步的检索,
建立背景知识
2)建立背景知识
• 阅读与研究主题相关的概览性资料,是
建立背景知识的最佳渠道
• 概览性资料通常出现在我们所说的三次
文献中,如百科全书、字词典及年鉴等
参考资源中
• 建立背景知识的过程往往也是辨别待解
决信息问题研究的必要性及可行性的重
要时机
2)建立背景知识
• 以“车用替代燃料的应用情况研究”为例
Amy对于“车用替代燃料”的具体含义
并不清楚,需要查找资料进一步理解
•登录百度-知道、百科搜索引擎,使用“车用替
代燃料”为检索词,查到的内容——
车用清洁替代燃料包括天然气、液化石油气、
氢能源、二甲醚、醇类燃料及生物燃料
进一步的阅读文献研究得知
"车用替代燃料"包括的能源类型十分丰富
2)建立背景知识
在规定的时间内能完成么?
2)建立背景知识
3.如果继续上面的研究,将需要对列表中的概念
进行逐一检索,工作量很大。这种情况下,考
虑到时间等成本因素,可以缩小研究问题的范
围,例如以“乙醇燃料”为研究对象
4.进一步了解乙醇燃料的含义,例如可以登录百
度百科,查得:
车用乙醇燃料也称为乙醇汽油,是指在不含MTBE含氧添加剂
的专用汽油组分油(由炼油厂或石油化工厂生产的用于调合车
用乙醇汽油的调合油)中,按体积比加入一定比例(我国目前
暂定为10%)的变性燃料乙醇,由车用乙醇汽油定点调配中心
按国标GB18351—2004的质量要求,通过特定工艺混配而成
的新一代清洁环保型车用燃料。
3 ) 拟定主题概念
• 对主题进行分析,形成相关的检索词
–
–
–
–
上位词(概念范围大于它的词语)
下位词(小于)
同义词及相关词
翻译检索词——如要查找外文资料
• 详细列出检索词
– 既能极大地提高后续检索的查全率,也是避
免漏检的重要方法。
如何拟定主题概念
• 结合背景知识,用一小段话概括和阐述研
究问题,从中找出有明确含义的专指名词,
结合一定的查询操作逐个考虑该词能否作
为检索词使用。
• 得到主题概念之后,选取它的上位词(扩
大检索范围)、下位词(缩小检索范围)、
或者同义词(提高查准率)及相关词,将
取决于检索策略。
• 利用相关参考书(如《中国分类主题词表》
等)帮助查找。
3)拟定主题概念
以“车用乙醇燃料的应用情况研究”为例
• 案例二:查找吸烟与肺癌关系研究的中文文献
主题概念分析方法之一:抽取检索词
主题概念分析方法之二:考虑同义词
包含两个概念:吸烟、肺癌;检索式:吸烟 AND 肺癌
吸烟与肺癌
肺癌
吸烟
肺部肿瘤
抽烟
肺肿瘤
检索式:(吸烟 OR 抽烟)AND (肺癌 OR 肺部肿瘤 OR
肺肿瘤)
• 案例三:查找垃圾的处理研究的中文文献
主题概念分析方法之三---选取上下位类概念词
下位类词
同义词
废弃物
垃圾的处理
回收
利用
填埋
掩埋
焚烧
检索式:(垃圾 OR 废弃物) AND (回收 OR
利用 OR 填埋 OR 掩埋 OR 焚烧)
案例四:全息防伪技术在包装方面的运
用
主题概念分析 之四:舍弃重复概念
全息
防伪
包装
检索式: 全息 and 包装
and
主题概念分析注意事项
•
排除比较泛指、检索意义不大的概念
•
•
少用外延十分宽广的概念
•
•
如“发展”、“趋势”、“现状”、“关系”
如“工艺”、“分析”、“应用”、“有机物”、
“无机物”、“重金属”
有些检索概念已经体现在所使用的专业数据
库中,这些概念也应该予以排除
•
如在物理文献数据库中检索,“物理”一词应禁用
3)拟定主题概念
使用宽泛的“自由词”作为主题概念进行
检索 ?
还是使用规范的、被数据库生产商用来做
标引的“主题词”进行检索 ?
自由词和主题词的使用
自由词在检索初期可尽量使用。
使用关键词作为主题概念进行检索。它的选取可以非常宽
泛,只要在文章中出现过,就能被检索到。但由于是自由词,
作者的使用非常随意,这就需要我们把可能出现的所有自由
词尽可能考虑完全,才不至于漏检。在检索的初期建议尽量
使用。
当对问题有了一定了解后,可选取一些规范的、被数据库
生产商用来做标引的“主题词”进行检索。
如对于化学物质确定的课题,采用CAS登记号检索是一条既
准 、 又 全 、 又 快 的 方 式 。 此 外 , Ei 中 的 “ Ei Controlled
Term”和“Ei Main Heading”途径均是由标引人员规范处理
过的检索途径。
2.选择信息源
从何处去查找信息
了解现实生活中
有那些可获得的
信息源
明确不同信息源
所提供的信息在
时效性、深度、
广度等方面的不
同特点
2.选择信息源
• 让我们从大类上来梳理一下我们可用的
信息源大致有哪些:
1) 纸质期刊
2) 各类文献数据库
3) 网页
4) 图书
5) 杂志、报纸
6) 特殊文献——学位论文、报告、
专利、标准、会议录等
2. 选择信息源
上述几个信息源看起来都很熟悉是么?可是
你了解他们各自不同特点,知道解决什么问题应该查
找哪个或哪些信息源么?我们不妨设置几个场景,由
你来考虑一下应该查找的信息源吧。
场景一:查阅最近一个场次的NBA比分
场景二:要参加某家公司的面试了,想了解下该
公司的基本情况
场景三:想查找影评,关于一部近期上映的电影,
以决定周末是否去电影院看看
场景四:写一篇小论文,需要了解计算机的发展
历史
场景五:写一篇有关商业智能系统研究现状的报
是否没有想像中那么容易区分?相信通过了解下文的信息交流模式
告
及各信息源特点之后,你就能根据问题特点快速准确地选择信息源了。
1)信息交流模式
• 信息有学术信息和一般性信息之分
• 学术信息交流是一个不断循环、螺旋前进
的过程
• 图:学术信息交流模式
研究与
发展
图书馆OPAC
系统等
二次再
现
发明保
护
专利
研究
开始
图书
总结凝
练
两年
会议
半年
一年
会议论文库
电子期刊库
文摘库
研究报
告
再现
期刊
会议
论文
1)信息交流模式
• 一般性信息交流模式
事件发生
日
网页,报纸
周
杂志
年
图书,电子书
• 以SARS(非典)为例说明情报信息的演变
• 2003年春,我国部分地区发生传染性非典型肺炎疫情
• 新闻报导:03年初,有关SARS的消息出现在报纸、网络、
电视、广播等媒体上。《突发公共卫生事件应急条例》颁布
• 会议、期刊:几个月后,学者专家陆续召开相关学术会议、
发表会议论文。随后,各学术期刊上开始出现有关的文章。
• 图书:一两年后,有关该主题或事件的书籍陆续出版。
《非典型脑炎(SARS)冠状病毒基因全序列》/2003
《应急反应的法学思考:“非典”法律问题研究》/2004
• 百科全书:数年后,当对事件的认识已有定论,就会被收录
在百科全书、统计汇编等参考资料中。如2008年在大英百科
全书(Encyclopaedia Britannica)中记载了SARS事件
2)不同信息源的特点比较
信息源
信息内容
检索渠道
特点
网页、
报纸
一般性信息;无
法深入了解原因
等较深入的问题
搜索引擎
杂志
仍较强调报道性
质
索引方式较少, 与报纸相比,对事件的报道较为详细,提
多依赖即时翻 供分析资料、统计等;通常不提供信息来
阅
源及参考文献
纸质期
刊
详细、具有理论
结构
图书馆的
OPAC系统
研究对象新颖,可把握研究前沿;对特定
主题进行深入探讨;提供参考文献等相关
注释;提供客观的统计及图表
文献数
据库
详细、具有理论
结构
数据库商提供
的检索平台及
图书馆提供的
检索系统
不受地域限制,检索、下载方便;与最新
的到馆纸质期刊相比,国内期刊库往往存
在一定的时间滞后,而国外期刊库往往先
于纸质期刊
图书
提供深入性分析
资料;系统的编
辑相关文章
图书馆的
OPAC系统
提供特定主题的深入剖析,结论成熟、论
述全面;周期相对较长,信息具有一定的
时滞;提供参考文献等相关注释
提供事件发生经过的即时报道;不同来源
的不同信息内容重复性高;网页动态变化,
不能长期保存,引用困难
3)信息源的选择策略
• 对于一般消息,可以选择浏览网页、报纸
• 了解事件的更全面、更详细的介绍,杂志是更
好的选择
• 对于要求一定深度的研究性信息问题,可以利
用相关专业机构信息发布网站,如国家专利局、
标准化委员会
• 解决研究性信息问题时,会议论文、研究报告、
专利、期刊、各类文献数据库、图书等成为重
要的信息源
3)信息源的选择策略
• 会议论文和研究报告虽然时效性相对较强,但
不易获得,需要关注相关研究机构及研究人员,
积累获取渠道。
• 文献数据库中收录了多种连续性的期刊以及部
分会议论文、研究报告,且经过专业人员的组
织整理,文献内容深刻、全面,检索方便,获
取容易,应作为检索的重要信息源。
• 图书和期刊作为重要的学术研究产出形式,通
过阅读能理清发展脉络、把握研究前沿,是重
要的学术信息源。
• 下列问题可以查阅哪些信息源?
①查“给力”“我爸是李刚”的前世今生
②最近一个场次的NBA比分
③朝韩炮仗和半岛危机的国外评论
④了解将要参加面试的公司的基本情况
⑤近期上映电影的影评,决定是否去看
⑥写一篇小论文,了解计算机的发展历史
⑦写一篇有关商业智能系统研究现状的报
告
97/23
信息源选择的其他考虑因素
•是否所有与检索课题相关的资源都要进行检索,
如果是,则不但考虑要检索一次文献和二次文献
的数据库,而且对于网上其他资源,如搜索引擎/
分类检索指南、学科导航、专题BBS等,也要查询。
•选择哪些学科的信息资源:例如查找生物学方面
的信息,则可能会涉及医学方面的信息资源,因
此要特别注意跨学科的问题。
•选择哪些语种的信息资源:是中文还是西文,或
是二者兼顾。
信息源选择的其他考虑因素
 信息资源覆盖的年限是否符合需求
多数数字信息资源覆盖的年限都是近二十年的内容,如
果需要更早的资料,就要考虑手工检索的问题
有些数据库更新速度慢(例如光盘数据库,或数据加工
速度不及时),无法提供最新信息。需要使用其他相关数
据库、同一数据库的网络版或其他网络资源来补充
信息资源的特点及其针对性如何
要了解已选择的信息资源的查询特点,是否与信息需求
相吻合。例如查询某个机构或公司的网页,使用搜索引擎
是最好的,而即使是搜索引擎,各自的特点不同,涵盖的
内容也有所侧重的不同;查询新闻时事,则可以登录到一
些新闻网站;查找学位论文,就一定要使用学位论文数据
库,或直接到大学或学院网站查询,因为有些学校的学位
论文在网上提供二次文献服务
三、 信息获取的思路
需要一
般性、相
对粗浅的
信息
网页
面临研
究性信息
问题
数据库
现有数
据库无法
获取全文
印刷型资源
但无论选择哪种方式
都是首先获取题录信息,然后获取全文这样一个过程
• 其次,获取题录信息、全面把握研究问
题之后,选择其中最有价值的题录、依
据一定的方式获取全文
信息获取的主要思路
先获取题录信息,然后获取全文
101/23
1.题录信息的获取方法
• 专业数据库
①英文文献:优先在Ei和SCI两个综合性文摘
数据库检索
②中文文献:中国知网、维普、万方
• 没有文摘库时,可以使用Google Scholar
,有线索了再去查全文。
• 也可根据自己课题学科选择相应的几个全
文数据库进行检索。
1.题录信息的获取方法
注意:
国外的全文数据库特别是期刊数据库往往是
出版商自己建的,而不包括其他出版商期刊,
最好几个全文库都进行检索。
• EI偏重工程,不报道纯理论,期刊论文、会
议论文收录得多。
• SCI则收录涵盖所有学科、侧重基础理论方
面研究的文章,它的文献品位高、可信度
大,并可以对文章的水平、著者的学术水
平做出评价,寻找热点课题等。
2.全文文献的获取方法
• 直接获取:在全文数据库中检索
(CNKI、维普、万方、Elsevier、PQDD)
• 通过图书馆等文献服务机构获取:
全文数据库中未收录的文献,可在图书馆
等机构借阅。还可以利用原文传递、代查
代检等服务
• 遵循“先电子后印刷”、“先近后远”的
原则
(四) 检索策略的制定
与调整
检索
阅读
检索
结果
策略
调整
策略
调整
根据检索结果的数量多寡及对结果
相关性的判断不断调整检索策略
• 对文摘检索过程中,最重要的是选定检索词以及
明确它们之间的关系
– 选用规范的词语进行检索
– 检索结果太多——提高检索词的专指度,选
用下位词或专指性较强的词
– 太少——选用同义词、相关词、缩写、全称
进行扩检;选用上位词或相关词
– 合理利用布尔逻辑算符。
• 对于过多的检索结果,可以用AND将增加的概念
加入检索式,用NOT排除无关的术语。
• 如果相关文献过少,更多使用OR算符把增加的同
义词或相关词连接起来,而少用AND。
106/23
• “二八”定理
– 20%的作者或课题组发表了该领域的80%的
文章
– 对该作者或课题组进行全方位检索,利用作
者或者研究机构名进行查询
• 阅读相关文献的参考文献扩展检索结果
参考文献往往包含的是作者在研究该问题时得
到过启发的研究结果
107/23
举例:使用下位词缩小检索范围
• 示例
检索“石油工业的废水处理”方面的文献。
若用“废水处理”作为主题,概念太大,在中国期刊全
文数据库中用篇名途径检索到12454篇。
若用“石油工业”来限制也不合适。一方面“石油工业的
废水处理”概念仍然太大;另一方面,一般文献上会专
注于具体物质,不一定会出现“石油工业”字样,这样
就会造成漏检。
如果知道石油工业主要排放的是毒性较大的含酚废水,
那么主题概念定位在“含酚废水”和“处理”就比较恰当
• 示例
检索“聚烯烃基材料熔融挤出过程”方面的文
献。 检索策略1: 聚烯烃AND熔融挤出
检索结果为12篇,且相关度很差
由于了解所谓的聚烯烃主要是聚乙烯和聚丙烯,所以考虑用
下位概念的“聚乙烯OR聚丙烯”来代替聚烯烃。
检索策略2:(聚乙烯OR聚丙烯)AND熔融挤出
检索结果为61篇,相关性很高
检索实习
•
•
•
•
•
•
选择自己感兴趣的题目写出一篇实习报告
格式要求:
1. 分析研究问题
2.拟定主题概念
3.选择信息源
4.检索结果概述
助你一臂之力
畅游信息海洋