2.5文献信息检索的基本步骤

Download Report

Transcript 2.5文献信息检索的基本步骤

Chapter II 文献信息检索基
础
2.1 文献信息检索基本原理
 2.2
文献信息检索语言
 2.3 文献信息检索基本方法
 2.4 检索效率的评价
 2.5
文献信息检索(基于计算机和网络)
的基本步骤

2. 1 文献信息检索基本原理



文献信息检索包括文献信息的存储和文献信息的检索
两个过程。
文献信息检索的基本原理是:通过对大量的,分散无
序的文献信息进行收集,加工,组织,存储,建成各
种各样的检索系统(手工检索工具,计算机检索的各
类数据库),将用户表达检索课题的标识与检索系统
中表达文献信息内容和形式特征的标识进行相符性比
较,凡是双方标识一致的,就将具有这些标识的文献
信息按要求从检索系统中输出。
检索系统所输出的文献信息可能是用户需要的最终信
息,也可能是用户需要的中介信息,用户依此中介信
息的指引,可以进一步获取最终所需要的文献和信息。
文献信息检索的基本原理
存
储
过
程
文献
信息
处理
人员
原
始
信
息
信息分析、处理和标引
存
入
检 索 语 言
检
索
检出
(主题词/分类号)
工
检
索
过
程
具
用
户
检
索
课
题
课 题 分 析
检索
原文的获取
检
索
结
果
2.2 信息检索语言
信息检索语言是用来描述文献特征和表达
信息提问,沟通信息存贮人员和信息检索
人员双方思想的一种人工语言。包括存储
和检索两部分, 在信息的存贮过程中用来描
述信息的内容特征和外部特征,从而形成
标识;在信息的检索过程中用来描述检索
提问,从而形成提问标识
 原则:检索者和文献信息处理者能达成一致.

2.2
信息检索语言
A 作者
描述文献外表特征的语言
B 号码
C 其他(书名、引
文、出版社、出
版日期等)
检索语言
a 分类语言
描述文献内容特征的语言
b 主题语言
000
总论
100 哲学
200宗教
2.2.1 文献分类方法(分类语言)
300社会科学
400语言学
1 、杜威十进分类法 (DDC) 500纯粹科学
600技术科学
700美术
( Dawey Decimal Classification and
Related Index )
800 文学
是世界上比较流行,也比较权威的一种图书分类
900 历史
方法。由美国图书馆学家麦维尔·杜威于1876年
首创,它由大类、门、纲、目、子目等组成。
它将全部学科的书刊分为九大类,用1到9间的数
字表示,不属于这九类中的图书为第0类。每一大
类下再分1到9个子类,依此类分下去。


000 总类
001 知识问题
002 关于书籍
003 系统论
004 数据处理 ——计算机科学
005 计算机程序统计、程序、数据
006 专用计算机方法
011 综合性目录
540 化学与相关学科
541 物理化学与理论化学
542 技术、设备、材料
543 分析化学
544 定性分析
545 定量分析
546 无机化学
547 有机化学
0 总论
1 哲学、心理学
2 宗教、神学
2、国际十进分类法(UDC)
3 社会科学、法律、
行政
UDC已有23种语言的版本。 4 语言学
5 数学、自然科学
6 应用科学、医学、
UDC的类目表主要由主表与辅助符号、辅助
工学、农学
表组成。UDC的主表把全部知识分为十大
7 艺术、美术、摄
门类,每一类下分大纲、目、分目。UDC
影、音乐、娱乐、
竞技
基本分类如
8 语言学、文学9
地理、传记、历史
3、《中国图书馆分类法》
社
会
科
学
A 马克思主义、列宁主义、毛泽东思想
B 哲学
C 社会科学总论
D 政治、法律
E 军事
F 经济
G 文化、科学、教育、体育
H
语言、文字
I 文学
J 艺术
K 历史、地理
自
然
科
学
N
O
P
Q
R
S
T
U
V
X
Z
自然科学总论
数学科学和化学
天文学、地球科学
生物科学
药学、卫生
农业科学
工业技术
交通运输
航空、航天
环境科学、劳动保护科学
综合性图书
T
TB
TQ0
TE
…
TH
TQ
TS
……
TQ31 …… TQ9
TQ11… TQ2
TQ311 TQ314 TQ315 TQ316 TQ317 …… TQ319
TQ316.1 TQ316.2
TQ316.3
TQ316.41
TQ316.4 TQ316.6
TQ316.42
TQ316.43 TQ316.47
T—工业技术类中国分类法举例
以T-工业技术大类下的TQ类展开下位类如下:
T 工业技术
TQ 化学工业
TQ92 发酵工业
TQ921 发酵法制有机酸
TQ921+.1 柠檬酸
TQ921+.2 葡萄糖酸
TQ921+.3 乳酸
TQ921+.4 丁酸
TQ921+.7 其他
从上表看出分类号的变化体现了
各学科体系的从属关系,分类号位
数每增加一位,则分类级别便低一
级。
如TQ92代表发酵工业,TQ921类目是发酵
法制有机酸, 是TQ92的下位类。
确定分类号的方法有以下二种:
①直接查找法
熟悉分类表,按学科体系从大类开始逐级查找
l
对于只存在一个主题的课题,方法就较简单。
如“机械手”。当要求的主题过于狭窄,没有相应类目
存在,可归属在其上位类。
l
对于包含有两个以上主题内容的课题,如“机
械手的控制系统”涉及“机械手”和“控制系统”两个
主题概念,这时应考虑它们的主从关系,在这个课题中
研究的是仅针对机械手而言的控制系统,可以说是控制
系统在机械手中的应用,当研究某种理论、方法、工艺
等在某领域的应用时,应分在其应用的类目,即“机械
手”所在类目。
l
对有两个主题,又没有主次或应用关
系的课题,则在检索相关文献时应分别在两
个分类号或两个主题领域中查找。如加入
WTO对我国纺织业的影响。
分类号查找途径
图书馆收藏的印刷本《中国图书馆分类
法》
上网查找:利用搜索引擎、直接上图书
馆网站(江南大学图书馆主页、馆藏书目
系统、其他大学图书馆网页)
河南理工大学图书馆中
图法分类表
②
间接获取分类号法

当手头有现成的对口文献或通
过其它方法如主题方法查到的对口
文献,则可利用该文献标出的分类
号,进行分类查找。
分类语言的优缺点
– 优点:
(1)分类法是一种体现知识分类等级概念的
标识系统,具有按学科或专业集中、系统揭
示文献信息内容的功能,用分类方法检索文
献具有较高的查全率。
(2)分类法将概念逐级划分,具有等级结构,
便于扩大和缩小检索范围。
(3)分类法既能用于组织检索工具和检索系
统,又能用来组织图书资料的分类和排架。
选择”题名”字段, 输入”金融市场”的结果.
选择”主题词”字段, 输入”金融市场”的结果.
选择”分类号”字段, 输入“F830.9”的结果.
分类语言的优缺点

缺点:
(1)间接性。分类法用分类号作为检索标识,
不能直接表达概念。
(2)分类法不能经常修订,因而不能及时反
映新的科学技术主题。
(3)分类法的类目不可能详尽无余地列举一
切事物概念,遇到检索主题狭窄的课题,可
能难以找到相应的类目,查准率不高。
查找”磷酸酯”有关图书,用具体分类号
题名字段输入”磷酸酯”,任意匹配
附:相关分类号
Q 生物科学
 Q1普通生物学
 Q2细胞生物学
 Q3遗传学
 Q4生理学
 Q5生物化学
 Q55 酶
 Q6生物物理学
 Q7分子生物学
 Q81生物工程学(生物
技术)
 Q811仿生学








[Q812]基因工程(宜入Q78)
Q813细胞工程
Q814酶工程
[Q815]发酵工程(宜入TQ92)
[Q816]蛋白质工程(宜入
TQ93)
Q819生物工程的应用
Q93微生物学
相关分类号

O6
– O61 无机化学
– O62 有机化学
– O63 高分子化学(高聚物)
– O64 物理化学、化学物理学
– O65 分析化学
– O69 应用化学

相关分类号
TQ 化学工业
– TQ0 一般性问题
– TQ11 基本无机化学工业
– TQ2 基本有机化学工业
– TQ31 高分子化合物工业
– TQ314 原料与辅助材料
 TQ314.2 合成高分子化合物
–TQ314.24 助剂
TQ314.24+1 引发剂
– TQ32 合成树脂与塑料工业
– TQ33 橡胶工业
– TQ34 化学纤维工业
– TQ35 纤维素质的化学加工工业
相关分类号
溶剂与增塑剂工业
– TQ41
– TQ42 试剂与纯化学品工业
 TQ423 表面活性剂
– TQ423.1 离子型表面活性剂
• TQ432.11 阴离子型
– TQ43 胶粘剂工业
– TQ45 农药工业
– TQ46 制药化学工业
– TQ61 染料及中间体
– TQ62 颜料工业
– TQ63 涂料工业
– TQ64 油脂和蜡的化学加工工业、肥皂工业
相关分类号
– TQ9 其他化学工业
– TQ65香料与化妆品工业
 TQ651
香料化学
参见O625
 TQ652
香料及化妆品的
毒理 参见R986
 TQ654 天然香料
 TQ655 合成香料
 TQ656 各种用途香料
 TQ657 香精
 TQ658 化妆品
–TQ658.2 护肤用品
–TQ658.2+4 防晒剂
 TQ92发酵工业
– TQ920一般性问题
– TQ921发酵法生产有
机酸
– TQ922发酵法生产氨
基酸
– TQ923发酵法生产高
级醇及多元醇
– TQ924发酵法生产维
生素
– TQ927发酵法生产抗
菌素
– TQ929其他发酵工业
 TQ93蛋白质化学加
工工业
相关分类号
l
TS2 食品工业
lTS26酿造工业
– TS261酿酒工业
– TS262各种酒及其制造
 TS262.2酒精
 TS262.3白酒
–TS262.3+1浓香型大曲酒
 TS262.4黄酒 清酒
 TS262.5啤酒
 TS262.6葡萄酒 香槟酒
– TS264调味品的生产
相关分类号

X 环境科学、安全科学
– X1 环境科学基础理论
 X17 环境生物学
–X172环境微生物学
– X5环境污染及其防治
– X7废物处理与综合利用
 X79 轻工业废物处理
–X792 食品工业废物处理
2.2.2
1 关键词
2 叙词
3 标题词
主题检索方法
属自然语言
属规范化词汇
 关键词
关键词检索为大多数计算机检索系统采用。
使用直接来自文献或用户提问的一类检索语言。
优点:关键词检索文献既方便又准确,不受词表
控制,能及时检索到最新概念的各类文献。可任意
选取专指性强的词语,提高查准率。词量大。
缺点:容易产生的误检、漏检。原因有:
1.取名的多样:同物异名、全名与简称、异称(学
名、俗名、音译名。
2. 构词的多样:派生词、单复数、拼写变体
3. 大量的复合词
 规范化主题词(叙词、标题词)检索
 叙词是主题语言的高级形式。是以较正规和正式
的科学名称为基础组织而成一种主题法检索标识系统。
由在概念上不可再分的基本概念单元词汇组成,检索
时可以利用这些单元词进行组配,以表达一个复杂的
概念。叙词表作为检索过程必不可少的辅助工具,由
检索工具出版单位编制,专书专用。是由二次文献编
撰单位出版的限制使用的主题词体系。
如:课题: 太阳能热水器研究
汉语主题词表中正式主题是太阳能利用、太阳
能加热等代替。
规范化词示例(化工汉语叙词表)
例: Tanshuihuahewu------汉语拼音
用-->Y 碳水化合物
------- 款目叙词
英-->E Carbohydrate ---------英文译名
代项--> D 酸
--------非正式叙词
属项--> S 天然有机化合物-----相邻上位词
分项--> F 糖醇
-----相邻下位词
糖醛酸
糖酸
糖甙 酮糖 脱水糖
族项 --> Z 有机化合物 ---------最上位词,族首词
叙词代码--> N 03190002.00
 标题词
与叙词一样是以较正规和正式的科学
名称为基础的一种主题法检索标识,但存
在主、副标题词固定搭配,即属于先组式
检索语言。如:
MOTORS
-control
-manufacture
 规范词汇优缺点
规范化词主要对词义、词形和词的组合
方式进行控制.
 优点:选择宽广的概念,查全率高。避
免由于同义词、近义词的存在而产生的
漏检。
 缺点:使用词表,带有间接性。由于
受控语言被限制在预先制定的概念或类
目内,不能表示新的概念。词量有限,
影响查准率。

2.3 文献信息检索方法

直检法:专业核心期刊跟踪

常规法: 利用检索工具、检索系统检索。顺
查法, 倒查法, 抽查法

追溯法: 参考文献, 引用目录

综合法: 分段法, 循环法, 交替法

常用法
–顺查法:
 从远及近查,用于了解某一事物发展的全过程,
–倒查法:
 由近及远查,重点为近期
–抽查法:
 查找某一段时间的文献
2.4. 检索效率评价
描述检索效率的因素主要有:
查全率(recall factor)
查准率(也称适中率,Pertinence factor)
漏检率(omission factor)
误检率( 也叫检索噪音, noise factor)
新颖率、覆盖率、检索速度等。
2.5文献信息检索的基本
步骤(基于计算机网络)
没有结果!!
仍无结果!!!
文献信息检索基本流程
明
确
需
求
,
分
析
课
题
选
择
适
用
的
数
据
库
确
定
检
索
词
试
编
检
制
索
检
并
索
判
表
调 断
达 整 结
式 检 果
索
策
略
输
出
满 是相
意
关
?
内
容
否
信息检索步骤一 分析课题

Step 1. 首先要明确信息需求才能通
过检索达到目的。
需要什么类型的资料(图书、期
刊、专利文献等)?对查全率、查准
率、检索的地域范围、时间范围等都
有什么要求?
信息检索步骤一 分析课题
一般说来,用户的信息需求大致分为3类:
 全:需要全面了解某一特定领域的发生、
发展和现状,是一种回溯性检索,对查全
有较高要求。
 准:需要解决研究中的关键问题,要求检
出的文献具有较强的针对性,对查准要求
较高。
 新:需要了解和掌握某一领域的最新研究
动向或研究成果,文献信息具有新颖及时
的特点,对查全没有过高要求。
课题:聚乙烯醇包埋厌氧活性污泥研究
课题分析:研究以聚乙烯醇为主要包埋材料的
混合载体法固定厌氧活性污泥处理有机废水.
这是一个科研项目课题,需要全面了解课题
发展和现状,需要全面检索,对查全要求较
高。
信息检索步骤一 分析课题

Step 2 要深入地了解课题,以便正确地选择
检索词。
首先要分析课题在学科知识网络中所处
的位置、主题内容,并找出能代表这些概念
的若干个词或词组,分析词之间的逻辑关系。
对于新学科、交叉学科和边缘学科的课题,
必须搞清楚这些关系。如本例, “聚乙烯醇
包埋活性污泥” 属于” 固定化技术”应用于”
废水处理。
数据挖掘
Web数据挖掘
Web内容挖掘
SALSA算法
Web结构挖掘
HITS算法
Web记录挖掘
PageRank算法
其他算法
信息检索步骤一 分析课题
Step 2. 要深入地了解课题,以便正确地选
择关键词。

第二,要析出隐含概念。有些课题的实
质性内容往往很难从课题的名称上反映出来,
课题所隐含的概念和相关的内容需要从课题
所属的专业角度做深入的分析,才能提炼出
能够确切反映课题内容的检索词。如“绿色
包装”隐含着环保、可降解等概念。本例中,
“包埋” 包含的主要概念为“固定化技术” 。

信息检索步骤一 分析课题


Step 2. 深入地了解课题, 以便正确地选择关键词。
第三,选取核心概念。有些检索词中已经含有
的某些概念,在概念分析中应予排除。“风湿性心
脏病患者的手术治疗”中选取“风湿性心脏病”和
“手术”作为检索词即可,其中已经包含了“患
者”、“治疗”的概念。另外,有一些比较泛指、
检索意义不大的概念, 如“研究”、 “生产”、
“发展”、“趋势”、“现状”、“过程”、“进
展”等,除非是专门查找包含这些词的文献,否则
应予排除。
深入了解课题的技术要点:
•研究聚乙烯醇为主要包埋材料的混合载体法
固定厌氧活性污泥,可解决固定化细胞技术
应用于废水处理所面临的成球难、易破碎,
活性丧失大及因产气而发胀上浮等问题.
信息检索步骤二 选择检索系统


按检索技术手段可分为:手工检索工具和计
算机检索数据库
计算机检索系统:包括各图书馆馆藏书目查
询系统、光盘数据库、各种网络数据库及网
上搜索引擎


信息检索步骤二 选择检索系统
中文检索系统
图书检索系统
 馆藏书目查询系统
 电子图书数据库

电子期刊全文数据库:如CNKI中国期刊
全文数据库
综合性资源:如万方数据资源系统
外文检索系统
书目文摘型检索系统: 如EI
全文型检索系统
 电子图书数据库
电子期刊全文数据库:如SDOS
专利文献检索系统
 其他类型(标准、学位论文、科技报告等)
文献检索系统
 网络免费检索系统
 网络信息搜索引擎
 ……
信息检索步骤二 选择检索系统

在明确信息需求,了解信息源的基础上,
我们才能正确地选择检索系统。

1、首先要考虑检索系统与信息需求是
否结合紧密, 收录文献种类、专业覆盖
面、年代跨度是否对口
两大综合性全文数据库比较
数据库
收录时间
论文篇数
中文科技期
刊数据库
1989年至今 1250多万
篇
中国期刊全
文数据库
1994年至今 2000多万
篇
计算机与自
动化期领域
刊种数
277 种
131种
信息检索步骤二 选择检索系
统

在明确信息需求,了解信息源的基础上,我们才能
正确地选择检索工具。
2、要考虑是否需要获取原文。如只需检索文献的题
名、作者、出处和文摘,可选择书目文摘型数据库,
如EI, SCOPUS等;如需获取全文,可选择较易获
取原文的信息源(全文型数据库),如CNKI 中国
期刊全文数据库、维普中文期刊数据库、SDOS、
Springer Link等。
信息检索步骤二 选择检索系
统

在明确信息需求,了解信息源的基础上,
我们才能正确地选择检索工具。
3、要考虑检索系统的更新周期是否符合
检索。需要查找最新文献信息时,可选
择更新周期短的信息源
中国期刊全文数据库
出版形式
更新速度
光盘版
每月更新
网络版
每日更新
信息检索步骤二 选择检索系
统

在明确信息需求,了解信息源的基础上,
我们才能正确地选择检索工具。
4、要考察检索系统的学科收录范围、检
索方式、可检字段、检索技巧等。
Always pay attention to the “帮助”、
HELP or “Search Tips” in the
database.
需要了解SDOS
、Kluwer的使用方
法,在百度的搜索
框输入filetype:ppt
(SDOS | Kluwer)
,得到357条结果
,而且最前面的三
条就能够满足我们
。
CNKI 中国期刊
全文数据库帮助
信息
信息检索步骤二 选择检索系
统

在明确信息需求,了解信息源的基础上,
我们才能正确地选择检索工具。

5. 还要考虑检索费用,用哪些检索系统
最经济。应首选本地图书馆馆藏文献信
息资源,再选择网络免费文献信息资源,
文献量仍严重不足才考虑收费资源。
信息检索步骤三
确定检索词
利用Ei时, 核对英文规范化
 在课题分析的基础上,检索词选择是否恰当,
直接影响检索效果 词
Distributed parameter
control
systems
 1. 对于可用不同词表达的概念,最好核对主
DT: January 1993
题词表,选用规范化词汇作为检索词。如果
UF: Distributed
用关键词检索,必须考虑其同义词、近义词
parameter ;
及相关词。
Distributed
Control system
RT: Decentralized
control
信息检索步骤三
确定检索
词

在课题分析的基础上,检索词选择是否恰当,
直接影响检索效果

2. 对于存在歧义的词,要尽量使用国际上通
用的术语,避免用一词多义的词汇。应用其
他通用的术语检索,或限制在某学科范围或
补充限义词与该词组合检索。
PVA
Pivalic Acid
Plan View Area
(Blood) Plasma
Volume Expander
[Medicine]
Polyvinyl Acetate
Polyvinyl Acid
Polyvinyl Alcohol
使用通用词汇(其全
称)的检索结果
将检
索范
围限
定在
相关
学科
领域
用二级主
题限制,
检索更准
确
信息检索步骤三
确定检索
词


在课题分析的基础上,检索词选择是否恰当,
直接影响检索效果
3. 不能只从字面上选词。需要时,依据课题
分析进行必要的替换、补充。
信息检索步骤三
确定检索
词

在课题分析的基础上,检索词选择是否
恰当,直接影响检索效果

4. 一些比较泛指、检索意义不大的概
念, 如“研究”、 “生产”、“发
展”、“趋势”、“现状”、“过程”、
“进展”等,除非是专门查找包含这些
词的文献,否则应予排除。
“进展”一词并不
能保证我们检索到
的文献能够反映某
一课题研究进展。
按照“日期”排序,
或限定时间范围,才
能得到真正反映课题
研究进展的文献。
检索关键词:
1.聚乙烯醇 2.PVA 3.活性污泥 4.厌氧污泥 5.
包埋 6.固定化 7.废水处理 Keywords: 1.
poly(vinyl alcohol) 2.PVA
3.sludge 4. encapsulat? 5. immobiliz? 6.
wastewater
信息检索步骤四 构造检索表
达式
构造既能准确表达课题检索需求,又能为计
算机识别的检索表达式,是提高查全率和查
准率的重要保证。
 构造检索检索表达式之前,一定要弄清数据
库的检索功能和采用的逻辑运算符。

信息检索步骤四 构造检索表达
式
一般说来,数据库常用的逻辑运算符有以
下几种。
 1. 布尔逻辑运算符
逻辑“与”
文字表示为“AND”,符号表示为“*”。提
问式可写为:
A AND B 或者 A * B
B
A
表示检索结果中每条记录必须同时含有
A和B检索词,增强检索的专指性,缩
小检索范围,提高了查准率。
如:“remote control”AND “fault diagnosis”
逻辑“或”
 文字表示为“OR”,用符号表示为“+”。
提问式可写为:
A OR B 或者 A + B

表示包含检索词A的文献或包含检索词
B的文献或同时包含检索词A和检索词B
的文献均为命中文献,逻辑“或”扩
大了检索范围,提高查全率。
如, 集散控制系统 OR DCS
A
B
逻辑“非”
 用文字表示为“NOT”,用符号表示为“-”。
提问式可写为:
A NOT B 或者 A - B

表示检索结果中每条记录必须包含检索词
A ,但不包含检索词B 。排除了不希望出
现的检索词,缩小了检索范围,提高查准
率。
“Hepatitis B virus” NOT
human
(乙肝病毒)
(人类)
A
B
信息检索步骤四 构造检索表达式
在一个检索式中,如果含有两个或两个以上的布
尔逻辑运算符,运算符的优先次序是:
NOT﹥AND﹥OR
2.优先算符( )
优先运算括号中的检索式
如: (CAD OR computer aided design) AND Dies
(集散控制系统 OR DCS) AND 以太网

信息检索步骤四 构造检索表达式
3. 截词符
用数据库所允许的符号来替代检索词
的字符,以保持检索词的相同部分,并允
许有一定范围的字符变化,以提高检索词
的检索效果


中文数据库,截词一般只能用在词尾,且较少
使用
英文数据库,一般用“﹡” “$”或“?”表示
后截断,将截词符号放在一个字符串的右方,
以表示其右的有限或无限个字符不影响该字
符串的检索. 又包括无限截词和有限截词。
涉及到词的单复数、作者、年代、同根词等
方面的检索时,采用后截断技术。
无限截词:表示可检索某词根的所有词。如
comput*将检出含有comput, computer,
computing, computation 等前方一致词的文
献
有限截词:用 “?”的数量限制可变化的字符
数(词的不同拼法,单复数变化等)。如
fib?? --- fiber, fibre
software?
前截断,将截词符号放在一个字符串
的左方,以表示其左的有限或无限个
字符不影响该字符串的检索。
例如: *sighted,可查到farsighted
与nearsighted。
前截断只检索后缀相同的一类词,常用
于检索化学化工文献与复合词较多的
文献。
中截断,将截词符号放在一个检索词的
中间的一种截词方式。只允许有限截断,
用于检索词的单复数或英美式不同拚法。
例如:wom?n,可查到Woman,Women。
defen?e ,可查到defense,defence。
有些数据库可用“#”表示。
信息检索步骤四 构造检索表达
4 限制符
式
检索系统中,缩小或约束检索结果的方法成
为限制检索。常用的有特定字段的限制检索,
限制符为“in”和“=”。
例如:Hypertension in TI,表示高血压一词
在题名字段Title中出现。
限制符还有其他形式:
py<2000表示检索2000年前发表的文献记录。
信息检索步骤四 构造检索表达
式
 5 位置算符:以
Ei Dialog@site为例:

“ … ” 代表检索词之间间隔的词数,检索
词顺序一定。 如:MINI...CARS, CARS 和
MINI之间至多间隔3 个词,其词序不变。故只能检
索到 “MINI VANS AND SPORTS CARS”, 检索
不到“ SPORTS CARS AND MINI VANS ”


“_” 同一句话(sentence):如robot_vision

“ * ” :同一字段(same field): 如
robot*vision
聚乙烯醇包埋厌氧活性污泥研究
 中文: 1. (聚乙烯醇+PVA )*(活性污泥+厌氧污
泥)
 2. (聚乙烯醇+PVA )*(活性污泥+厌氧污
泥)*(包埋+固定化)
 3. (聚乙烯醇+PVA )*(活性污泥+厌氧污
泥)*(包埋+固定化)*废水处理
 英文:1.
(poly(vinylalcohol)+PVA)*sludge
 2.#1* (encapsulat? + immobiliz?)
 3. #2*wastewater
信息检索步骤五 初步检索
了解各种信息源的使用方法,使得检索式得
以正确实施。
 Consult the “帮助”、HELP or “Search
Tips” in the database.

按编制的检索式得到的结果, 是否满
意?
信息检索步骤六 调整检索策略

1. 检索结果过少,根本无法满足我们的信息需求
(1)找出同义词、相关词,用“或”连接在检索
式中。
 学名与俗名:酒精和乙醇,土豆、洋芋和马铃薯;
中英文的全称与缩写:世界贸易组织,世贸组织,
World Trade Organization ,WTO;聚乙烯醇,
PVA;集散控制系统,DCS
不同的表述方式:钢结构的抗火(耐火、防火)设计
反义词:
易错字:豆豉--豆鼓;爱滋病—艾滋病;动态博弈--动
态搏弈;

安全
用”豆鼓”的
检索结果
用”豆豉”的
检索结果
“动态博弈”
的结果
“动态搏弈”
的结果
维普中“同
义词”功能
CNKI中“扩
展”功能
信息检索步骤六 调整检索策
略
1、检索结果过少,根本无法满足我们
的信息需求
(2)上下位词
WEB 结构挖掘的下位概念 SALSA
算法、
HITS算法、 PageRank
算法和上位概念WEB 数据挖掘
本例,“厌氧活性污泥”可用上位概
念“厌氧污泥” 或“活性污泥”,或
更上位概念“污泥”。

信息检索步骤六 调整检索策
略
1、检索结果过少,根本无法满足我们
的信息需求
(3)使用引文法进行检索。查找已知文
献的引证文献、参考文献、共引文献、
相似文献等。

在SDOS中,查找
被引用情况
又检索到引
用了此篇论
文的文献两
篇,可得到
更新、研究
更深入的文
献
信息检索步骤六 调整检索策
略

1、检索结果过少,根本无法满足我们
的信息需求
(4)调节检索式的网罗度,减少逻辑
“与”的组配面。
删除以“与” 和
“废水处理” 的组
配后的检索结果
信息检索步骤六 调整检索策
略

1、检索结果过少,根本无法满足我们
的信息需求
(4)字段选择,可将关键词字段改为全文
字段.
检索结
果太多
了,有些
不符合
检索课
题!!!怎
么办???
信息检索步骤六 调整检索策略

2、检索结果过多,其中包含很多不相关文献。
(1)检索词本身存在歧义,这时可采用专指度
较高的自由词或规范化词。
 PVA
– Pivalic Acid
– Plan View Area
– (Blood) Plasma Volume Expander [Medicine]
– Polyvinyl Acetate
– Polyvinyl Acid
– Polyvinyl Alcohol
信息检索步骤六 调整检索策
略

2、检索结果过多,其中包含很多不相
关文献。
(2)检索词太过宽泛,或者滥用截词检
索
信息检索步骤六 调整检索策
略

2、检索结果过多,其中包含很多不相
关文献。
(3)检索字段(入口)选择, 比如可将全
文字段改为关键词字段或篇名字段。
将关键词字
段改为主题
字段后的检
索结果
信息检索步骤六 调整检索策
略

2、检索结果过多,其中包含很多不相
关文献。
(4)增加“与”连接,进一步限定主题
概念。
(5)限制输出文献的外部特征,如限制
年限、语种、文献类型等
信息检索步骤六 调整检索策
略

2、检索结果过多,其中包含很多不相
关文献。
(6)用逻辑“非”限制与提问不相关的
文献的输出
本章小结

文献信息检索语言
– 分类检索语言
– 主题检索语言
文献信息检索基本方法
 检索效率评价
 文献信息检索基本步骤(基于计算机网
络)

See You Next Time!
谢谢!