检索策略的构建方法及技巧

Download Report

Transcript 检索策略的构建方法及技巧

检索策略的构建方法及技巧
贵州省科学技术情报研究所
徐路
2013年7月
检索策略的构建方法及技巧
目录
一、文献检索策略研究的国内外现状
二、文献检索策略概述
三、各种检索系统功能和数据库质量
四、检索策略制定步骤
五、分析课题,明确检索要求
六、概念分析及检索词取词技巧加举例
七、检索提问式的编写
八、检索策略的优化
http://www.gzsti.gov.cn
文献检索策略研究的国内外现状
• 国外对检索策略的研究较多 ,从中小学就开始普及信息
检索知识,并不时地举办以构建最佳检索策略为目标的计
算机信息检索竞赛
• 国内的信息检索策略研究却是很薄弱的环节, 目前国内
有关检索策略研究的论文存在着二个偏向:一是名不副实
,一些所谓探讨检索策略的文章,却只是对数据库系统检
索功能的一般性介绍,并不论述检索策略构建的相关内容
;二是纸上谈兵,检索原理、规则面面俱到,却很少不涉
及实际的检索方法、技巧和案例,可操作性不强。
文献检索策略概述
• (一)检索策略定义
• (二)常用的检索策略类型
(一)检索策略定义
• 广义的检索策略
▼指为实现检索目标而制定的全盘计划和方案
▼具体而言,就是在明确检索目的、分析课题特征的基础上
,选择合适的数据库和检索系统,拟定检索方案、确定检
索词,构建检索提问式,执行检索并调整检索式,直至获
得较满意的检索结果的全过程。
(一)检索策略定义
• 狭义的检索策略
▼特指检索过程中构建检索式的环节
▼包含检索式的确定,运算符的选择,检索字段的设定及限
制选项的设置等
(二)常用的检索策略类型
• 积木型
把检索课题剖析成若干个不同的概念面,逐个查找各个概
念面;在每个概念面检索时尽可能地列举同义词、近义词
和相关词,用“OR”连接,构成针对每个概念面的检索式,
即多个子检索式;最后根据课题要求,选用合适的布尔逻
辑算符把所有子检索式连接起来,构成一个总的检索式。
这种策略类似于把各个积木块拼成完整的图案,因此称为
积木型检索策略。
(二)常用的检索策略类型
• 逐次逼近型
先用一个较宽泛的检索式,确定一个范围较广的命中文献
初始集;
然后逐步用各种检索限制或限定措施,逐渐提高检索式的
专指度,缩小命中文献集,直到得到最接近课题主题、数
量适宜的文献集为止。
这种策略有利于平衡检索的全面性和准确性,能较好地掌
握检索限制和限定的尺度,可取得相当好的检索效果。
(二)常用的检索策略类型
• 最专指面优先
首先从课题中最专指的一个概念面入手检索,得到初步
结果后再决定是否要加入其它概念面。
这些其它概念面只有在要提高查准率时才要输入,各概念
面在检索式中是逻辑“与”的关系。如果觉得命中文献太少
,通常不需要再加入其它概念面在检索式中。
这种检索策略比较灵活,检索用时相对较少。
各种检索系统功能和数据库质量
•
•
•
•
•
维普数据库
中国知网
万方数据库
国家图文中心
中华人民共和国国家知识产权局专利查询
系统
• DIALOG检索系统
重庆维普中文科技期刊全文数据库
http://192.168.3.100/indes.asp
• 优点:收录的每一篇文献进行正规的主题标引,
从而有效地保证了数据库质量,它的基本检索字
段采用单汉字索引,实现了先进的模糊检索功能,
可达到很高的网罗度和专指度。可在一个检索框
中输入整个逻辑检索式,达到一次性检索的目的,
节省许多时间和中间环节。
• 缺点:由于版权的问题,近几年有部分文献如中
华医学会的医学文献得不到收录,文献总量不如
从前。
中国知网数据库系统
http://www.cnki.net/
• 优点:是目前中文文献量最大的数据库。涉及全国传统出
版物与非出版物、音像电子出版物资源的数字化建设;
• 检索框界面完善,可根据作者、单位、主题、题名、全文
、关键词、分类号等不同要求调整不同的检索策略。灵活
方便。
• 检索功能种类多,便于进行各种文献分析。如有专业检
索、引文检索、学者检索、科研基金检索、文献出版来源
检索等。
• 缺点:全文索取要密码、收费。
万方数据库系统
http://192.168.3.102/
• 优点:作为必查的数据库之一,能起到文献的补
充作用。能查到全文。
• 缺点:不可进行组配的检索式的一站式检索;自
动切分词语检索,检索词的模糊性太强,有时会
跳出不相干的文献,增加筛选难度。即检索“噪音
”高、文献筛选量大。
• 如查“卷接机 *切割装置” 会出现卷烟机切割装置、或切割
支撑装置
国家科技图书文献中心
http://www.nstl.gov.cn/
• 优点:文献种类相对较多,有中文库、西文库、
国内外专利、标准等;西文库有翻译,且有两种
翻译结果,外文查起来比较轻松。
• 缺点:外文文献量不足。必须借助其它国外数据
库如DIALOG系统或其它国外专业数据库,才能
保证外文资料的查全率。
中国专利数据库检索系统
http://www.sipo.gov.cn/
• 优点:是目前国内专利最全的专利数据库;
可通过申请(专利)号、名称、文摘、申
请日、发明人、申请人、分类号、代理人
等多途经入口进行检索。
• 缺点:由于是网上检索,受制于网速的关
系,提取专利说明书较困难、速度较慢。
DIALOG检索系统http://www.dialog.com/
• 优点:美国DIALOG系统是世界上最早和最
大的专业情报检索系统 ,拥有近700个联
机数据库都是质量很高、权威的数据库 。
文献量最全的检索系统。
• 缺点:检索方式难、步骤多,需专业培训
;
•
收费昂贵。
检索策略制定步骤
•
•
•
•
•
•
•
•
•
•
•
•
分析课题,明确检索要求——————————
↓
选择合适的检索数据库(系统)
↓
课题主题分析,确定表达概念的检索词;
拟定符合所选检索系统或数据库规定的检索表达式
↓
检索
↓
浏览检出文献,判断结果是否满意——修正检索策略
↓
分析结果,查找原文
分析课题,明确检索要求
• 与用户进行有效的沟通,全面了解检索的
主题内容;
• 认真阅读提供的查新合同书、项目申报书
、用户发表的相关论文及用户掌握的参考
文献;
• 提炼自己所学的专业知识、背景知识和平
时积累的工作经验。
分析主题内容,确定检索概念
• 对检索的主题内容进行全面、深入、准确的分
析,找出内容实质;
• 从析出的主题中提炼出若干个表达实质内容且
具有检索意义的检索概念(主题概念);
• 找出核心概念和隐含的重要概念,将抽象主题
转化为具体概念,归并重复概念,排除无关概
念和次要概念;
• 明确各概念之间的逻辑关系,使分析的主题概
念能准确反映检索的需要。
分析主题内容,确定检索概念
•
•
•
•
•
•
•
•
明确检索要求:检索的主题内容,如某一
技术、某一理论、某一方法工艺,等等。
在查新中主要指项目的科学技术要点和查
新点。
此外,还应了解与项目有关的其他内容,如专
业背景知识(国内外情况、常用的方法、研究
进展、发展方向等),用户掌握的参考文献及
已发表的文献等。
分析主题内容,确定检索概念
• 注意:
• 过多过严的概念组配,很可能导致大量相关文
献的漏检,甚至出现检索结果为零的情况;
• 主题分析不充分,漏掉一些较为重要的概念,
或将无关紧要的内容分析为主题,导致漏检和
误检;
• 主题分析错误,析出的主题与检索的实质性内
容不符,造成漏检和误检。
概念分析及检索词取词技巧
• (一)不能只从题名里取检索词,要多途径分析检索概念
• (二)注意检索词的同义词、近义词、可替代词、学名、别名、俗名
、商品名及简缩写等
• (三)词义概念最小化
• (四)放弃没有检索意义的词
• (五)不要忽略缩略语、元素符号及简单化合物分子式的选用
• (六)可提取公因式
• (七)可用成熟商品名、药名、或形容词等
• (八)注意英文检索词的不同拼写法
(一)多途经获取检索概念
•
•
•
•
•
•
•
•
参考用户提供的检索词;
从用户课题的技术要点中获取;
从课题的项目申报书中获取;
从课题组人发表的论文中获取;
从课题组人的专利发明中获取;
通过试检,从相关文献中获取;
从专业词典、手册、分类表等工具书中获取;
咨询相关的专家。
(一)多途经获取检索概念
• 康妇炎胶囊及中药灌肠治疗盆腔炎性疾病
的疗效评估 :
• 慢性盆腔炎包括慢性子宫内膜炎、慢性输
卵管炎、输卵管积水、输卵管卵巢炎及输
卵管卵巢囊肿,慢性盆腔结缔组织炎。
• 康妇炎*(盆腔炎+子宫内膜炎+输卵管炎+卵
巢炎+卵巢囊肿+盆腔结缔组织炎)
(一)多途经获取检索概念
•
•
•
•
•
•
•
•
•
•
国外查新课题:“酱香型白酒中非法添加甜味剂同时检测
的技术研究及应用”
酒
甜味剂
↓
↓
Liquor
Synthetic sweeteners 人造甜味剂
wine
Sodium cyclamate甜蜜素
distilled spirit
Sodium Saccharin糖精钠
Aspartame阿斯巴甜
Neotame纽甜
Sucralose三氯蔗糖
(一)多途经获取检索概念
• 查新课题“流水线物料流量连续稳定控制的研
究”
•
物料
流量
控制
•
↓
↓
↓
•
供料
计量
自动调节
•
香料
电子秤
稳定调节
•
配制系统
(二)注意检索词的同义词、近义词等
• 查新课题“PASSIM接装机水松纸卷曲器的
设计开发”
•
卷曲器
•
↓
•
卷曲机
•
曲卷器
•
拉毛器
(二)注意检索词的同义词、近义词等
• 查新课题“切丝机砂轮往复机构润滑及密封结构研究”
• 切丝机 砂轮往复机 密封装置
润滑
•
↓
↓
•
磨削系统
密封结构
•
密封系统
•
端盖密封
•
螺纹连接
•
U型槽密封
•
(三)词义概念最小化
• 举例:
• 查新课题——云计算平台上海量医学图像的数据管理和数据挖掘技术
研究
医学图像
︱
医学
︱
医学+X片+CT+核磁共振+MRI
)
图像
(概念最小化)
︱
图片+图像+影像+成像 (同义词等
如:信息系统=信息+系统;突发公共卫生事件=突发*公共卫生*事件;
预警指标体系=预警*指标*体系;
数字化板式探测器=数字化*板式*探测器
(四)放弃没有检索意义的词
注意不能使用的检索词:
• 使用各学科在国际上通用的、文献中出现过
的术语,尽量避免选用冷僻词、自选词、自
编自造的词,或一些专业性极强的罕见词;
• 注重专用词的选择,避免选用过分宽泛的词,
如工艺、研究、技术、开发、方法、研制、问题等;
• 不能用不确定性词如迷你型、袖珍型、便携式等。
(五)注意缩略语、元素符号及简单化合物分子式的选用
• 举例:查新课题——全集成一体化磷化工生产运营信息系统平台
•
•
•
磷化工包含:磷复肥+磷精细化工+磷煤化工+磷酸生产+磷肥+磷酸一铵+磷酸
二氢铵+磷酸二铵,其中
磷酸一铵:分子式- NH4H2PO4;缩略语MAP
磷酸二铵:分子式-(NH4)2HPO4;缩略语DAP
例:断层摄影=CT;核磁共振=MRI
(六)可提取公因式
• 当列出多个相同概念词中都有一个相同词的时候,就可用
提取公因式的方法,只将这个词作检索词,其它的词可省
略不用:
• 如白酒、葡萄酒、清酒、药酒、保健酒、红酒等中提出“
酒”;
• “十二指肠、小肠、回肠、结肠、大肠、直肠中提“肠”;
• 在心脏病、冠心病、心绞痛、心血管病中提“心”等。
(七)可用成熟商品名、药名、或形容词等
•
•
•
•
•
可适当使用成熟、固定和常用的形容词作为检索词。如
:
商品名:老干妈、舒利迭、茅台酒等
药名:六味地黄丸、妇科再造丸、康妇炎胶囊等
形容词:用于白酒的酱香型、醇香型等
病名:SARS、禽流感、 Ilizarov=伊利扎诺夫等
(八)注意英文检索词的不同拼写法
• 在国外检索中有个很重要的问题,同一个概念单词不同国家如英美有
不同的拼写方法。如英美不同拼写方式:
•
•
•
•
•
•
•
aluminium
analyse
colour
fibre
mould
sulphate
tyre
aluminum
analyze
color
fiber
mold
sulfate
tire
(八)注意英文检索词的不同拼写法
• 有些词有合体与分离两种书写形式:
•
anticounterfeit
anti-counterfeit
•
database
data base
•
online
on-line
•
waterproofing
water-proofing
•
wastewate
waste water
•
……
• 选取英文检索词时都要考虑到。
(八)注意英文检索词的不同拼写法
• 国外查新课题“微流体系统中熵势与细胞相互作用研究 ”
• 微流体系统
熵势
•
↓
↓
•
Microfluidic System
•
micro-fluidic system
•
micro- * nanofluidic systems
Entropic
Entropy compression
检索提问式的编写
• 检索式是检索策略的具体体现,是指计算
机检索中用来表达用户检索提问的逻辑表
达式,通常由检索词和各种逻辑算符、截
词符、位置算符以及系统规定的其他连接
符号等构成。
检索提问式的编写
• 恰当使用截词:使用截词检索各种词尾变化的词 “?”
• 使用位置算符指定词组或词间的位置关系:
“与”:“and”=“*”、“或”:“or”=“+”、“非”:“not”=“-”
• 正确使用各种位置算符(w)、(nw)等;
• 字段检索时,前缀与后缀代码的限定使用;
• 注意逻辑算符与位置算符的先后运算顺序,注意
括号的使用。
注意:上述技术的使用要符合所选检索系统或数据库的规定。
随时调整检索策略
•
•
•
•
•
•
•
•
检索后,通过查看文献结果数量的多少或相关程度
的高低,可以评价检索策略的好坏。通常情况下,
为了达到或接近满意的检索效果,采用各种调节方
法和反馈途径对检索策略进行修改、完善,是不可
避免的。在实际检索中,当放宽检索条件以提高查
全率时,就会降低查准率;反之,当缩小检索范围
以提高查准率时,就会降低查全率。因此要正确分
析误检、漏检的原因,及时调整检索策略。
检索策略的优化
• 建立了全面完整的检索式,若使用不当,
也不能达到最佳检索效果。这里面的学问
很大,集中了大量的经验在里面,不是一
两句话就能涵盖的。必须视情况灵活地调
整检索方式的使用范围,才能起到检索策
略的优化。
检索策略优化方法
(一)扩大命中文献量的方法
•
增加同义词、相关词,用“or”、“或”连接;
•
降低检索词的专指度,选用上位词或其他相关
词;
•
减少逻辑“与”、“AND”的运算;
• 去掉次要或太专指的检索概念;
•
调整位置算符,由紧变松;
• 选择“模糊”检索。
如:信息系统=信息*系统;卷烟机=卷烟*机;误诊率=误诊率+误诊
检索策略优化方法
(一)扩大命中文献量的方法
• 去除某些字段限制,或去除文献类型、年份、
• 语种等文献外部特征的限定等。
• 增加检索途径,将主题检索与分类检索等多途径结
• 合起来;采用全字段检索。
• 合理使用截词技术,检索所有相同词干的词。
• 核实拼写。
• 选择多个其他相关数据库。
检索策略优化方法
(一)扩大命中文献量的方法
• 任意字段检索: 在检索结果为零或较少的情况下使用任
意字段检索。根据数据库的特点,任意字段检索是包含了
篇名、关键词、作者所在机构、文摘和刊名等内容在内的
范围检索,是查全率最高的检索形式。
• 全文检索:如需要查找和比较产品生产率、温度、气压强
度、零部件尺寸大小等具体指标时,只有通过全文检索才
能找到,因为这些指标一般不在题名、关键词甚至文摘中
体现。万方数据库有这个功能。
检索策略优化方法
(二)缩小命中文献量的方法
•
提高检索式的专指度,选用下位词和专指度较强的检索
词;
• 加入逻辑算符“与”、“+”、“AND”,增加检索概念;
• 将检索式中的逻辑算符AND改为较宽松的位置算符;或
调整位置算符,由松变紧;
• 选择“精确”检索方式。
• 如:信息系统=信息系统;误诊率=误诊率
检索策略优化方法
(二)缩小命中文献量的方法
• 使用字段限定,将检索词限制在某个或某些主
题字段中检索,如题目字段、关键词字段等;
• 增加文献类型、年份、语种等文献外部特征的
限定;
• 因使用截词导致过多词干相同、但词义完全不
同的词被检出,调整截词的部位或截词方式;
• 或取消截词,将各检索词一一完整输入。
结束语
• 综 上 所 述,检索策略的构建方法和技巧是
多样化的,不能一概而论,要具体情况具
体分析。只要不断总结经验就拟出最佳检
索策略、提高检索质量、才能达到满意的
目的。