第一讲学习研究与信息资源

Download Report

Transcript 第一讲学习研究与信息资源

第四讲 活用检索功能,组配构造表达
《现代信息查询与利用》课程组
• 第一讲 分析课题需求,确定检索策略
• 第二讲 明确查询方法,提取检索词
• 第三讲 依据工具特点,适用目标选择
• 第四讲 活用检索功能,组配构造表达
• 第五讲 评估优化效果,传递开放获取
• 第六讲 阅读分类整理,评价分析筛选
• 第七讲 组织整合结果
综述论文应用
• 第八讲 科学拓展选题
多元思维创新
如何将我们的需求
转化为计算机
能理解的语言?
第四讲
活用检索功能
组配构造表达
• 7 数据库的检索功能
• 8 需求表达的构造
7
数据库通用检索功能
• 7.1 浏览检索
• 7.5 二次检索
• 7.1 分类检索
• 7.5 进阶检索
• 7.1 索引检索
• 7.6 组合检索
• 7.2 初级检索
• 7.6 精制检索
• 7.3 高级检索
• 7.7 跨库检索
• 7.4 专业检索
• 7.8 其它检索
7.1 分类浏览索引检索功能
– 浏览:由系统提供一个树状结构的概念等级知识体
系,用户可以沿着这颗“树”进入不同的分支,到
达叶子节点,并在节点看到检索结果列表。
– 索引:提供一个线性的表单,可以将任何一个标引
字段中的概念按字母顺序线性排列起来,不分等级。
例如:人名索引、出版物索引、地名索引、主题索
引、机构索引等。
例:中文科技期刊全文数据库的学科浏览体系
中文科技期刊全文数据库提供了《中刊库》学
科导航和刊名导航,以便用户进行不同角度的
浏览需求。
分类导航按照《中国图书资料分类法》的标准,
逐层进行分类限制。如用户选中选中某类目,
则检索结果包括此类目下的全部数据库。
例如“图书情报”是一级类目,“图书馆学、图
书馆事业”是二级类目,而“读者工作”为三
级类目。左图标识是书本,表示该类目还有下
位类,而 标识是页面,表示该类目是终端类目
例:分类检索及示例
• 分类目录一般以树状结构显示,用户通过逐级层层点击浏
览,逐步缩小主题,来找寻所需内容。
• 特点:
– 查准率相对高,查全率相对低,在检索
学科专业属性明显的信息时利用这种方
式极为方便,
– 数据库信息归类质量与用户对信息类别
了解的程度将直接影响到查询结果。
• 分类检索可与其它检索功能结合使用。
例:EI系统的索引体系
EI 系统提供了五种索引:作者(author)、作者单位(author
affiliation)、期刊名(serial title)出版者(publisher)和叙词
(controlled item),
例:浏览索引(Browse Indexes)的使用
例:浏览索引(Browse Indexes)的使用
7.2 快速检索
Quick Search,为系统默认的检索界
面,能够进行直接快速的检索
7.2
初级检索功能
比较通用的检索功能主要有:
– 简单(初级)检索(Easy Sesrch)
– Basic(基本检索):为用户提供一个简单的检索界
面,页面上通常提供一个(或三个以内)检索框。
–有时会提供布尔逻辑检索技术
例:维普初级检索
• 是面向一般读者提供的检索功能。
• 特点:适用于不熟悉多条件组合查询的用户,适宜一些简
单查询
• 特点:方便快捷,效率高,但查询结果有很大的冗余。
–如果在检索时进行二次检索或多加限制条件则可以大
大提高查准率。
例:CNKI初级检索:
例:EI的Easy Sesrch
7.3 高级检索功能
比较通用的检索功能主要有:
– 高级(复杂) Advanced检索:用户提供多个简单的
检索界面,页面上通常提供三个以上检索框。提供多
种检索途径与技术供选择匹配。
• 高级检索可以实现多项双词逻辑组合检索和双词频
控制,可以构建比较细致的检索式,
例:高级检索
• 借助多种检索技术能进行快速有效的组合查询,
包括布尔逻辑检索、位置检索、截词检索、限
比初级检索少
了17000多篇
制检索等。
• 优点:查询结果冗余少,命中率高。
• 缺点:必须掌握一定的检索技术。
• 对于命中率或者专指度要求较高的查询, 建
议使用该检索系统。
例:CNKI高级检索
例: 高级检索
A
C
E
B
D
F
运算顺序:
(篇名:A and B)and (主题:C or D) not (关键词:E and F)
与初级检索界面相似,只是
一条逻辑项多加了一个检索
词,并逻辑项多列了二条
7.4 专业检索功能
比较通用的检索功能主要有:
–专业检索Expert(专家检索) :
–比高级检索具有更多的功能,需要
检索人员根据系统的检索语法编制
检索式进行检索。
•适用专业用户和熟练掌握检索技
术的人员
例:EI专业检索
提供更强大而灵活的功能,可使用更复杂的布尔(Boolean)逻
辑,不自动进行词根运算,但可使用逻辑算符(AND、OR、NOT),
位置算符(NEAR),截词(*),词根符($),精确短语检索(
使用括号或引号),算符(Wn)等检索算符。
例:CNKI专业检索
该检索方法使用于对检索非常熟悉的读者。
7.5 二次检索功能
比较通用的检索功能主要有:
–二次检索:在检索结果内进一步检索,使检索结果
更精练、准确。
• 检索过程需要精练检索词,结合运用多种检索技
术与途径,以获得更满意的检索结果
例:中国期刊全文数据库的二次检索功能
7.6
精制与组合检索功能
比较通用的检索功能主要有:
–精制检索:在有了检索结果基础上运用索引进一步
精制检索表达式,使检索结果更精练、准确。
–组合检索:在多次检索结果基础上,可以利用相关
检索字段使用布尔逻辑and或or将已经检索过的检索
表达式重新结合起来检索
–多见于西文数据库
例:EI Village2的精制检索
高级+精制检索
 点选2种语
言后自动加
入输入框
例:EI Village2的精制检索
高级+精制检索结果
例:EI Village2的组合检索
检索历史导航条
组配检索输入框
#2 AND #3
输入新组合的检
索式;
输入#检索序号
可保存检索式
本页面可完成:保存检索式,重新
浏览检索结果,组合新的检索式。
7.7 跨库检索功能
比较通用的检索功能主要有:
–跨库检索:
– 跨库检索是指以同一检索条件同时检索多个库。这
些库结构可能相同(同构),也可能不相同(异
构)。能实现同一检索平台内多个数据库间的一站
式检索。
– 分为简单检索、高级检索和专业检索。其检索方法
与单个数据库检索方法大致相同。
例:跨库初级检索结果
•7
检索工具通用功能
•8
需求表达的构造
–8.1
检索途径
–8.2
检索技术
–8.3 检索限定
–8.4
结果限定
–8.5
检索历史
第四讲
活用检索功能
组配构造表达
8.1
信息检索途径
• 根据文献信息源所具有的物质属性与价值内涵可将信息
源特征分为外表特征和内容特征两类。
• 检索途径:提取信息源的外部与内部特征形成,又称为
检索点,或检索入口。
8.1.1
外表特征----外表途径
• 指的是从构成文献信息源的载体、符号
系统和记录方式三要素中提取出的特征
构成
– 如:出版时间、出版地、出版版次、
责任者、文献题名及声像与电子类型
等均分别构成相应的检索途径:
• 专利号、ISBN、分类号等形成序
号途径;
• 引用文献形成引文途径。
8.1.1 外表途径
在数据库检索中外表特
征多通过界面的下拉限制
菜单控制
8.1.2 分类途径与分类法
我国主要分类法有《中国图书馆图书分类法》(简称中图法)、
分类:
就是按照事物的性质、特点、用途等作为区分的标准,将符合同一标
《中国科学院图书馆图书分类法》(简称科图法)和《中国人民大学图
书馆图书分类法》(简称人大法)三种 (P28)
准的事物聚类,不同的则分开的一种认识事物的方法。
国外影响较大的有《杜威十进制分类法》(简称杜威法或DDC )、
按照信息内容的学科属性,运用概念划分与归纳的方法形成各级类
《国际十进分类法》(简称UDC
)、及《美国国会图书馆图书分类法》
(简称国会法,LCC)。
从而组织信息形成一种有序化的知识体系,这样组织信息的方法称为分类法。
分类法:
•
优点:科学、系统、满足“族性检索”,查全率高,
•
缺点:对横向信息时非常不便
• 《中图法》有22个大类,分类号采用字母与阿拉伯数字相结合的号码;其
中字母代表大类,数字代表大类下的细分,我校图书馆藏书分类皆按照中
图法进行分类管理。
• 从网络地址“http://www.ztflh.com/” 可以访问《中图法》详细类目
8.1.2 分类途径与分类法
我国主要分类法有《中国图书馆图书分类法》(简称中图法)、
分类:
就是按照事物的性质、特点、用途等作为区分的标准,将符合同一标
《中国科学院图书馆图书分类法》(简称科图法)和《中国人民大学图
书馆图书分类法》(简称人大法)三种 (P28)
准的事物聚类,不同的则分开的一种认识事物的方法。
国外影响较大的有《杜威十进制分类法》(简称杜威法或DDC )、
按照信息内容的学科属性,运用概念划分与归纳的方法形成各级类
《国际十进分类法》(简称UDC
)、及《美国国会图书馆图书分类法》
(简称国会法,LCC)。
从而组织信息形成一种有序化的知识体系,这样组织信息的方法称为分类法。
分类法:
•
优点:科学、系统、满足“族性检索”,查全率高,
•
缺点:对横向信息时非常不便
8.1.2 分类途径与分类法
分类:就是按照事物的性质、特点、用途等作为区分的标准,
将符合同一标准的事物聚类,不同的则分开的一种认识事物
的方法。
分类法:按照信息内容的学科属性,运用概念划分与归纳的方
法形成各级类从而组织信息形成一种有序化的知识体系,这
样组织信息的方法称为分类法。
• 优点:科学、系统、满足“族性检索”,查全率高,
• 缺点:对横向信息时非常不便
8.1.2 分类途径的表现
通过选择数据库提供的
输入框的下拉分类限制
或导航树浏览;
导航树浏览
1.4.1 分类途径的表现:导航树浏览
8.1.2 主题词途径与叙词表

主题途径中运用较广的有主题词
途径和关键词途径两种
8.1.2 主题词和关键词的区别与联系
主题指文献所论述的主要对象,包括事物、问题和对象等。
主题词:经过选择、规范化并用来表达文献主题的语词,称为
主题词。
关键词:出现在文献篇名或文献正文中,并未经过规范化处理,
表示文献主题的名词或词组。
如文献“Personal Computer(PC)的原理”
主题词是“个人计算机”,
关键词有“Personal Computer”和“PC”
8.1.2 叙词表
国家专门组织编撰的
《汉语主题词表》,
罗列了描述一切学科
事物的规范性用语
很多信息检索工具都自备了主题词表(叙词表
(Thesaurus) )
词表(Thesaurus)的利用
 寻找词(Search)
精确词
(Exact Term)
 浏览(Browse)选择
词
词表
利用
实例
8.1.3
引文途径
•引文途径
文献所附参考文献或引用文献,是文献的外表特征之
一。利用这种引文而编制的索引系统,称为引文索引系统,
它提供从被引论文去检索引用论文的一种途径,称为引文
途径。
8.1.3
什么是引文
一篇论文
参考论文
参考书
这篇论文的
参考文献
参考专利
Cited Reference Searching
Cited References
1990
Times Cited
2000
2011
Related Records
学科起源、
修正、变迁
相关文献
学科演变、最新进展
• 7 检索工具通用功能
• 8 需求表达的构造
–8.1
–8.2
–8.3
–8.4
–8.5
检索途径
检索技术
检索限定
结果限定
检索历史
第四讲
活用检索功能
组配构造表达
8.2
检索技术
信息检索技术,指利用现代信息检索系统检索信息而采
用的相关技术
• 8.2.1
布尔逻辑检索技术
• 8.2.2
截词检索技术
• 8.2.3
字段检索技术
• 位置检索技术
• 加权检索技术
• 其它检索技术
8.2.1 布尔逻辑检索技术
• 利用布尔逻辑算符(Boolean Operators)将用户的每
一步简单概念组配成一个具有复杂概念的检索提问式。
• 常用的布尔逻辑算符有三种
– 逻辑与“AND”
– 逻辑或“OR”
– 逻辑非“NOT”。
8.2.1
布尔逻辑与
• 作用:是限定检索结果,
缩小检索范围,增强检
索的专指度,提高信息
的查准率。
• 逻辑运算符:“AND”、
“*”。
• 逻辑表达式:“A AND B”
或写成“A * B”。
• 检索语义:被检索的文
献记录中同时含有A和B
两个概念。
environment
resourse
提问式可写成:
environment and resourse
或 environment * resourse
8.2.1
• 作用:用于并列概念的
一组组配。使用逻辑或,
可以扩大检索范围,提
高信息的查全率。
• 逻辑运算符:“OR”、
“+”
• 逻辑表达式:“A OR
B”、“A + B” 。
• 检索语义:被检文献中
含有A或含有B以及两词
概念都包含 。
布尔逻辑或
resourse
environment
提问式可写成:
environment or resourse
或 environment
+ resourse
8.2.1
布尔逻辑非
• 作用:用于排除含有不需
要概念的信息,可缩小
所检索信息的范围。
• 逻辑运算符:“NOT”、
“-”
• 逻辑表达式:“A NOT
B”、“A - B”。
• 检索语义:被检文献中
含有A而不含有B概念 。
environment
resourse
提问式可写成:
environment not resourse
或 environment - resourse
8.2.1
布尔逻辑检索技术数据库应用实例
注意:在不同的检索系统里,布尔
逻辑的运算次序是不同的,因此会导
致检索结果的不同。
8.2.2
截词检索技术
•截词检索 (truncation) — 截词符
•是检索词与数据库所存储信息字符的部分一致性匹配检
索,又称部分一致检索,检索词的单复数形式,同一词英、
美不同拼法,词根相同的词都可用截词检索。
• 按 截 词 位 置 分: 有前截断、后截断、中截断;
• 按截词的字符数量分:有非限制截断、限制截断。
• ** 表示截词的截断符号,各检索系统有不同的规定,
没有统一标准。
8.2.2
截词检索技术
• 例:EI通配符(wildcard):用“?”表示通配符,代表有
一个字符的变化,如:输入wom?n得到woman或women。词根符(
$):检索出与该词根具有同样语意的词。如:输入 $management,
结果为managers,managerial,management等词。
8.2.2
前截词检索技术
• 前截词检索(后方一致)
– 英语系统中多用于以构词词素为词头的英语单词的检
索,利于扩大检索范围。
– ?英语考试—-四级英语,六级英语,研究生英语考试
– ?lish------ English, abolish, foolish, polish,
accomplish
8.2.2
前截词检索技术
• 前后截词检索(中间一致)
– 使用此所检索信息范围将更广。
– ?考试?------英语考试,考试试题,计算机等级考试指南,
考生考试前的心理调整等
– ?ea?—bread, wealth, ear, conceal, least, beauty
8.2.2
中截词检索技术
• 中截断 (通配符或屏蔽)
•例: colo?r ,可检索到包含 color、colour、colonizer、
colorimeter的记录。
•
一个? 和数字,其中的数字代表可替换的字符数。
•
例:colo?1r, 只能检索到包含colour的记录。
8.2.2
中截词检索技术
• 中截断 (通配符或屏蔽)
• 是把截断符号置于一个检索词的中间,对词中间出现
变化的字符数加以限定。一般中截断仅允许有限截断。
•
例:organi#ation, 可检索到包含organization和
organisation的记录。
8.2.2
•
•
后截词检索技术
后截断(前方一致检索)
•在检索词词干后面加截词符,表示不限制或限制词尾可变化的字符数,即查
找词干相同的所有词。
非限制截断
•
例:
comput?
表示允许其后可带有任何字符且数量不限,相
当于查找compute、 computed、 computes、 computing、 computer、
computerize、computation、 computational、 computationally 等词
•
限制截断
•例:fib??
相当于查找 fiber 或 fibre ……(Ei Compendex Plus)
•educat?? 相当于查找Educator,educated……
•199?
相当于查找1990、1991、1992 ……1999
8.2.2
截词检索实例
玻璃
玻璃纤维\玻璃器材\
玻璃纱
玻璃
有机玻璃\玻璃\防弹玻
璃\彩色玻璃制作工艺
词根检索
• 有些检索系统不支持使用截词符的截词检索
技术,系统默认的是词根检索,即输入一个
词,系统会自动检索出同一词根的一组词,
例如输入gene,可以检索出gene,genic,
genome等。这是一种智能检索方式,但要求
系统内必须预先配置词根表。
–IEE/IEEE全文数据库默认词根检索,有些
数据库需要加入词根运算符如“$”才进行词
根检索。
8.2.3 位置检索技术
•文献记录中词语相对主
题的次序不同
•在检索式中,检索词的相对次序
不同,表达的检索意图不一样
位置算符检索技术:
采用位置运算符来限定检索词与检索词
之间的位置关系、来限定和组配检索词,
可弥补布尔逻辑算符的不足。
(P)同自然段邻接: 费
俊龙(P)聂海胜要求两词
在同一自然段中,词 序不
限(如文摘的自然段)。
(S)同句邻接:费俊龙
(S )聂海胜要求两词在同
一自然句中
•
8.2.3
位置算符检索
注意:
–不是每一个检索系统都使用上述位置算符,不同
的系统使用的位置算符不同,不同的算符在不同
的系统中有时可能含义不同。
–例如“W”算符,在Dialog检索系统表示两词相邻,
输入顺序不变;在ProQuest系统中,“W”算符表
示输入的两个词相邻,但顺序可变,如顺序要求
不变,则使用“Pre”算符。用户可以查阅help帮助
文档说明。
range searching,指定检索词出现的字段,被指
定的字段也称检索入口。
8.2.4
字段检索
注意:目前各个检索系统所设立的字段是各不相同的,即同一字段,也可能
采用不同的字段代码表示。
在进行字段检索时,为了避免出现检索误差, 应先看一下该数据库的使用指南或说
明。
限定字段检索实例:
数据库
P35图2-9
8.2.5
加权检索
• 是某些检索系统中提供的一种定量检索技术。
• 在于判定检索词或字符串在满足检索逻辑后对文献
命中与否的影响程度。
•
加权检索的基本方法是:
– 在每个提问词后面给定一个数值表示其重要程度,这个数值称为权
– 在检索时,先查找这些检索词在数据库记录中是否存在,然后计算存在的检
索词的权值总和。
– 权值之和达到或超过预先给定的阈值,该记录即为命中记录。
• 运用加权检索可以命中核心概念文献,它是一种缩
小检索范围提高检准率的有效方法。
8.2.6 其它检索技术
• 全文检索技术:主要应用于 企业信息门户、
媒体网站、政府网站、数字图书馆、搜索引
擎及商业网站
• 自然语言检索技术:查询时采用自然语言中
的字、词、或整个句子作提问式进行检索。
检索系统借助人工智能技术自动分析提取关
键词匹配查找,输出最相关记录。
–如:用“How many people are there in China
8.2.6 其它检索技术
• 多媒体检索技术
– 基于内容的多媒体检索是指对多媒体数据(音频、
视频流等)所蕴涵的物理的和语义的内容进行计
算机分析理解以方便用户查询
– 目前只是基于低层的视觉或听觉特征的多媒体检
索,而不是基于语义内容的高层多媒体检索
– 如:目前只能查询色彩、相似形状或相似节奏的
视频(图像)或音频,是对视觉或听觉特征进行
相似度匹配
8.2.6 其它检索技术
• 大小写敏感(case sensitive)
– 指西文检索系统中对用户检索式包含的大小写的
处理方法。
– 例如:检索词为“Apple” 。
• 禁用词表(stop words)
– 在西文数据库检索中,系统对信息进行标引时,
不能做标引词或检索词的语词,包括介词、冠词、
代词、连接词、某些形容词或副词等。这部分词
语由于使用频率过高,不能反映信息的实际内容,
即使用户输入,系统也不会对其进行检索,又称
停用词。
– 如a an in for the should she well only等。
检索技术综合运用示例2:中文数据库
检索技术综合运用示例3:外文数据库
• 7 检索工具通用功能
• 8 需求表达的构造
–8.1
–8.2
–8.3
–8.4
–8.5
检索途径
检索技术
检索限定
结果限定
检索历史
第四讲
活用检索功能
组配构造表达
8.3 检索限定
• 检索限定实际是把年代、文献类型、研究对象、等在基本
检索窗口可实现的常用限定条件整合到一个表单中供您选
择。 减少二次检索操作,提高索效率。
• 限定条件类型:
– 年代
– 文献类型
– 研究对象
8.3 检索限定
• 检索限定实际是把年代、文献类型、研究对象、性别等在
基本检索窗口可实现的常用限定条件整合到一个表单中供
您选择。 减少二次检索操作,提高索效率。分为:
– 可选的“限定条件” (Limits)
– 或“扩展条件”
8.3 检索限定
• 限定条件类型:
• 1、将检索词限定在某一特定字段(Limited to);
• 2、将检索限定在某一特定年龄组(Ages) 、姓别( Gender) 、
人或动物(Human or Animal);
• 3、将检出的文章限定在某一指定的语言(Languages),
• 以及某一指定的出版物类型( Publication types),如综述;
8.3 检索限定
• 限定条件类型:
• 4、用输入到数据库的日期( Entrez Date)或期刊出版年代
( Publication Date) 限定;
• 5、将检索限定在PubMed 中的某一子数据库(Sebsets)。
• 6、常用限定检索字段有:
– Affiliation、All Field(默认)、Author、EC/ RN Number (酶
学编码字段) 、Entrez Date (录入Entrez系统的日期) 、
Issue (期刊期号) 、Journal (期刊名) 、Language (语种)
、Publication Types (出版物类型字段) 、Gene Name、
Protein Name等。
8.3 检索限定
• 限定检索 (Limits)的调整
– 进行限定检索时,您可以在检索前设置限定条件,也可
以在检索后设置限定条件,还可以根据需要随时修改限
定条件。
– 如果您是在检索后设置限定条件,或对限定条件进行了
修改,需点击“检索条件”才能对当前检索条件执行新限
定检索
• 7 检索工具通用功能
• 8 需求表达的构造
–8.1
–8.2
–8.3
–8.4
–8.5
检索途径
检索技术
检索限定
结果限定
检索历史
第四讲
活用检索功能
组配构造表达
8.4 结果限定
• 选择命中结果的排列顺序:
• 按Relevance(相关度)
• Date(日期)排序
• 结果输出
• 下载保存
• E-mail
• Print
• 输出到时文献管理软件
8.4 结果限定
• 结果显示格式
– 显示屏上有检索提问框中的当前检索式、检出的记录
总数、每页显示条数,共显示页数,以及命中记录初始
简要格式。检索结果可采用多用方式进行展示。
– 检索结果中通常包含题目、期刊年份期号和页码、作
者姓名、文摘,MeSH主题词,指向全文的链接、引
文(引证情况)的链接等
8.4 结果限定
• 结果输出格式
– 引文记录格式
– 文摘记录格式
– 详细记录格式
例:EI检索结果的显示
引文格式显示
标记记录
点击查看文摘或详细记录
例:EI检索结果的详细记录显示
8.4 结果限定
• 结果输出方式
– view selections(查看)
–e-mail(电子邮件)
–print(打印)
–download(下载)
–save(保存)
–输出到文献管理软件
选择输出格式
选择输出方式
例:EI检索结果的输出方式
保存为文本文档
例:CNKI检索结果输出到EndNote
• 7 检索工具通用功能
• 8 需求表达的构造
–8.1
–8.2
–8.3
–8.4
–8.5
检索途径
检索技术
检索限定
结果限定
检索历史
第四讲
活用检索功能
组配构造表达
8.5 检索历史
• 检索历史 Search history
–检索历史记录所进行的每一次检索
–点击特征栏上的History 可显示检索
式的检索序号、检索词、检索时间以
及检索结果数量,以便于利用检索序
号进行检索式之间的组配检索。
例:EI检索历史
点击任何一个检索式来重新运行此检索。
思
考
1、信息检索途径与技术的类型有哪些?
2、检索需求与构造检索表达式的关系?