文献信息检索

Download Report

Transcript 文献信息检索

计算机信息检索
图书馆智能楼四楼,Tel:87600408
87600420
E-mail:[email protected]
什么是信息?

在西方早期出版的许多文献著作中,“信息
”(Information)和“消息”(Message)两词是
互相通用的。随着技术的发展,出现了“信息
就是信号”、“信息就是数据”、“信息就是
情报”的说法。但是,信息与消息、信号、数
据、情报的概念并不相同:消息是信息的外壳
,信息则是消息的内核。信号只是信息的载体
,信息是信号所载荷的内容。数据是记录信息
的一种形式,但不是唯一的形式,因此不能把
它等同于信息本身。情报一词在日语中的确就
是信息,但是在汉语中,情报只是一类专门的
信息,是信息的一个子集。

综合各种对信息概念的描述,信息是世界
上一切事物的状态和特征的反映,是用文
字、数据或信号等形式,通过一定的传递
和处理,来表现各种相互联系客观事物在
运动变化中所具有特征内容的总称。人们
认识世界的过程,实际上就是不断从外界
获取、加工和运用信息的过程。在当今信
息社会中,信息与物质、能量一起,成为
社会经济发展的三大支柱,物质提供材料
.能量提供动力,信息提供知识与智慧。
信息已经成为促进社会经济发展的重要资
源。
信息检索概念

Information Retrieval
广义概念——是指将信息按一定的方式
组织和存储起来,并根据信息用户的需
要找出有关的信息过程,故全称:“信
息的存储与检索(Information Storage and
Retrieval ) 。
 狭义概念——仅指上述过程的后半部分
,即从信息集合中找出所需要的信息的
过程,相当于人们通常所说的信息查寻
(Information Search)。

信息检索可分为直接检索和间接检索。
 直接检索——直接从信息源和文献载体中
获取信息;
 间接检索——通过信息检索工具或检索系
统获取所需的信息。
 检索工具:报道、存储和查找信息的工具
;书本或卡片式,手工检索。
 检索系统:由检索设备和加工整理好并存
储在相应的载体上面的文档或数据库等共
同构成。


计算机信息检索,是指以计算机技术为
手段,通过光盘、联机和网络等现代检
索方式进行的信息检索。
信息检索的意义


现代科技的发展,每时每刻都有新的发明创造
,信息也出现新陈代谢加快、老化加剧、使用
寿命缩短的趋势。而现代信息技术的发展,特
别是计算机技术、电子技术、远程通讯技术、
光盘技术、网络技术发展,使信息的载体从传
统的纸质印刷型媒介向光学、磁性媒介发展,
信息的传递速度越来越快,传播面也越来越广
,信息检索手段越来越先进。面对爆炸式增长
的信息量,信息检索是进行科学研究必不可少
的手段之一
如何从这浩如烟海的信息中找出所需信息,
是信息检索的重任。
信息检索的作用


充分利用信息资源,避免重复劳动 :积累、
继承和借鉴前人的研究成果是科技发展的重要
前提,在研究工作中,任何一个项目从选题、
实验研究或设计,到成果鉴定,每一步都离不
开信息。只有充分掌握了有关信息,才能避免
重复,少走弯路,保证研究工作在尽可能高的
层次上起步,并缩短研究周期。
更新自身知识积累,适应社会发展需要 :掌握
信息检索的方法与技能,是形成合理知识和更
新知识的重要手段,是做到无师自通、不断进
取的主要途径。
学习方式
利用图书馆各文献数据库中的“帮助”
功能和图书馆的信息检索讲座 (每周四
下午),自助学习本课程。
 上机实习地点:图书馆智能楼公用机房
或连通校园网的任何一台计算机

 实习时间:公用机房开放的任何时
间。上校外网请自带帐号(在校网
络中心申请)
 上机时请随带本人借书卡,并进行
登记
交流方式
可通过E-mail、电话或到图书馆智
能楼四楼信息服务室当面咨询。
 或通过图书馆主页“服务指南”栏
目下的“用户培训”发布培训计划
。图书馆业务通告栏将即时发布有
关信息。

图书馆讲座通知
 每周四13:30,图书馆智能楼四楼文
检课教室
 具体每一讲内容及时间请关注图书
馆“用户培训计划”与图书馆发布
的通知。
科技文献信息的结构等级
零次文献:是指未经过任何加工的原始文献
,如实验记录、手稿、原始录音、原始录像
、谈话记录等。零次文献在原始文献的保存
、原始数据的核对、原始构思的核定(权利
人)等方面有着重要的作用,其特点是信息
来源直接真实, 内容新颖。
 一次文献:是指作者以本人的研究成果为基
本素材而创作或撰写的文献,如阅读性图书
、期刊论文、科技报告、专利文献、会议文
献、学位论文、技术档案等都是一次文献。

科技文献信息的结构等级

二次文献:是指文献工作者对分散的无组织的
一次文献进行搜集、提炼、浓缩、加工、整理,并
按一定的科学方法组织编排、编辑出版的文献,
是为了更有效地管理和利用一次文献而编辑的工
具性文献。如各种目录、题录、文摘及机读型书
目数据库、网上检索引擎等都属于二次文献。

三次文献:是指对有关的一次文献和二次文献
进行广泛深入的分析、研究、对比、综合、评述
、概括而撰写的文献,如综述、述评、年度进展
报告、百科全书、手册、年鉴、辞典等。其特点
是文字精炼、叙述简明扼要,具有系统性、综合
性、知识性和工具性等特点。
十大情报源



是指人们在进行科研及技术工作时使用频率
比较高的十种情报来源的总称。
1.科技图书:是对某专门知识或某学科进行
系统的论述或概括的一种情报来源。其主要
特征是内容比较成熟,但相对比较陈旧。合
法出版的图书均有版权页。
2.科技期刊:又称连续性出版物(serials),是
一种定期或不定期连续出版的文献载体,它
一般有同样的名称,按一定时间编定卷号,
每一卷又分若干期。
十大情报源


期刊是人们获取信息的最重要来源,在科学
家和专家们所利用的全科技信息中,由期刊
提供的占70%左右。
电子期刊在目前网络时代中正在崛起,其形
式也有多种,包括印刷期刊的数字化、印刷
期刊的网络版、网络期刊(开放访问期刊)
十大情报源




3.科技报告:报道(记录)研究和开发调查
工作的成果或进展情况的一种文献类型,
一般都编有号码,供识别报告本身及其发
行机构 ,报告是一种典型的机关团体出版
物。
科技报告的流通范围有绝密、秘密、保密
、非密限制发行、非密、解密等
由于科技报告是非正式出版的,获取比较
困难。
我国每年发表科技报告5万余篇,中国科技
信息研究所是我国科技报告的收藏单位。
十大情报源


4.会议文献:是指学术会议文献,它往往
反映出科学技术的发展趋势,其特点是与最
新成果的间隔时间短,但其内容与期刊相比
可能不太成熟。
会议类型大致可分为国际会议、全国性会议
及地区会议等。会议和会议文献常用的主要
名称有conference(大会)、meeting(小
型会议)、symposium(讨论会)、
proceeding(会议录)、paper(单篇论文
)、transaction(汇报)等。
十大情报源

5.专利文献:在实行专利制度的国家
,凡是本国或外国的个人和企业有了
创造发明,都可以根据专利法的规定
,向本国或外国专利局提出申请,经
审查合格,批准授予在一定年限内享
有创造发明成果的权利,并在法律上
受到保护,这样一种受到法律保护的
技术专有权利叫做专利。


广义的专利文献是指所有与专利制度有关的
文件, 包括专利申请书、专利说明书、专利
分类、专利公报、专利文摘、专利证书等;
狭义的专利文献仅指专利说明书。
根据专利的技术水平和应用情况,专利类型
有invention(发明)、utility patent(实用新
型)和design patent(外观设计)等。
十大情报源
6.标准文献:经过公认权威当局批准的
标准化工作成果,可以采用文件形式或
规定基本单位(物理常数)这两种形式
固定下来、以文件形式出现的标准化工
作成果,就是标准文献。
 标准按使用范围可分为国际标准、区域
标准、国家标准、地方标准、行业标准
和专业标准等
 标准一般过若干时间就要进行修订, 新
的标准不断地替代旧的标准。因此,查阅
时应以最新标准为准。

十大情报源
7.学位论文:是高校研究生、毕业生为
获得学位进行科学研究而写出的学术性
论文。按学位不同可分为学士论文、硕
士论文和博士论文。
 硕士和博士论文具有一定的学术性、独
创性、系统性和完整性, 具有重要的参
考价值。学位论文一般不公开发行, 多
数收藏在授予学位的大学图书馆、档案
馆或研究机构的文献信息中心。

十大情报源


8.产品资料:一般是指产品样本说明书,是厂商或
贸易机构为宣传和推销其产品而印发的免费赠给消
费者的资料。如产品目录、产品样本、产品说明书
、产品总览、产品手册等。如今,许多厂商已经开
始利用互联网发布产品信息,网上可以找到不少产
品资料。
9.技术档案:技术档案是在生产或科研活动中形成
的,有具体工程和研究对象的技术文件的总称, 包
括任务书、协议书、技术经济指标、研究计划、方
案、试验设计实验记录调查材料、总结报告等所有
应入档的资料。技术档案有一定的保密性, 一般在
内部控制使用。
十大情报源

10. 报纸:报纸以及广播、电视等大众
传媒传递信息快, 信息量大, 现实感强,
传播面广, 具有群众性和通俗性, 是重
要的社会舆论工具和信息源。一些专门
刊登科技类文献的报纸对了解当前的学
科前沿和水平以及科学新闻很有益处。
主要文献类型的著录格式
专著: 作者. 书名. 出版地:出版者,出版年
如: Borko H, Bernier C L. Indexing concepts and methods.
New York:Academic Press,1978
 期刊: 作者(多作者用逗号分开,超过3个者用et al). 文章
题目.刊物名称,年代,卷数(期数):页数
如: Porter MF, Zhang J. An algorithm for suffix stripping.
Program, 1980, 14(3):130~137


学位论文:作者.题名[学位论文]. 保存地点:保存单
位,年份
如:Cairns R B. Infrared spectroscopic studies on solid
oxygen [dissertation]. Berkeley: Univ. of California,1986
主要文献类型的著录格式(续)
报纸文章: 作者. 题名. 报纸名, 出版日期(版次)
如: Amy Harmon. UN summit on Internet copyright.
The Seattle Times, Dec. 2, 1996
 论文集: 作者. 题名. 见(In): 编者. 论文集名. 出
版地:出版者, 出版年,起止页码
如: Hunninghaks GW,Gadek JB, Szapiel SV et al.
The human alveolar macrophage. In:Harris CC ed.
Cultured Human Cells and Issues in Biomedical
Research, New York: Academic Press, 1980,
54~56

其它文献类型的著录格式



(1) Kahn R. A framework for distributed
digital object services (Tech. Rep.). CNRI.1995(
科技报告 或技术报告 )
(2) Neal J. The Digital Imperative:Building
the Electronic Library of the Future. '98 General
Conference of International Federation of Library
Associations and Institutes, Amsterdam, The
Netherlands, 1998 (会议录或会议文献)
(3) Dougherty R C. Chemical and biological
agent resistant hose for gas transmission and
personnel protection. USA. US6,029,712(CI. 138141; F16L9/14),29 Feb 2000.( 专利 )
主要文献类型的著录格式


(4) ISO. Information processing-Text
and Office System-Standard Generalized
Markup Language (SGML). 1986, No.ISO8879
( 标准或技术标准 )
(5) US Congress Office of Technology
Assessment. Intellectual property rights
in an age of electronics and
information. Washington D. C.: US
Government Printing Office, 1996 ( 政府
出版物 )
计算机检索的基本原理




检索技术及其实现
检索技术包括基本布尔逻辑组配、截词、词位
限制、检域限制等。
布尔逻辑组配是现行计算机检索的基本技术,
主要通过“和(and,*)”、“或(or,+)”、“非
(not,-)”等将检索词联络起来
如:信息检索 AND 计算机
(信息检索 OR 文献检索) AND 计算机
文献检索 NOT 文献检索课
检索技术及其实现——截词




截词包括后截(最常用)、中截、前截等。不同
检索系统截词符各有规定,常用有:?、*、!、$
在DIALOG国际联机检索系统中,用?作为截词符
,主要包括下列情形:
符号
?
? ?
??
意义
前、后、中截词
后截一字符
后、中截二字符
实例
?computer computer?; wom?n
computer? ?
act??; encyclop??dia
???
后、中截三字符
computat???
检索技术及其实现——检域限制











检域限制也称字段限制,包括前缀限制符和后缀限
制符。如对DIALOG系统而言,前缀限制符有:
AU= 限查特定作者
JN= 限查特定刊名
LA= 限查特定语种
PN= 限查特定专利号
PY= 限查特定年代
后缀限制符例如:
/TI 限在题目中查
/AB 限在文摘中查
/DE 限在叙词标引中查
目前大多数检索系统提供菜单式检索,只需选择字段
,不需要记住及输入字段代码。
文献检索的基本步骤


(1)确定检索方向。这是使检索获得满意
结果的先决条件,为此必须弄清所需信息的
诸特征,如学科归属、主题概念、时间界限
、文献类型、国别和语种等。
(2)确定检索方法。一般有三种方法:
a.正文法——从主题、分类、作者等途径
查找。
b.引文法:又叫追溯法,即着眼于文献所
附的参考或引用文献目录。(SCI)
c.交替法:正文法和引文法交替使用。
文献检索的基本步骤
(3)确定检索工具。根据学科专业、语
种等,选择一种或多种检索工具或检索
引擎。
 (4)确定检索途径。主题、分类或作者
 (5)实施检索。注意检出一批结果后,
应浏览题目和文摘,判断是否满足要求
,并加以筛选,若感到不满意,应及时
修改检索策略,加以调整,再行检索,
直到满意为止。

文献检索的基本步骤




(6)索取原始文献。检出结果通常是文献线
索,还不是原始文献。为了索取原始文献,还
须进行两项工作:
a.辩识文献款目,包括文献类型、来源、
出版物名称等;
b.查找原始文献的收藏单位,先从本单位
、本地区入手,利用馆藏目录和联合目录(联
网目录),找到原始文献收藏单位,即可通过
借阅、复制或网上传送、馆际互借等途径获得
文献。
求助于图书馆馆际互借员:胡武荣,
87600408,[email protected]
宁大图书馆电子资源
 宁波大学图书馆所购置的数字资源
种类主要为两大类:
光盘数据库及镜像数据库(校园网内)
:(1)文摘索引型(2)全文型;
 网络数据库(需联通CERNET或INTERNET
):(1)文摘索引型(2)全文型

我校数字资源建设概况

数据库覆盖宁波大学所有学科专业。图书
馆一年新增的数字化信息资源总量已经超
过了印刷型文献的信息总量
数据库的规范使用
适度下载:一个帐户连续不断下载同一数据
库全文不超过30篇。不能进行“ 恶意下载
”
 “恶意下载”具体指三种行为:1)整本下载
电子图书或者整卷、整期下载期刊论文;2)
在下载过程中,使用了智能下载工具;3)短
时间内大批量集中下载同一数据库的文献。
 不得将下载的电子文本给非本单位的人员使
用。但可以通过打印后邮寄、传真给他人使
用,同一篇文献用这样的方法给非本单位人
员使用不得超过10次。

禁止用智能下载工具下载

全文网络数据库的使用许可协议书明文规定
,严格禁止使用任何自动下载软件、智能机
器 人 下 载 工 具 ( 如
NetAnt ,
Flashget(Jetcar) , DLExpert , Getright
等)。

数据库厂商一般都实行每天24小时、每周7
天不间断对用户使用情况进行监控,当一个
IP在一分钟内发出下载请求超过45次/篇时
,将被监控系统视为使用了自动下载工具进
行违规操作。
违规使用的后果

停止违规使用IP的使用权;

停止宁波大学所有IP的使用权;

大幅度涨价;

诉诸法律。
电子资源的类型
按学科类型有:
 综合性资源和专业性资源

按不同语言类型有:
 中文资源、外文资源、多语种资源

按提供的信息量有:
 文摘题录型、全文型、事实数据型

电子资源的类型








按使用许可或制作目的有:
商业性数据库
免费数字资源
按文献类型有:
电子报刊
电子书
学位论文数据库
专利文献数据库
信息资源在科研中的作用
 据美国科学基金会统计,一个科研人
员花费在查找和消化科技资料上的时
间需占全部科研时间的51%,计划思
考占8%,实验研究占32%,书面总结
占9%。由上述统计数字可以看出,科
研人员花费在科技出版物上的时间为
全部科研时间的60%。
学术论文和文献的作用

学术文献除了记录科学研究的发展外,
还有促进学术信息交流的作用,从事科
学研究工作一方面要通过已有的学术文
献的检索,了解相关课题 ,另一方面也
会将自己的研究成果表达在学术文献中
,供别人参考。融入科学信息交流中,
是科研工作重要的一部分


查找学术文献的根本目的
了解课题的起源、变迁,最新进展,把握整个课题的全貌。使研
究工作从一个比较高的起点开始。
– 从选题的确立,到选题确立后研究过程中问题的解决,再到发
表论文与同行的切磋
– 可以说,科学信息获取的全面与否,决定了选题确立决策时的
客观性;同时为在研究过程中遇到的问题提供好的解决方案。
在课题研究开始后,会遇到各种困难,为了寻找好的解决方案,
通过查找文献,借鉴别人解决问题的思路。
– 同样一个研究方向,在全球范围内,可能有许多实验室在同时
进行,通过查阅文献,可以借鉴同行的一些思路、方法、研究
成果,帮助自己解决实际问题
网络信息的检索和利用
Internet是现代远程通信、计算机软硬
件以及相关技术迅速发展和紧密结合的
产物
 Internet就是一个网络。它连接了全球
不计其数的网络与电脑,将不同国家、
不同领域的各类信息资源联为一个整体
的、超级信息网络;能够提供广泛的、
多层次的,文本信息、声音信息、图像
信息以及上述各类信息的综合信息。


Internet是一个开放的网络,是一个没有
专门机构进行管理的事物,信息的存储和
发布有极大的自由度,缺乏必要的过滤和
质量控制。这种发展模式,造就了
Internet及其海量的信息资源,但同时也
造成了信息资源的芜杂和泛滥,大量冗余
、粗制滥造乃至伪劣的信息在网络上迅速
地膨胀,有用信息与无用信息混为一体、
精加工的高质量信息与未经任何过滤的低
质量信息混为一体,信息质量良莠不齐,
网络安全也存在隐患。
Internet信息资源的类型




根据信息来源的不同,人们将Internet信息资
源分为政府、公众、商用三类信息资源。
(1)政府信息资源。主要包括各种新闻、统计
信息、政策法规文件、政府档案、政府部门介
绍、政府取得成就等。
(2)公众信息资源。包括公共图书资源、科技
信息资源、新闻出版资源、广播电视信息资源
等。
(3)商用信息资源。即商情咨询机构或商业性
公司为生产经营者或消费者提供的有偿或无偿
的商用信息,包括产品、商情、咨询等类型的
信息。
根据信息资源利用的性质,可分为开放式信
息、注册信息交流式信息三类信息资源。
 (1)开放式信息。允许用户随时查询;提
供大量信息交流场所,有足够的信息资源允
许用户求知;获得公用共享软件,查询相当
的事实和数据信息。
 (2)注册信息。指获取信息事先要在主机
方开有帐号,进行记费查询。
 (3)交流式信息:允许用户在网上参与各
种主题讨论,足不出户即能获得相关主题的
最新信息。信息是在网上与人讨论中获取的
,特点是没有固定的结果,需要动态地沟通
,在讨论的基础上总结观点。

按收费与否分为免费资源和有尝使用资源
免费资源主要有
 1.免费数据库
 2.免费专业论文
 3.电子图书
 4.事实数据
 5.电子报纸
 6.专业导航

免费数据库

中国知识资源总库http://www.edu.cnki.net/

维普资讯 http://www.cqvip.com/

万方数据资源http://www.wanfangdata.com.cn/
免费电子期刊

中国科技论文在线http://www.paper.edu.cn/
NSTL (国家科技图书文献中心)所购外文
网络版全文期刊
http://www.nstl.gov.cn/htm/qwwx/index.jsp
 Open J-Gate 开放获取期刊门户
http://www.openj-gate.com/

其他免费资源
免费电子图书
 专利文献
 报纸
 事实数据
 专业学术导航

网上资源的检索工具——搜索引擎
全文搜索引擎。代表性的有Google、百度(
Baidu)等等。
 目录索引。在严格意义上算不上是真正的搜
索引擎,仅仅是按目录分类的网站链接列表
而已。用户可以不用进行关键词查询,仅靠
分类目录也可找到需要的信息。最具代表性
有Yahoo雅虎、搜狐、新浪、网易搜索等 。
 元搜索引擎。

Google http://www.google.com/
 Yahoo! http://www.yahoo.com
 百度 http://www.baidu.com
 搜狗 http://www.sogou.com/dir/ :狐公司
推出的全球首个第三代互动式中文专业搜
索引擎

Thanks!