Transcript 文献信息检索
计算机信息检索 图书馆智能楼四楼,Tel:87600408 87600420 E-mail:[email protected] 什么是信息? 在西方早期出版的许多文献著作中,“信息 ”(Information)和“消息”(Message)两词是 互相通用的。随着技术的发展,出现了“信息 就是信号”、“信息就是数据”、“信息就是 情报”的说法。但是,信息与消息、信号、数 据、情报的概念并不相同:消息是信息的外壳 ,信息则是消息的内核。信号只是信息的载体 ,信息是信号所载荷的内容。数据是记录信息 的一种形式,但不是唯一的形式,因此不能把 它等同于信息本身。情报一词在日语中的确就 是信息,但是在汉语中,情报只是一类专门的 信息,是信息的一个子集。 综合各种对信息概念的描述,信息是世界 上一切事物的状态和特征的反映,是用文 字、数据或信号等形式,通过一定的传递 和处理,来表现各种相互联系客观事物在 运动变化中所具有特征内容的总称。人们 认识世界的过程,实际上就是不断从外界 获取、加工和运用信息的过程。在当今信 息社会中,信息与物质、能量一起,成为 社会经济发展的三大支柱,物质提供材料 .能量提供动力,信息提供知识与智慧。 信息已经成为促进社会经济发展的重要资 源。 信息检索概念 Information Retrieval 广义概念——是指将信息按一定的方式 组织和存储起来,并根据信息用户的需 要找出有关的信息过程,故全称:“信 息的存储与检索(Information Storage and Retrieval ) 。 狭义概念——仅指上述过程的后半部分 ,即从信息集合中找出所需要的信息的 过程,相当于人们通常所说的信息查寻 (Information Search)。 信息检索可分为直接检索和间接检索。 直接检索——直接从信息源和文献载体中 获取信息; 间接检索——通过信息检索工具或检索系 统获取所需的信息。 检索工具:报道、存储和查找信息的工具 ;书本或卡片式,手工检索。 检索系统:由检索设备和加工整理好并存 储在相应的载体上面的文档或数据库等共 同构成。 计算机信息检索,是指以计算机技术为 手段,通过光盘、联机和网络等现代检 索方式进行的信息检索。 信息检索的意义 现代科技的发展,每时每刻都有新的发明创造 ,信息也出现新陈代谢加快、老化加剧、使用 寿命缩短的趋势。而现代信息技术的发展,特 别是计算机技术、电子技术、远程通讯技术、 光盘技术、网络技术发展,使信息的载体从传 统的纸质印刷型媒介向光学、磁性媒介发展, 信息的传递速度越来越快,传播面也越来越广 ,信息检索手段越来越先进。面对爆炸式增长 的信息量,信息检索是进行科学研究必不可少 的手段之一 如何从这浩如烟海的信息中找出所需信息, 是信息检索的重任。 信息检索的作用 充分利用信息资源,避免重复劳动 :积累、 继承和借鉴前人的研究成果是科技发展的重要 前提,在研究工作中,任何一个项目从选题、 实验研究或设计,到成果鉴定,每一步都离不 开信息。只有充分掌握了有关信息,才能避免 重复,少走弯路,保证研究工作在尽可能高的 层次上起步,并缩短研究周期。 更新自身知识积累,适应社会发展需要 :掌握 信息检索的方法与技能,是形成合理知识和更 新知识的重要手段,是做到无师自通、不断进 取的主要途径。 学习方式 利用图书馆各文献数据库中的“帮助” 功能和图书馆的信息检索讲座 (每周四 下午),自助学习本课程。 上机实习地点:图书馆智能楼公用机房 或连通校园网的任何一台计算机 实习时间:公用机房开放的任何时 间。上校外网请自带帐号(在校网 络中心申请) 上机时请随带本人借书卡,并进行 登记 交流方式 可通过E-mail、电话或到图书馆智 能楼四楼信息服务室当面咨询。 或通过图书馆主页“服务指南”栏 目下的“用户培训”发布培训计划 。图书馆业务通告栏将即时发布有 关信息。 图书馆讲座通知 每周四13:30,图书馆智能楼四楼文 检课教室 具体每一讲内容及时间请关注图书 馆“用户培训计划”与图书馆发布 的通知。 科技文献信息的结构等级 零次文献:是指未经过任何加工的原始文献 ,如实验记录、手稿、原始录音、原始录像 、谈话记录等。零次文献在原始文献的保存 、原始数据的核对、原始构思的核定(权利 人)等方面有着重要的作用,其特点是信息 来源直接真实, 内容新颖。 一次文献:是指作者以本人的研究成果为基 本素材而创作或撰写的文献,如阅读性图书 、期刊论文、科技报告、专利文献、会议文 献、学位论文、技术档案等都是一次文献。 科技文献信息的结构等级 二次文献:是指文献工作者对分散的无组织的 一次文献进行搜集、提炼、浓缩、加工、整理,并 按一定的科学方法组织编排、编辑出版的文献, 是为了更有效地管理和利用一次文献而编辑的工 具性文献。如各种目录、题录、文摘及机读型书 目数据库、网上检索引擎等都属于二次文献。 三次文献:是指对有关的一次文献和二次文献 进行广泛深入的分析、研究、对比、综合、评述 、概括而撰写的文献,如综述、述评、年度进展 报告、百科全书、手册、年鉴、辞典等。其特点 是文字精炼、叙述简明扼要,具有系统性、综合 性、知识性和工具性等特点。 十大情报源 是指人们在进行科研及技术工作时使用频率 比较高的十种情报来源的总称。 1.科技图书:是对某专门知识或某学科进行 系统的论述或概括的一种情报来源。其主要 特征是内容比较成熟,但相对比较陈旧。合 法出版的图书均有版权页。 2.科技期刊:又称连续性出版物(serials),是 一种定期或不定期连续出版的文献载体,它 一般有同样的名称,按一定时间编定卷号, 每一卷又分若干期。 十大情报源 期刊是人们获取信息的最重要来源,在科学 家和专家们所利用的全科技信息中,由期刊 提供的占70%左右。 电子期刊在目前网络时代中正在崛起,其形 式也有多种,包括印刷期刊的数字化、印刷 期刊的网络版、网络期刊(开放访问期刊) 十大情报源 3.科技报告:报道(记录)研究和开发调查 工作的成果或进展情况的一种文献类型, 一般都编有号码,供识别报告本身及其发 行机构 ,报告是一种典型的机关团体出版 物。 科技报告的流通范围有绝密、秘密、保密 、非密限制发行、非密、解密等 由于科技报告是非正式出版的,获取比较 困难。 我国每年发表科技报告5万余篇,中国科技 信息研究所是我国科技报告的收藏单位。 十大情报源 4.会议文献:是指学术会议文献,它往往 反映出科学技术的发展趋势,其特点是与最 新成果的间隔时间短,但其内容与期刊相比 可能不太成熟。 会议类型大致可分为国际会议、全国性会议 及地区会议等。会议和会议文献常用的主要 名称有conference(大会)、meeting(小 型会议)、symposium(讨论会)、 proceeding(会议录)、paper(单篇论文 )、transaction(汇报)等。 十大情报源 5.专利文献:在实行专利制度的国家 ,凡是本国或外国的个人和企业有了 创造发明,都可以根据专利法的规定 ,向本国或外国专利局提出申请,经 审查合格,批准授予在一定年限内享 有创造发明成果的权利,并在法律上 受到保护,这样一种受到法律保护的 技术专有权利叫做专利。 广义的专利文献是指所有与专利制度有关的 文件, 包括专利申请书、专利说明书、专利 分类、专利公报、专利文摘、专利证书等; 狭义的专利文献仅指专利说明书。 根据专利的技术水平和应用情况,专利类型 有invention(发明)、utility patent(实用新 型)和design patent(外观设计)等。 十大情报源 6.标准文献:经过公认权威当局批准的 标准化工作成果,可以采用文件形式或 规定基本单位(物理常数)这两种形式 固定下来、以文件形式出现的标准化工 作成果,就是标准文献。 标准按使用范围可分为国际标准、区域 标准、国家标准、地方标准、行业标准 和专业标准等 标准一般过若干时间就要进行修订, 新 的标准不断地替代旧的标准。因此,查阅 时应以最新标准为准。 十大情报源 7.学位论文:是高校研究生、毕业生为 获得学位进行科学研究而写出的学术性 论文。按学位不同可分为学士论文、硕 士论文和博士论文。 硕士和博士论文具有一定的学术性、独 创性、系统性和完整性, 具有重要的参 考价值。学位论文一般不公开发行, 多 数收藏在授予学位的大学图书馆、档案 馆或研究机构的文献信息中心。 十大情报源 8.产品资料:一般是指产品样本说明书,是厂商或 贸易机构为宣传和推销其产品而印发的免费赠给消 费者的资料。如产品目录、产品样本、产品说明书 、产品总览、产品手册等。如今,许多厂商已经开 始利用互联网发布产品信息,网上可以找到不少产 品资料。 9.技术档案:技术档案是在生产或科研活动中形成 的,有具体工程和研究对象的技术文件的总称, 包 括任务书、协议书、技术经济指标、研究计划、方 案、试验设计实验记录调查材料、总结报告等所有 应入档的资料。技术档案有一定的保密性, 一般在 内部控制使用。 十大情报源 10. 报纸:报纸以及广播、电视等大众 传媒传递信息快, 信息量大, 现实感强, 传播面广, 具有群众性和通俗性, 是重 要的社会舆论工具和信息源。一些专门 刊登科技类文献的报纸对了解当前的学 科前沿和水平以及科学新闻很有益处。 主要文献类型的著录格式 专著: 作者. 书名. 出版地:出版者,出版年 如: Borko H, Bernier C L. Indexing concepts and methods. New York:Academic Press,1978 期刊: 作者(多作者用逗号分开,超过3个者用et al). 文章 题目.刊物名称,年代,卷数(期数):页数 如: Porter MF, Zhang J. An algorithm for suffix stripping. Program, 1980, 14(3):130~137 学位论文:作者.题名[学位论文]. 保存地点:保存单 位,年份 如:Cairns R B. Infrared spectroscopic studies on solid oxygen [dissertation]. Berkeley: Univ. of California,1986 主要文献类型的著录格式(续) 报纸文章: 作者. 题名. 报纸名, 出版日期(版次) 如: Amy Harmon. UN summit on Internet copyright. The Seattle Times, Dec. 2, 1996 论文集: 作者. 题名. 见(In): 编者. 论文集名. 出 版地:出版者, 出版年,起止页码 如: Hunninghaks GW,Gadek JB, Szapiel SV et al. The human alveolar macrophage. In:Harris CC ed. Cultured Human Cells and Issues in Biomedical Research, New York: Academic Press, 1980, 54~56 其它文献类型的著录格式 (1) Kahn R. A framework for distributed digital object services (Tech. Rep.). CNRI.1995( 科技报告 或技术报告 ) (2) Neal J. The Digital Imperative:Building the Electronic Library of the Future. '98 General Conference of International Federation of Library Associations and Institutes, Amsterdam, The Netherlands, 1998 (会议录或会议文献) (3) Dougherty R C. Chemical and biological agent resistant hose for gas transmission and personnel protection. USA. US6,029,712(CI. 138141; F16L9/14),29 Feb 2000.( 专利 ) 主要文献类型的著录格式 (4) ISO. Information processing-Text and Office System-Standard Generalized Markup Language (SGML). 1986, No.ISO8879 ( 标准或技术标准 ) (5) US Congress Office of Technology Assessment. Intellectual property rights in an age of electronics and information. Washington D. C.: US Government Printing Office, 1996 ( 政府 出版物 ) 计算机检索的基本原理 检索技术及其实现 检索技术包括基本布尔逻辑组配、截词、词位 限制、检域限制等。 布尔逻辑组配是现行计算机检索的基本技术, 主要通过“和(and,*)”、“或(or,+)”、“非 (not,-)”等将检索词联络起来 如:信息检索 AND 计算机 (信息检索 OR 文献检索) AND 计算机 文献检索 NOT 文献检索课 检索技术及其实现——截词 截词包括后截(最常用)、中截、前截等。不同 检索系统截词符各有规定,常用有:?、*、!、$ 在DIALOG国际联机检索系统中,用?作为截词符 ,主要包括下列情形: 符号 ? ? ? ?? 意义 前、后、中截词 后截一字符 后、中截二字符 实例 ?computer computer?; wom?n computer? ? act??; encyclop??dia ??? 后、中截三字符 computat??? 检索技术及其实现——检域限制 检域限制也称字段限制,包括前缀限制符和后缀限 制符。如对DIALOG系统而言,前缀限制符有: AU= 限查特定作者 JN= 限查特定刊名 LA= 限查特定语种 PN= 限查特定专利号 PY= 限查特定年代 后缀限制符例如: /TI 限在题目中查 /AB 限在文摘中查 /DE 限在叙词标引中查 目前大多数检索系统提供菜单式检索,只需选择字段 ,不需要记住及输入字段代码。 文献检索的基本步骤 (1)确定检索方向。这是使检索获得满意 结果的先决条件,为此必须弄清所需信息的 诸特征,如学科归属、主题概念、时间界限 、文献类型、国别和语种等。 (2)确定检索方法。一般有三种方法: a.正文法——从主题、分类、作者等途径 查找。 b.引文法:又叫追溯法,即着眼于文献所 附的参考或引用文献目录。(SCI) c.交替法:正文法和引文法交替使用。 文献检索的基本步骤 (3)确定检索工具。根据学科专业、语 种等,选择一种或多种检索工具或检索 引擎。 (4)确定检索途径。主题、分类或作者 (5)实施检索。注意检出一批结果后, 应浏览题目和文摘,判断是否满足要求 ,并加以筛选,若感到不满意,应及时 修改检索策略,加以调整,再行检索, 直到满意为止。 文献检索的基本步骤 (6)索取原始文献。检出结果通常是文献线 索,还不是原始文献。为了索取原始文献,还 须进行两项工作: a.辩识文献款目,包括文献类型、来源、 出版物名称等; b.查找原始文献的收藏单位,先从本单位 、本地区入手,利用馆藏目录和联合目录(联 网目录),找到原始文献收藏单位,即可通过 借阅、复制或网上传送、馆际互借等途径获得 文献。 求助于图书馆馆际互借员:胡武荣, 87600408,[email protected] 宁大图书馆电子资源 宁波大学图书馆所购置的数字资源 种类主要为两大类: 光盘数据库及镜像数据库(校园网内) :(1)文摘索引型(2)全文型; 网络数据库(需联通CERNET或INTERNET ):(1)文摘索引型(2)全文型 我校数字资源建设概况 数据库覆盖宁波大学所有学科专业。图书 馆一年新增的数字化信息资源总量已经超 过了印刷型文献的信息总量 数据库的规范使用 适度下载:一个帐户连续不断下载同一数据 库全文不超过30篇。不能进行“ 恶意下载 ” “恶意下载”具体指三种行为:1)整本下载 电子图书或者整卷、整期下载期刊论文;2) 在下载过程中,使用了智能下载工具;3)短 时间内大批量集中下载同一数据库的文献。 不得将下载的电子文本给非本单位的人员使 用。但可以通过打印后邮寄、传真给他人使 用,同一篇文献用这样的方法给非本单位人 员使用不得超过10次。 禁止用智能下载工具下载 全文网络数据库的使用许可协议书明文规定 ,严格禁止使用任何自动下载软件、智能机 器 人 下 载 工 具 ( 如 NetAnt , Flashget(Jetcar) , DLExpert , Getright 等)。 数据库厂商一般都实行每天24小时、每周7 天不间断对用户使用情况进行监控,当一个 IP在一分钟内发出下载请求超过45次/篇时 ,将被监控系统视为使用了自动下载工具进 行违规操作。 违规使用的后果 停止违规使用IP的使用权; 停止宁波大学所有IP的使用权; 大幅度涨价; 诉诸法律。 电子资源的类型 按学科类型有: 综合性资源和专业性资源 按不同语言类型有: 中文资源、外文资源、多语种资源 按提供的信息量有: 文摘题录型、全文型、事实数据型 电子资源的类型 按使用许可或制作目的有: 商业性数据库 免费数字资源 按文献类型有: 电子报刊 电子书 学位论文数据库 专利文献数据库 信息资源在科研中的作用 据美国科学基金会统计,一个科研人 员花费在查找和消化科技资料上的时 间需占全部科研时间的51%,计划思 考占8%,实验研究占32%,书面总结 占9%。由上述统计数字可以看出,科 研人员花费在科技出版物上的时间为 全部科研时间的60%。 学术论文和文献的作用 学术文献除了记录科学研究的发展外, 还有促进学术信息交流的作用,从事科 学研究工作一方面要通过已有的学术文 献的检索,了解相关课题 ,另一方面也 会将自己的研究成果表达在学术文献中 ,供别人参考。融入科学信息交流中, 是科研工作重要的一部分 查找学术文献的根本目的 了解课题的起源、变迁,最新进展,把握整个课题的全貌。使研 究工作从一个比较高的起点开始。 – 从选题的确立,到选题确立后研究过程中问题的解决,再到发 表论文与同行的切磋 – 可以说,科学信息获取的全面与否,决定了选题确立决策时的 客观性;同时为在研究过程中遇到的问题提供好的解决方案。 在课题研究开始后,会遇到各种困难,为了寻找好的解决方案, 通过查找文献,借鉴别人解决问题的思路。 – 同样一个研究方向,在全球范围内,可能有许多实验室在同时 进行,通过查阅文献,可以借鉴同行的一些思路、方法、研究 成果,帮助自己解决实际问题 网络信息的检索和利用 Internet是现代远程通信、计算机软硬 件以及相关技术迅速发展和紧密结合的 产物 Internet就是一个网络。它连接了全球 不计其数的网络与电脑,将不同国家、 不同领域的各类信息资源联为一个整体 的、超级信息网络;能够提供广泛的、 多层次的,文本信息、声音信息、图像 信息以及上述各类信息的综合信息。 Internet是一个开放的网络,是一个没有 专门机构进行管理的事物,信息的存储和 发布有极大的自由度,缺乏必要的过滤和 质量控制。这种发展模式,造就了 Internet及其海量的信息资源,但同时也 造成了信息资源的芜杂和泛滥,大量冗余 、粗制滥造乃至伪劣的信息在网络上迅速 地膨胀,有用信息与无用信息混为一体、 精加工的高质量信息与未经任何过滤的低 质量信息混为一体,信息质量良莠不齐, 网络安全也存在隐患。 Internet信息资源的类型 根据信息来源的不同,人们将Internet信息资 源分为政府、公众、商用三类信息资源。 (1)政府信息资源。主要包括各种新闻、统计 信息、政策法规文件、政府档案、政府部门介 绍、政府取得成就等。 (2)公众信息资源。包括公共图书资源、科技 信息资源、新闻出版资源、广播电视信息资源 等。 (3)商用信息资源。即商情咨询机构或商业性 公司为生产经营者或消费者提供的有偿或无偿 的商用信息,包括产品、商情、咨询等类型的 信息。 根据信息资源利用的性质,可分为开放式信 息、注册信息交流式信息三类信息资源。 (1)开放式信息。允许用户随时查询;提 供大量信息交流场所,有足够的信息资源允 许用户求知;获得公用共享软件,查询相当 的事实和数据信息。 (2)注册信息。指获取信息事先要在主机 方开有帐号,进行记费查询。 (3)交流式信息:允许用户在网上参与各 种主题讨论,足不出户即能获得相关主题的 最新信息。信息是在网上与人讨论中获取的 ,特点是没有固定的结果,需要动态地沟通 ,在讨论的基础上总结观点。 按收费与否分为免费资源和有尝使用资源 免费资源主要有 1.免费数据库 2.免费专业论文 3.电子图书 4.事实数据 5.电子报纸 6.专业导航 免费数据库 中国知识资源总库http://www.edu.cnki.net/ 维普资讯 http://www.cqvip.com/ 万方数据资源http://www.wanfangdata.com.cn/ 免费电子期刊 中国科技论文在线http://www.paper.edu.cn/ NSTL (国家科技图书文献中心)所购外文 网络版全文期刊 http://www.nstl.gov.cn/htm/qwwx/index.jsp Open J-Gate 开放获取期刊门户 http://www.openj-gate.com/ 其他免费资源 免费电子图书 专利文献 报纸 事实数据 专业学术导航 网上资源的检索工具——搜索引擎 全文搜索引擎。代表性的有Google、百度( Baidu)等等。 目录索引。在严格意义上算不上是真正的搜 索引擎,仅仅是按目录分类的网站链接列表 而已。用户可以不用进行关键词查询,仅靠 分类目录也可找到需要的信息。最具代表性 有Yahoo雅虎、搜狐、新浪、网易搜索等 。 元搜索引擎。 Google http://www.google.com/ Yahoo! http://www.yahoo.com 百度 http://www.baidu.com 搜狗 http://www.sogou.com/dir/ :狐公司 推出的全球首个第三代互动式中文专业搜 索引擎 Thanks!