文献信息检索基础知识 - 吉林农业大学图书馆

Download Report

Transcript 文献信息检索基础知识 - 吉林农业大学图书馆

基础知识
一、信息、知识与文献的含义
信息:客观事物存在方式及其运动规律、
特点的外在表现。
信息属性:普遍性、客观性、中介性、
无限性、传递性、时效性、依附性、共
享性…….
知识:人类对客观事物的存在和运动规律
的认识。
1996年,世界经济合作与发展组织在
《以知识为基础的经济》报告中,将知识
分为四类:
一是知道是什么
二是知道为什么
三是知道怎样做
四是知道谁有知识
信
息
加工
升华
精炼
系统
组织
知
识
信息与知识关系
事物存在方式、运
动状态外在表现
信息
信
息
信息经过大脑
加工
知
识
文献:记录有知识的一切载体。
信
文献
息
构成要素
文献内容
记录符号
载体材料
记录方式
二、文献信息源类型
1.按文献信息的物质载体和记录形式划分
手写型文献
印刷型文献
缩微型文献
声像型文献
电子型文献
2.按文献信息的出版形式和内容划分
图书
学位论文
期刊
标准文献
科技报告
产品资料
会议文献
政府出版物
专利文献
技术档案
3、按文献信息的加工程度划分
一次文献:作者以本人的研究成果为依据二
创作或撰写的文献。
二次文献:将大量分散的、物组织的一次文
献,依一定的方法和原则进行浓缩、整序、加
工、编辑后,组织成系统的便于管理和利用的
文献。
三次文献:在一、二次文献的基础上进行广
泛深入的研究之后,通过汇集、综合、分析等
深度加工而形成的文献。
三、文献信息检索的类型
1.按文献信息检索对象划分
文献信息检索
数据信息检索
事实信息检索
文献信息检索
以文献信息为检索对象,从文献
信息存储集合中查找出特定文献的
过程。
文献信息检索是信息检索中最主
要、最基本的形式。
范围—某一课题、某一作者、某一
地域、某一机构、某一事物的有关
文献;
工具—二次文献(检索工具或系
统);
性质—“相关性”检索;
结果—文献的线索或原文。
例:国内外转基因食品发展趋势研究
中国动物药产业发展方向方面的
文献
食品安全研究有关文献
数据信息检索
以数据信息为检索对象,
从数据信息存储集合中或从文献中包
含的数据中查找某一数据信息的过程。
范围—数据图表、公式、图谱、市场
行情、物质的物理与化学特性、物质的
材料成份、设备的型号与规格、参数等;
工具—主要三次文献(参考工具书、
数据型数据库);
性质—“确定性”检索;
结果—有、无、对、错。
例如:查找:2011年吉林省玉米产
量(万吨)
事实信息检索
以事实信息为检索对象,从存储
事实的信息集合中查出特定事实的检
索过程。
范围—事物的基本概念、基本情况,
事物发生的时间、地点、相关的事
实与过程等;
工具—主要三次文献(参考工具书、
事实型数据库);
性质—“确定性”检索;
结果—有、无、对、错。
例:
“转基因植物”的概念
吉林农业大学地址
……………………….
参考工具书
字、词(辞)典
百科全书
手册
年鉴、统计数据
图谱
年表
人名录、地名录、机构名录
三者的关系:
文献信息检索与数据信
息检索、事实信息检索三者在信
息检索过程中通常是相互配合、
相辅相成的,检索时常常配合使
用,从而检索出最适用文献。
2.按文献信息检索方式划分
手工检索
计算机检索
3.按文献信息组织方式划分
全文检索
超文本检索
超媒体检索
四、文献信息检索工具(系统)类型
目录型
题录型
文摘型
全文型
五、文献信息检索原理
通过对大量的、分散无序的文献信息
进行搜集、加工、组织、存储,建立各种
各样的检索工具(系统),用户将提问标
识与存储在检索工具(系统)中的文献特
征标识进行大小同异比较,凡是两种标识
相一致,或者文献特征的标识包含着检索
提问标识,则表明所检文献切题,即从检
索工具(系统)中输出。
文献信息检索原理示意图
六、文献信息检索语言
文献信息检索语言的概念
从自然语言中精选出来并加以规范
化的一套词汇、符号,是概括信息内容
特征或外在特征及其相互关系的概念标
识体系。
外表特征
题名、作者、 出版社、 号码等
内容特征
分类、主题、代码等
文献信息检索语言作用
文献信息检索语言是沟通文献信息存储
与检索两个过程的桥梁。在文献信息存储过
程中,用它来描述文献信息的内容和外部特
征,从而形成检索标识;在检索过程中,用
它来描述检索提问,从而形成提问标识;当
提问标识与检索标识完全匹配或部分匹配时,
结果即为命中文献。
文献信息检索语言类型
分类检索语言
按学科范畴及知识之间的关系
列出类目,并用数字、字母符号对
类目进行标识的一种语言体系,也
称分类法。
《中国图书馆分类法》22个基本大类:
A 马克思主义、列宁主义、
毛泽东思想、邓小平理论
B 哲学、宗教
C 社会科学总论
D 政治、法律
E 军事
F 经济
G 文化、科学、教育、体育
H 语言、文字
I 文学
K 历史、地理
N
自然科学总论
O
数理科学和化学
P 天文学、地球科学
Q 生物科学
R
医药、卫生
S
农业科学
T
工业技术
U
交通运输
V
航空、航天
X
环境科学、劳动保护科学
Z
综合性图书
《中国图
书馆分类
法》片断
按学科“分类检索”实例
学
科
分
类
主题检索语言
将自然语言中的名词术语经
过规范化处理后作为文献信息标
识的一种主题法检索语言。
主题词:以规范化的词汇来表
达文献信息内容的主题,这种词汇
叫主题词。
主题词根据规范性、检索时要
求不同可细分单元词、标题词、叙
词等。
自然语言
酒精
土豆
伪钞鉴别
杜鹃
世贸组织
主题词
乙醇
马铃薯
验钞
杜鹃(花)
杜鹃(鸟)
世界贸易组织
“主题检索”实例
主题
关键词语言
关键词是指出现在文献标题、文
摘、正文中,对表征文献主题内容具
有实质意义的语词,对揭示和描述文
献主题内容是重要的、关键性的语词。
关键词选取一般由计算机自动抽取。
引文语言
引文语言根据现期期刊或少量丛书
中发表的文章(称引文文献)后面所附的参
考文献(即被引文献)的著者(即被引著者)
的姓名组织编排文献的。
引文语言利用文献之间的引用与被
引用关系,来表达文献之间的相互关系。
表达文献外部特征的检索语言
主要是指文献的篇名(题
目)、作者姓名、出版者、报告号、
专利号等。将不同的文献按照篇名、
作者名称的字序进行排列,或者按照
报告号、专利号的数序进行排列,所
形成的以篇名、作者及号码的检索途
径来满足用户需求的检索语言。
八、文献信息检索的基本方法
1.常规法
根据文献的外部特征和内容特征,
即以主题、分类、著者等为检索点,通过
检索工具(系统)获取所需文献信息的一
种检索方法
分为顺查法、倒查法和抽查三种。
顺查法:按着时间顺序,由远及近、从过去到现
在利用检索工具(系统)逐年、逐卷地查找文献信息,
直到满意为止的一种检索方法。
倒查法:又称为逆查法,与顺查法相反,按照文
献信息检索要求的时间范围,由近到远、从现在到过
去逆着时间的顺序利用检索工具(系统)查找文献信
息的一种检索方法。
抽查法:一般是针对某学科发展特点和规律,抓
住该学科发展较快、文献信息发表较多的高峰年代,
抽出这段时间进行重点检索文献信息的一种方法。
2.追溯法
又称为引文法、追踪法,利用文献末尾所
附参考文献和注释为线索逐一地追溯查找原始
文献的方法。
3.循环法
又称为综合法、交替法,它是把常用法和追
溯法结合起来查找文献信息的方法。循环法既
要利用检索工具(系统)进行常规检索,又要
利用文献后所附参考文献进行追溯检索,分期
分段地交替使用这两种方法。
九、计算机信息检索技术
计算机检索技术主要指检索词的组配技术和检索表
达式的构成规则。
检索词包括主题词、关键词、名称、分类号、
分子式、专利号及各种号码等。
检索表达式简称为检索式,又称为检索提问
式,主要是运用各种逻辑运算符号、位置逻辑算符、截
词符及其它限制符号等,把检索词连接组配起来,确定
检索词之间的关系,准确表达检索课题的内容。它是一
个既能反映检索课题内容、又能为计算机识别的算式,
是进行计算机检索的依据。
布尔逻辑检索技术
采用布尔代数中的布尔关系运
算符来表达检索词之间关系的检索
方法。
布尔逻辑算符主要有:逻辑与
( AND * )、逻辑或 (OR +)、逻
辑非 (NOT -)
名称
符号 表达式
功能
逻辑与 * 或and A*B | 同时含有提问词A和B
空格 的文献,为命中文献
逻辑或 + 或or
A+B
逻辑非 - 或not
A- B
凡是含有提问词A或B
的文献,为命中文献
凡是含有提问词A但
不含有B的文献,为
命中文献
“逻辑或”实例
刘亦菲照片│刘亦菲写真
“布尔逻辑”应用实例
百度高级搜索
用“包含”、“不包含”等词表
示“逻辑与”和“逻辑非”
布尔逻辑算符的运算次序:
NOT > AND > OR
( )号里的部分运算优先
例如: (A OR D) AND B
表示先执行“A OR D”的检索,
再与B进行AND 运算。
位置检索技术
位置检索技术就是利用一些特定
的位置算符来表达检索词之间的位置
关系。
[注意] 检索系统不同,位置算
符的规定也不尽相同。
位置算符主要有:
邻近位置算符W、N、nW、nN
句子位置算符S(Sentence)
字段位置算符F(Field)
…………………..
(W)或 W算符两侧的检索 X(w)RAY
( )━ 词间为空格或标点 X RAY 或
with。 符号,词序不变。 X-Ray
CD(W)ROM
CD-ROM
(nW) 允许算符两侧的检 蔬菜 (2w) 栽培
——n
索词之间最多可插
Word
入n个词,词序不 蔬菜的栽培
变。
蔬菜无土栽培
(N)— 算符两边的检索
—near 词不允许插入其
他单词或字母,
词序可以颠倒
(nN)
规模化(N)饲养
规模化饲养
饲养规模化
算符两边的检索 规模化(5N)饲养
词允许插入n个其
他单词或字母, 规模化饲养
词序可以颠倒
饲养规模化
规模化畜牧饲养
规模化商品肉猪的
饲养
F
━Field
“F”的含义为 黑木耳(w)多糖
“field”。算 (F)抑菌/题名,
符两侧检索词必 文摘
须在同一字段中
出现,词序不限,
中间可插任意检
索词项。
S━
算符两侧检索词 玉米(w)杂交
sentence 同时出现文献记 (S)鉴定
录的同一句子或
短语中,词序不
限。
截词检索技术
又称部分一致检索,截词检索
技术就是用截断的词的一个局部进行
的检索,并认为凡满足这个词局部中
的所有字符(串)的文献,都为命中
的文献。
有限截词
一个截词符 ?# computer??
号代表一个 等
字符
computer
computers
无限截词
一个截词符 *等 computer*
号代表一个
computers
字符,也称
computering
为通配符
computered
computerization
按截断的位置来分,截
词技术有后截断、前截断、
中截断和中间截断四种类型。
后截词检索 (前方一致)
将截词符号放置在截词的后方,同截
词符号前面的字符串信息相同,即为命中。
如:生产??—生产,生产力,生产
工具,生产方式
前截词检索(后方一致)
将截词符号放置在截词的前方,同截
词符号后面的字符串信息相同,即为命中。
如:??英语考试—四级英语,六级英语,
研究生英语考试
中截词检索(前后一致)
将截词符号放置在截词的中间,
同截词符号前后面的字符串信息相同,
即为命中。
如:信息??类型一信息资源类型,
信息交流类型
前后截词检索(中间一致)
将截词符号放置在截词的两侧,
同截词符号中间字符串信息相同,即为
命中。
如:*考试*——英语考试,考试
试题,计算机等级考试指南,考生考试
前的心理调整等。
“截词”应用实例
前方一致、完全匹配、任意匹配
限制检索技术
又称字段检索法,指限定检索词
必须在数据库记录中规定的字段范围内出
现的一种检索方法。
缩小和限定检索范围,提高查准率。
数据库指长期存储在计
算机内,有组织、可共享
的数据集合。
数据库构成
数据库构成:字段、记录和文档
三个层次。
字段(基本字段、辅助字段)→记录
→文档(顺排文档、倒排文档)→数
据库
字段(Field) :字段是组成记录
的数据项,是记录的基本单元。描述文
献信息具体特征,如篇名、作者、主题
词等。
一条记录可有若干个字段,字
段决定着检索点的数量设计。
字段分为基本字段和辅助字段。
基本字段主要是描述文献内容
特征的字段,如篇名、文摘、叙词、
自由标引词等字段;
辅助字段主要是描述文献外
表特征的字段,如著者、机构名称、
语种、文献来源等字段。
字段“限制检索”实例
字段
十、文献信息检索程序
分析检索要求,确定检索范围;
选择检索工具(系统)和方法;
选择检索途径和检索标识;
调整检索策略,筛选检索结果;
记录文献线索,获取原文。
十一、 信息检索效果评估
所谓检索效果,就是利用检索
工具(系统)开展检索服务时产生
的有效结果。
查全率与查准率
查全率=检出相关文献量/文献库内相关文
献总量×%
如:利用某个检索系统查找某课题,假设
该系统文献库中共有相关文献总量为40篇,
只检出30篇,那么查全率为75%。
查准率=检出相关文献量/检出文献总量×%
如:利用某个检索系统查找某课题文献,假设
检索出文献总量为50篇,经审定只有40篇与课
题有关,那么查全率为80%。
查准率也称之为相关率。
影响查全率与查准率的因素
(1)标引的影响
(2)检索语言的影响
(3)检索策略的优劣
(4)查全率与查准率的互逆相关性