第02讲文献检索语言1 第03讲文献检索语言2

Download Report

Transcript 第02讲文献检索语言1 第03讲文献检索语言2

第三讲文献检索语言2
体系分类语言
分类语言
描述文献
内容特征
的语言
检索
语言
描述文献
外表特征
的语言
组配分类语言
混合分类语言
关键词语言
主题语言 标题词语言
叙词语言
单元词语言
题名语言(书名、刊名、篇名)
著者语言(个人或团体著者、译者、
出版事项语言(出版社)
代码/序号语言(ISBN号、专利号、
报告号、标准号)
主题语言
主题检索语言:是采用描述文献主题的语词
排列主题标识,提供各种检索词语的途径。一
般由主题词表及其编制和使用规则组成。
主题检索语言的基本类型




(1)标题词语言
(2)单元词语言
(3)叙词语言
(4)关键词语言
(1)标题词语言:是指从文献的内容或
题目中抽选出来,经过规范化处理,用以描
述文献内容特征的词或词组。标题词由标题
词表控制,标题词表由标题词按照字母顺序
排列组成,使用时,直接按照标题词表所规
定的标题词进行查找,如同查字典一样。
例如:一篇文章用“微型计算机”这个术语来叙
述它的研究对象,另一篇文章用“微型电脑” 来叙
述,第三篇文章用“微机” 来叙述,虽然都表示同
一概念,这时就不能直接用“微型电脑”或“微机”
来作标题词,这三篇文章都必须用“微型计算机”
作标题词(根据主题词表决定)。

(2)单元词语言:是从文献正文、摘要或题
目中抽取出来的、最基本的、不可再分的词。
它一般未经规范,也无词表,检索时根据检
索课题的内容特征,选取恰当的单元词进行
组配检索。
例如:“计算机”、“软件”、“固相”、
“相”。
用较少的词量反映较多的主题概念,具有灵
活性和专指性。



(3)叙词语言(主题词)
为了适应计算机检索的需要,叙词语言于
20世纪60年代产生,它是在标题词语言、单元词
语言和分类语言的基础上发展起来的一种新型的
检索语言。它既吸收了分类语言的优点编制了叙
词分类索引和等级索引,又吸收了标题词语言的
优点编制了参见著录项目。因此,叙词语言既适
用于手工检索,又特别适用于计算机检索。

叙词语言(主题词):是以自然语言为基

础,以概念组配为基本原理,并经过规范化处理,
表达主题的最小概念单元,作为信息存储和检索依
据的一种检索语言。
例如:在叙词语言的检索系统中用“计算机”
个词进行检索,即使题名字段没有“计算机”这个
(如有同义词“电脑”)的文章,也可以被检索出
,不必进行同义词替换即可查全。
常用的叙词表
国内的:《汉语主题词表》、《化工汉语
主题词表》、《机械工程主题词表》、
《电子技术汉语主题词表》、《国防科学
技术叙词表》等。
国外的:《INSPEC叙词表》、《工程索
引叙词表》、《工程与科学叙词表》等。


《汉语主题词表》是我国第一部大型的综合
性的叙词表,由中国科技信息研究所和北京图
书馆负责主持, 1975年开始编制,1980年正式
出版。分为社会科学、自然科学和附表3卷,共
10个分册,全表收录主题词108568个。其中正
式主题词91158个,非正式主题词17410个 。
它的主要作用是对文献进行主题标引、目
录组织、计算机检索等。由于选定的主题词都
是以表述图书资料的主题内容、且组配能力较
强的词 ,所以图书文献的题名都能很好地用主
题词来体现。
(4)关键词语言:未经规范化处理,直接从文
献题名、原文或文摘中选取的能反映原文主
题内容的自由词汇。
例如:《国际联机检索概论》中的“国际联机检
索”、“国际联机”、“联机”、“检索”都是能
描述这篇文献主题的关键词,都可以作为检索词。
主题词与关键词的区别在于主题词是经过人
工规范的词汇,而关键词是没有经过规范的自然
语言词汇。
如:遥感和地理信息系统用于监测热带雨林:
关键词: 热带雨林
遥感
监测
GIS
主题词: 环境遥感 环境监测
森林遥感
GIS-应用 遥感-应用
关键词一般是个人选定,会因词性不同、拼
法不同或近义词、同义词等原因检索不到文献;
主题词可以很好地避免漏检,提高检全率。
由于关键词是表达信息需求和检索课题内容
的基本元素,也是计算机检索系统进行匹配的
基本单元。应用更为广泛。
用关键词检索时,务必要在分析课题的主题
概念中掌握课题的内容实质,概括出能最恰当
地代表主题概念的关键词。它决定了检索策略
的质量和检索效果的好坏。
(1)关键词的四种变化
上位词(教育)
下位词(成人教育)
关键词(高等教育)同义词(大学教育)近义词(高校教育)
①同义词:某种明确概念,可以有不同的表达词。
引起同义词的原因包括:缩写、全称、简称、学名、
俗名、简繁体、不同语言说法、不同地区说法(美语
英语)、不同时代说法(古今、代差)、别称、全角半
角、大写小写、错别字、网络通假字、敏感词通假
……
例如,“飘”、“乱世佳人”、“随风而逝”
例如,“鳜鱼”、“桂鱼”、“桂花鱼”、“季花
鱼”、“花鲫鱼”。
②上位词:指概念上外延更广的检索词。
例如,“花”是“鲜花”的上位词,
“植物”是“花”的上位词
对关键词来说,一个关键词所表达概念的任
何一种属性、任何一种归类方式,都可以是它的
上位词。
例如,“鲜花快递”的上位词可以是“鲜
花”、“快递”、“网上购物”、“鲜花礼仪”、
“鲜花店”、“礼品公司”。
③下位词:指概念上内涵更窄的检索词。
例如,“鲜花速递”的下位词包括“上海
鲜花速递”、“深圳鲜花速递”、“网上鲜花
速递”。
④近义词:指与检索词具有某种相同属性的
词。与关键词有同一个上位词的都是同类词。
推算一个关键词的同类词,可以从这个关
键词的某个上位词开始反推。
以关键词yahoo为例,“yahoo、sina、
sohu”是作为“中文门户”属性的近义词。
(2)关键词的选择
在确定检索词时,要考虑反映主题
概念的同义词、近义词等相关词,还要
考虑到被选用检索词的缩写词及不同拼
法的词,以便在编制检索式时考虑到这
些因素,避免漏检有关的信息。
①选择最核心词汇,不加修饰词,可扩大查找的范围,
检索到更多结果。
在检索前要明确自己的目的,要得到关于某一事
物的相关所有信息,就要把关键词范围放大,不加修
饰词,只输入核心词。
例如,知识产权
知识产权保护or知识产权研究”
②选择概念表达最确切的词语。
要查找具体的某一确切的事物,应该把具体的确
切的名称输入,以便于直接得到查询结果。
例如“中国近阶段社会保险体系的发展趋势研
究”,核心词是“社会保险”。
确切关键词的选择不仅从课题名称中分析,更
要从学科专业和检索目的的角度,概括出能够反映课
题实质内容的检索词,需从概念内涵的深浅程度、概
念的属分、整体与部分等,选择最切合实际要求的词
作为检索词,以便提高检索的切题程度,如“茶”和
“铁观音”、“鲜花”和“玫瑰花”等。
③同义词的判断和选择:在同一概念的范畴内,
从语言角度选择不同的名称、拼写方法和单复数
形式等。
例如,学名和俗名:激光(镭射)、马铃薯(土豆);
简称和全称:TV(television)、WTO(世贸
组织);
英式和美式:catalog(catalogue)、
color(colour)等。
单复数问题,如woman、women
④近义词的判断和选择:在相近概念的范
畴内,从概念的微小区别、概念的多义性、
概念的相近性等。
例如,合同纠纷(合同争议)、
国际矛盾(国际冲突)、
跨国公司(跨国企业)、
法律监督(司法监督)。
⑤选择通用性的术语。切忌使用国际上
并不通用的术语,
如“第三世界”、“下岗”等查找
国外数据库,通常不能达到预期的效果。
在选用关键词检索的过程中要尽量使用
本学科在国际上通用的、国外文献上出
现过的术语,并尽量避免使用冷僻词和
自选词。
(6) 概念为单位,构成组面检索词。
检索:例如关于网络营销领域的风险承受心理分析。
关键词:网络营销、风险承受心理分析。
例如:关于经济领域的诈骗行为的心理分析。
关键词:经济诈骗、诈骗心理(分析)。
这里有个概念的重叠和拆分问题,如果关键词用“经济领
域诈骗行为心理分析”,显然没有达到简洁、切题的要求。
例如:家庭、婚姻裂变和青少年犯罪的内在联系。
关键词:离婚(不完整家庭、单亲家庭)、青少年(未成年
人)犯罪。
这里有个常用概念、相近概念需要考虑,如果关键词标
引为“婚姻裂变青少年犯罪”,检索结果的查全率一定会大大
降低。
(7)通过调整关键词的专指和泛指来提高查准率和查
全率
为了提高查准率,不用泛指,而用专指
如:服装(泛指),西服(专指)
为了提高查全率,避免专业词汇而使用大众化的词
汇,
如不用“移动电话”,而用“手机“
(8)使用地理位置
如果地理位置很关键,则把它加入关键
词组。例如,检索天气预报,地名就是一
个很有用的关键词
分类语言与主题语言对照
比较项目
分类语言
主题语言
概念
用分类号表达学科体系的 用语词表达文献主题概
各种概念,按学科性质进 念,按字顺编排的检索
行系统排列如:O151.21 语言。如:矩阵论
(矩阵论)
作用
指导从学科或专业途径检 指导从主题途径检索
索文献
文献
主题词表
表现形式 分类表(分类法)
系统性强、不受文种限制 直指性强、专指度高、
特点
灵活
适用性
适用于族性检索,将相关 适用于特性组配检索,
的内容全部集中在一起。 交叉复合概念检索
分类检索语言与主题检索语言的特点比较





主题检索语言规范化的名词术语直接作为文献主题标识,直
观性较好;而分类检索语言的类号是规范化的,类目名称却
不经过严格规范。
主题检索语言按字顺序列排检标识,检索者较易使用;而分
类检索语言按知识系统排列,用号码表达概念,有一定的间
接性。
主题检索语言按主题集中文献信息,对有关某一事物的检索
效率高;而分类检索语言以学科专业为线索集中文献。
主题检索语言用参照系统及其他方法间接显示文献概念之间
的关系,其系统性较差;分类检索语言能够直接显示概念关
系。
主题检索语言接近自然语言。容易与自然语言结合使用。
分类法和主题词的适用性
分类法适于找某一学科和专业方面的图书
(检索的是一类图书资料),检索者在检索前对
图书的书名及内容并不清楚;
主题词途径适于检索者在检索前对所要找的
资料涉及到的主题事物很明确。
End!