PowerPoint 演示文稿

Download Report

Transcript PowerPoint 演示文稿

信息素质教育
计算机检索技术
及中文数据库使用方法
职工专题培训
主讲
段晓玲
一、计算机信息检索的基本技术:
布尔逻辑算符、截词算符、位置算符、字段
限定检索等等。
在进行计算机检索时,有时有一些比较复杂
的课题,如:“GPS在建筑中的应用”,既涉
及GPS,又涉及建筑,还有“应用”,这时候
就要编制出满足要求的计算机检索式,它是机检
的基础。
一、计算机信息检索的基本技术
布尔逻辑算符、截词算符、位置算符、
字段限定检索等等。
 在进行计算机检索时,有时有一些比较
复杂的课题,如:“GPS在建筑中的应
用”,既涉及GPS,又涉及建筑,还有
“应用”,这时候就要编制出满足要求
的计算机检索式,它是机检的基础。

1布尔逻辑检索
(Boolean Logic Retrieval)
逻辑检索的基础是逻辑运算,逻辑运算
中最常用的是布尔逻辑运算符(Boolean
Logic Operators),即与、或、非三种运
算符号,用它们可以表示概念之间的逻辑
关系。
课题
检 索 要 逻辑检
求
索
概念相
交、限
定
AND与
*
计算机用于制图
概念平
行、并
列
OR
或+
土地管理与土地利用
A
B
某一主题去
掉一部分相
关主题
NOT非
-
除光电测距以外的
A
电磁波测距
B
A
B
表达式
检 索 结
果
A AND B 缩小检
A*B
索范围
提高查
准率
A OR B
扩大检
索范围
A+B
提高查
全率
B NOT A 提高查
准率
B-A
2 位置算符(Proximity Operators)
位置算符是表示检索词之间位置关系的一种运
算符。由于英文对一句话有多种表达方法,写法可
能不同。如:“GPS在铁路桥研究中的应用”这个
课题,用英文表达可能是“Using of GPS in
Railway Bridge”, 也可能是“Using of GPS in
Bridge of Railway”,因而可能编制出这样的检索
式,GPS AND (Railway (2N)Bridge)
我们可以通过位置检索提高检索的准确率
(1) (W)算符与(nW)算符 W 是word
与 with的缩写。
特点:W词序不变,中间不可插词,但两
词间可有一个标点,连字符或空格。
nW词序不变,中间可插入N 个词。
如:potential (w) energy可能检出
potential energy and function
又如:gone (2w)wind 可能检出gone with the
wind
(2) (N)与(nN)算符
N是near的缩写
特点:N词序不限,中间不可插词,但两
词间可有一个标点,连字符或空格。
nN词序不限,中间可插入N 个词。
如:econom?? (2N)recovery可能检出
economic recovery,recovery of the
economy,
(3)同字段检索A(F)B,F是field的缩写。
特点:A、B两词必须出现在同一字段中,
词序与词量不限。
如:environment (F)impact/DE,表示两
个词必须同时出现在叙词字段内。
(4) 同句检索A(S)B,S是sentence的缩写。
特点:A、B出现在同一自然句中(子字段),
其词序与词量不受限制。
如:electric (S)plant可检出electric power
plants
如:EI中的NEAR;PQDD中的W/n (两词间距小
于n个单词,且前后位置任意),Pre/n (两词间
距小于n个单词,且前后位置一定)
3截词算符(Truncating operators)
在英语词汇中,一个词可能有多种
形态,如词的单、复数形式的不同,英
美拼写方法不同、词性不同等。如果检
索时将这类词全部输入进去,会增加检
索时间和费用,采用截词法可解决这一
问题。
所谓截词检索,是指在检索标识中保留相
同的部分,用相应的截词符代替可变化部
分。检索中计算机会将所有含有相同部分
标识的记录全部检索出来。常用“?”、
“*”符号表示。
(1)有限截断。
是指在检索词后后截几个有限的字母,如
名词的单复数,动词的词尾变化等。
如输入computer? ?表示有0-1个字母变化,
可检出computer和computers.
输入stud???表示截断处有0-3个字母变化,
可检出study,studies,studied,studing.
(2)无限截断:
在检索词后加一个“?“,表示该词
后可加任意个字符。使用无限截词,所截
词根不能太短,否则会输出许多无关文献,
造成误检。 如:computer?可检出
computers,computering,computered,
computerization.
(3)中间截断:
在检索词中间加一个或几个?号,主
要解决一些英美拼写不同,单复数形式的
不同的词的输入,可简化输入。
如:输入wom?n可检出
woman,women
各种算符在数据库中的实际应用
位置算符
1)EI
NEAR
Bridge NEAR Piling*
表示这两个词要彼此接近,前后顺序不限。
W/n Pig*W/2pine*表示两个词的距离不能超过n个单词
Adj Channel adj tunnel表示含有这两个词,两个词相邻,
位置一定
2)ISI Proceedings 用同句算符(SAME):如Channel same
tunnel,表示channel 和tunnel 出现在同一句子中才
符合检索条件。
3)CSA:
within “X” 表示两词之间不得多于x个词,前后位
置任意
如“women within 8 movement” (顺序不定)
4)Elsevier:
ADJ表示两词相邻,前后顺序固定,与"词检索"的
结果相同;NEAR或NEAR(N),表示两词相邻,
中间可插入少于或等于n个单词,前后顺序可以发
生变化,如果不使用(N),系统默认值为10
5)PQDD
W/n (两词间距小于n个单词,且前后位置
任意),Pre/n (两词间距小于n个单词,且
前后位置一定)
6)ProQuest
W/n(表示连接两个词之间可以
插入n个词 ,前后位置可颠倒)
如:Education w/5 intenet 表示
education和internet之间可以插入
5个词 ,并且前后位置可以颠倒。
Pre/n
表示前后两词之间最多插入n个
词,前后位置一定
如:U.S pre/n economic policy
可检出U.S aid
economic policy,or U.S wartime
economic policy 。
截词符或通配符
CSA\ISI Proceedings\ProQuest\CA用通配符
“?”和截词符“* ”
输入 “patent*”,可以检索到 patent、
patents、
patented等,(无限截断)
输入"wom?n",可以检索到woman和women。
输入“fib??”,可检索到fiber和 fibre。
(有限截断)
EI用“* ” 和“$”(词根算符)
如:Optic*检索结果中包括以optic 开头后面
加任意
多个字母的词例如optic, optics,optical 等
$manager(强调语义)检索出与该词根具有同
样语意的词如
$manage 将检出managers, managerial
和management 等词
※ 通配符不能用在检索词的最前面
4括号检索(Parentheses)
用于改变运算的先后次序,括号内的内容做优
先运算。
用“( )”可以表示优先级。如比较
(GPS OR GIS)AND China
GPS OR GIS AND China
EI 中的表示方法:Relevance AND
(( Aalbersberg WN AU)OR (cool WN AU))
5、字段限制检索
组成数据库的最小单位是记录,一条完整记录中的
每一个著录事项为字段。献书目型数据库的记录基本
包括下列字段:
(1) 存取号字段(AN, Access Number)这是计算
机检索系统为每个数据库的每篇记录规定的能被计算
机识别的特定号码。在同一数据库中,每篇文献记录
只有一个存取号;
(2) 篇(题)名字段(Title Field, /TI)
(3) 文摘字段(Abstract Field, /AB)
(4) 叙词字段或受控词字段(Destriptor Field,
/DE; 或 Controlled term Field-SU) 这一字段是标
引人员给文献标引的反映其主题概念的词,这些
词来自规范化的词表。也称主题词。
(5)自由词字段或非受控词字段(Identified
Field, /ID; Keyword Field , /KW ;Uncontrolled
term Field) 这一字段也是标引人员给文献标引
反映其主题概念的词,但这些词不是规范化词表
中的词。
(6)著者子段(Author,AU)
(7)著者机构子段
(corporate source,CS
或Affiliation source,AF)
(8)刊名字段
(journal,JN或Source Title,ST)
(9)出版年子段
(publication,year,PY)
(10)文献类型子段
(ducument type,DT或Type,TY)
(11)语种子段(language,LA)
(12)分类号子段(classification,CC)
使用作者检索时应注意姓名的书写形式:

在ISTP中,姓前(全称) 名后(缩写):Gong,jy; E DC

在SCI中,

(1)姓 (全称)空格 名(首字母并且连写)

如:Tait NG; LI DR

(2)名前(全称),姓后
如:Zequn,guan; Qingquan,Li

在EI中, 姓名就比较复杂,一般有以下几种情况:姓 名都用全称(姓
前名后);姓全称名缩写(或名之间用连字符);名前姓后全称
如 ke hengyu=ke heng-yu=ke,hengyu
ke,h.y.=ke,h-y;e,d.c.
hengyu ke;dongchen,e
6短语检索(phrase search)即精确检索
短语用“”表示,检索出与“”内形式完全
相同的的短语,以提高检索的精确度和准确
度
7自然语言检索(natural language )
直接采用自然语言中的字、词、句进行提问
式检索,同一般口语一样。这种基于自然语
言的检索方式又被称为“智能检索”,适合
不太熟悉网络信息技术的人员使用。支持自
然语言检索的有中文的悠游,英文的
AltaVista,
Excite,Infoseek,HotBot,AskJeeves等
8多种语言检索(multilingual search)
提供多种语言的检索环境供用户选择,
系统按用户选定的语种进行检索并反馈
结果,支持多语种检索的 如:中文天
网,英文AltaVista,Google等。
9模糊检索(fuzzy search)
又称概念检索。当我们输入一个检索词时,搜索
引擎不仅反馈包括了该关键词的网址,同时也发
来与关键词意义相近的内容。比如:我们查找
“查询”一词时,模糊检索会反馈来包含了“查
询”、“查找”“查一查”、“寻找”、“搜索”
等内容的网址。反馈网址的排列,一般是完全符
合关键词的在最前边,其次是相近的。现在大多
数搜索引擎都有这种功能,只是模糊的程度不同。
10 字母大小写检索
如果用户的检索式用小写字母表示,搜索工具
既匹配大写又匹配小写,如:china(瓷器),
china(中国);如果用大写字母表示,搜索工
具认为用户指定了只要大写,就只会查找那些
与用户键入的输入形式完全相同的结果,如:
china,只检索出china。Alta Vista等搜索引擎
支持区分大小写的检索
实际检索中,往往将多种检索技术混合使
用。如:
TI(Web OR WWW) AND market*
TS=(nanotub* SAME carbon)
NOT
AU=Smalley RE
例1:以汽车导航系统为研究课题,构建
计算机逻辑检索式
题名词:汽车 导航系统 研究
 题名扩展词:机动车; 全球定位技术
(GPS);设计 调查
 计算机逻辑检索式:
 (汽车+机动车)*(导航系统+全球定
位技术+ GPS)*(研究+设计+调查)

示例:有关“企业知识产权研究”
检索式
检索结果
(*表示AND,+表示OR,限定篇名字段)
(2004-2006)
1 企业知识产权
191篇(准确度最高漏检大)
2 企业*知识产权
404 (漏检率较高 )
3 (企业+集团+公司)* 知识产权
466
4 (企业+集团+公司)* (知识产权+专利权
520 (查全率查准率较高)
(适合综述性文献)
+商标权+著作权+名称权)
5 (企业+集团+公司)* (知识产权+专利权
+商标权+著作权+名称权)* 保护
137 (缩小范围效果最佳)

检索结果表明:
检索词的选择、逻辑算符的使用、同义词近
义词的扩展、检索字段的选择等变化,对检
索结果数量的多少、检索的查全和查准有很
大影响

检索结果过少,漏掉了相关文献?
放宽检索要求,提高检全率





去掉某个方面的检索要求;
放宽检索范围:学科领域、时间、文章类型,关键词出
现的字段等;
将描述检索主题的词想全,包括同义词及缩写形式;
如:MRI OR magnetic resonance imaging
使用单数单词检索,可以检索到大多数单词单数、复数
和所有格,不规则单词除外;
如:city 可以检索出 city,cities,city’s,cities’
使用通配符;

检索结果过多,很多文献不相关?
进一步限定检索,提高检准率

更加准确地描述检索需求;

严格限定检索范围:学科领域、时间、文章类型,
关键词出现的字段等;

选择与检索主题密切相关的词和专业术语,如:
kidney disease OR renal failure,避免使用过于
宽泛的词汇,如:influence;

使用词组检索或位置检索;

在检索结果的基础上进行二次检索;
二、数据库的检索方法
检索界面
浏览方式
( Browse )
检索方式
( Search )
浏览方式 ( Browse )
一般包括作者、作者单位、出版物名
称及出版社索引或者按学科划分的分类索引
如:EI Elsevier CSA PROQUEST
IEEE\IEE 重庆维普以及中国期刊网等等
都提供了各种不同的浏览方式
检索方式 ( Search )
基本检索 (basic\quick\simple\easy)
属于一般性的检索,它是根据自己的检索需要,输入字、
词或简单的检索式(不能使用位置检索)来完成检索的,是
一种初级性的检索方式。
高级检索(advance\expend\full\expert)
属于专家性的检索,可以根据自己的检索需要,构件比
较复杂的检索式(可以使用逻辑、括号、截词以及位置算符)
来完成高层次、高质量的检索,检索结果快速、准确。高级
检索分为菜单式检索和命令式检索两种
三 中文数据库的使用方法
中国期刊网
 重庆维普数据库
 万方数据库
 全国期刊联合目录
 高校期刊联合目录
 书生之家

(一) 收录特点

中国期刊网目前世界上最大的连续动态更新的
中国期刊全文数据库。收录1979年至今约
7200种期刊全文。至2005年4月止,累积全
文文献1370多万篇。分为九大专辑:理工A、
理工B、理工C、农业、医药卫生、文史哲、经
济政治与法律、教育与社会科学 、电子技术
与信息科学;126个专题文献数据库。 知识
来源:中国国内约7200种核心期刊与专业特
色期刊的全文以及优秀博硕士学位论文和重要
报纸



重庆维普资讯有限公司是科学技术部西南信息中心下属的
一家大型专业化数据公司,是中文期刊数据库建设事业的
奠基人。自1989年以来,一直致力于报刊等信息资源的深
层次开发和推广应用,业务集数据采集、数据加工、光盘
制作发行和网上信息服务于一体。目前,已成为中国最有
影响力的数据库建设者之一。
维普公司收录有中文报纸400种、中文期刊8000种、外文
期刊5000种;已标引加工的数据总量达1300万篇、3000
万页次、拥有固定客户2000余家,在国内同行中处领先地
位。维普数据库已成为我国图书情报、教育机构、科研院
所等系统必不可少的基本工具和获取资料的重要来源。
数据主要来源于期刊
万方数据资源系统是建立在因特网上的大型科
技、商务信息平台。自1997年8月面向社会各
界开放以来,在国内外产生了较大的影响,同
时在全国各省市建有几百个服务中心,直接用
户达数万人。万方数据资源系统以其巨大的信
息量和方便的检索查询功能成为我国信息界的
知名品牌。

万方数据主要资源建立在万方数据庞大的数据库群之上。
迄今为止,万方数据自有版权以及与合作伙伴共同开发的
数据库总计110多个,归属于8个类别,内容涉及自然科
学和社会科学各个专业领域,收录范围包括期刊、会议、
文献、书目、题录、报告、论文、标准专利、连续出版物
和工具书等,用户既可以单库、跨库检索,也可以在所有
数据库中检索,同时还可以实现按行业需求的检索功能。

万方数据资源系统被整合为科技信息子系统、
商务信息子系统和数字化期刊子系统三个部分,
面向不同用户群,为客户提供全面的信息解决
方案。同时还提供了学位论文全文和会议论文
全文两个数据库。
(二) 使用方法
中国期刊全文数据库(扩展词的用法)
 中文科技期刊全文数据库(逻辑算法的
正确运用)
 万方数据库(各种文献类型的检索)

思考题




1)请举出三种以上常用中(外)文数据库使用的
检索字段。
2)如果要查找某一个精确的词组或短语,需
要用到哪种符号?
3)在国内外数据库的检索技术中,截词算符
一般有哪几种?
4)以“城市生活污染”为研究课题,请分析
该课题的主题概念,选择相关的同义词、近义
词,并写出基本的计算机逻辑检索式。



5)认真分析 “计算机辅助教学软件的研制”
这一课题,并为其编制基本的逻辑检索式。
6)目前很多中外文数据库都提供了主题词表
(如CSA/EBSCO/EI/中国期刊网等等),试举
例说明题名词、关键词与主题词的区别。
7)已知“网络出版对印刷业结构的影响”这
篇文章,在我馆电子全文期刊库中有收录,请
问哪些数据库中可以找到?并指出文献出处。
8)什么是查全率、查准率?在检索策略
的实施过程中,如何扩大和缩小检索范
围,提高查全率和查准率。
 9)如果想查找“水泥工业污染物排放标
准”应该使用哪个标准库?采用何种途
径?如何检索。
