PowerPoint 演示文稿
Download
Report
Transcript PowerPoint 演示文稿
信息素质教育
计算机检索技术
及中文数据库使用方法
职工专题培训
主讲
段晓玲
一、计算机信息检索的基本技术:
布尔逻辑算符、截词算符、位置算符、字段
限定检索等等。
在进行计算机检索时,有时有一些比较复杂
的课题,如:“GPS在建筑中的应用”,既涉
及GPS,又涉及建筑,还有“应用”,这时候
就要编制出满足要求的计算机检索式,它是机检
的基础。
一、计算机信息检索的基本技术
布尔逻辑算符、截词算符、位置算符、
字段限定检索等等。
在进行计算机检索时,有时有一些比较
复杂的课题,如:“GPS在建筑中的应
用”,既涉及GPS,又涉及建筑,还有
“应用”,这时候就要编制出满足要求
的计算机检索式,它是机检的基础。
1布尔逻辑检索
(Boolean Logic Retrieval)
逻辑检索的基础是逻辑运算,逻辑运算
中最常用的是布尔逻辑运算符(Boolean
Logic Operators),即与、或、非三种运
算符号,用它们可以表示概念之间的逻辑
关系。
课题
检 索 要 逻辑检
求
索
概念相
交、限
定
AND与
*
计算机用于制图
概念平
行、并
列
OR
或+
土地管理与土地利用
A
B
某一主题去
掉一部分相
关主题
NOT非
-
除光电测距以外的
A
电磁波测距
B
A
B
表达式
检 索 结
果
A AND B 缩小检
A*B
索范围
提高查
准率
A OR B
扩大检
索范围
A+B
提高查
全率
B NOT A 提高查
准率
B-A
2 位置算符(Proximity Operators)
位置算符是表示检索词之间位置关系的一种运
算符。由于英文对一句话有多种表达方法,写法可
能不同。如:“GPS在铁路桥研究中的应用”这个
课题,用英文表达可能是“Using of GPS in
Railway Bridge”, 也可能是“Using of GPS in
Bridge of Railway”,因而可能编制出这样的检索
式,GPS AND (Railway (2N)Bridge)
我们可以通过位置检索提高检索的准确率
(1) (W)算符与(nW)算符 W 是word
与 with的缩写。
特点:W词序不变,中间不可插词,但两
词间可有一个标点,连字符或空格。
nW词序不变,中间可插入N 个词。
如:potential (w) energy可能检出
potential energy and function
又如:gone (2w)wind 可能检出gone with the
wind
(2) (N)与(nN)算符
N是near的缩写
特点:N词序不限,中间不可插词,但两
词间可有一个标点,连字符或空格。
nN词序不限,中间可插入N 个词。
如:econom?? (2N)recovery可能检出
economic recovery,recovery of the
economy,
(3)同字段检索A(F)B,F是field的缩写。
特点:A、B两词必须出现在同一字段中,
词序与词量不限。
如:environment (F)impact/DE,表示两
个词必须同时出现在叙词字段内。
(4) 同句检索A(S)B,S是sentence的缩写。
特点:A、B出现在同一自然句中(子字段),
其词序与词量不受限制。
如:electric (S)plant可检出electric power
plants
如:EI中的NEAR;PQDD中的W/n (两词间距小
于n个单词,且前后位置任意),Pre/n (两词间
距小于n个单词,且前后位置一定)
3截词算符(Truncating operators)
在英语词汇中,一个词可能有多种
形态,如词的单、复数形式的不同,英
美拼写方法不同、词性不同等。如果检
索时将这类词全部输入进去,会增加检
索时间和费用,采用截词法可解决这一
问题。
所谓截词检索,是指在检索标识中保留相
同的部分,用相应的截词符代替可变化部
分。检索中计算机会将所有含有相同部分
标识的记录全部检索出来。常用“?”、
“*”符号表示。
(1)有限截断。
是指在检索词后后截几个有限的字母,如
名词的单复数,动词的词尾变化等。
如输入computer? ?表示有0-1个字母变化,
可检出computer和computers.
输入stud???表示截断处有0-3个字母变化,
可检出study,studies,studied,studing.
(2)无限截断:
在检索词后加一个“?“,表示该词
后可加任意个字符。使用无限截词,所截
词根不能太短,否则会输出许多无关文献,
造成误检。 如:computer?可检出
computers,computering,computered,
computerization.
(3)中间截断:
在检索词中间加一个或几个?号,主
要解决一些英美拼写不同,单复数形式的
不同的词的输入,可简化输入。
如:输入wom?n可检出
woman,women
各种算符在数据库中的实际应用
位置算符
1)EI
NEAR
Bridge NEAR Piling*
表示这两个词要彼此接近,前后顺序不限。
W/n Pig*W/2pine*表示两个词的距离不能超过n个单词
Adj Channel adj tunnel表示含有这两个词,两个词相邻,
位置一定
2)ISI Proceedings 用同句算符(SAME):如Channel same
tunnel,表示channel 和tunnel 出现在同一句子中才
符合检索条件。
3)CSA:
within “X” 表示两词之间不得多于x个词,前后位
置任意
如“women within 8 movement” (顺序不定)
4)Elsevier:
ADJ表示两词相邻,前后顺序固定,与"词检索"的
结果相同;NEAR或NEAR(N),表示两词相邻,
中间可插入少于或等于n个单词,前后顺序可以发
生变化,如果不使用(N),系统默认值为10
5)PQDD
W/n (两词间距小于n个单词,且前后位置
任意),Pre/n (两词间距小于n个单词,且
前后位置一定)
6)ProQuest
W/n(表示连接两个词之间可以
插入n个词 ,前后位置可颠倒)
如:Education w/5 intenet 表示
education和internet之间可以插入
5个词 ,并且前后位置可以颠倒。
Pre/n
表示前后两词之间最多插入n个
词,前后位置一定
如:U.S pre/n economic policy
可检出U.S aid
economic policy,or U.S wartime
economic policy 。
截词符或通配符
CSA\ISI Proceedings\ProQuest\CA用通配符
“?”和截词符“* ”
输入 “patent*”,可以检索到 patent、
patents、
patented等,(无限截断)
输入"wom?n",可以检索到woman和women。
输入“fib??”,可检索到fiber和 fibre。
(有限截断)
EI用“* ” 和“$”(词根算符)
如:Optic*检索结果中包括以optic 开头后面
加任意
多个字母的词例如optic, optics,optical 等
$manager(强调语义)检索出与该词根具有同
样语意的词如
$manage 将检出managers, managerial
和management 等词
※ 通配符不能用在检索词的最前面
4括号检索(Parentheses)
用于改变运算的先后次序,括号内的内容做优
先运算。
用“( )”可以表示优先级。如比较
(GPS OR GIS)AND China
GPS OR GIS AND China
EI 中的表示方法:Relevance AND
(( Aalbersberg WN AU)OR (cool WN AU))
5、字段限制检索
组成数据库的最小单位是记录,一条完整记录中的
每一个著录事项为字段。献书目型数据库的记录基本
包括下列字段:
(1) 存取号字段(AN, Access Number)这是计算
机检索系统为每个数据库的每篇记录规定的能被计算
机识别的特定号码。在同一数据库中,每篇文献记录
只有一个存取号;
(2) 篇(题)名字段(Title Field, /TI)
(3) 文摘字段(Abstract Field, /AB)
(4) 叙词字段或受控词字段(Destriptor Field,
/DE; 或 Controlled term Field-SU) 这一字段是标
引人员给文献标引的反映其主题概念的词,这些
词来自规范化的词表。也称主题词。
(5)自由词字段或非受控词字段(Identified
Field, /ID; Keyword Field , /KW ;Uncontrolled
term Field) 这一字段也是标引人员给文献标引
反映其主题概念的词,但这些词不是规范化词表
中的词。
(6)著者子段(Author,AU)
(7)著者机构子段
(corporate source,CS
或Affiliation source,AF)
(8)刊名字段
(journal,JN或Source Title,ST)
(9)出版年子段
(publication,year,PY)
(10)文献类型子段
(ducument type,DT或Type,TY)
(11)语种子段(language,LA)
(12)分类号子段(classification,CC)
使用作者检索时应注意姓名的书写形式:
在ISTP中,姓前(全称) 名后(缩写):Gong,jy; E DC
在SCI中,
(1)姓 (全称)空格 名(首字母并且连写)
如:Tait NG; LI DR
(2)名前(全称),姓后
如:Zequn,guan; Qingquan,Li
在EI中, 姓名就比较复杂,一般有以下几种情况:姓 名都用全称(姓
前名后);姓全称名缩写(或名之间用连字符);名前姓后全称
如 ke hengyu=ke heng-yu=ke,hengyu
ke,h.y.=ke,h-y;e,d.c.
hengyu ke;dongchen,e
6短语检索(phrase search)即精确检索
短语用“”表示,检索出与“”内形式完全
相同的的短语,以提高检索的精确度和准确
度
7自然语言检索(natural language )
直接采用自然语言中的字、词、句进行提问
式检索,同一般口语一样。这种基于自然语
言的检索方式又被称为“智能检索”,适合
不太熟悉网络信息技术的人员使用。支持自
然语言检索的有中文的悠游,英文的
AltaVista,
Excite,Infoseek,HotBot,AskJeeves等
8多种语言检索(multilingual search)
提供多种语言的检索环境供用户选择,
系统按用户选定的语种进行检索并反馈
结果,支持多语种检索的 如:中文天
网,英文AltaVista,Google等。
9模糊检索(fuzzy search)
又称概念检索。当我们输入一个检索词时,搜索
引擎不仅反馈包括了该关键词的网址,同时也发
来与关键词意义相近的内容。比如:我们查找
“查询”一词时,模糊检索会反馈来包含了“查
询”、“查找”“查一查”、“寻找”、“搜索”
等内容的网址。反馈网址的排列,一般是完全符
合关键词的在最前边,其次是相近的。现在大多
数搜索引擎都有这种功能,只是模糊的程度不同。
10 字母大小写检索
如果用户的检索式用小写字母表示,搜索工具
既匹配大写又匹配小写,如:china(瓷器),
china(中国);如果用大写字母表示,搜索工
具认为用户指定了只要大写,就只会查找那些
与用户键入的输入形式完全相同的结果,如:
china,只检索出china。Alta Vista等搜索引擎
支持区分大小写的检索
实际检索中,往往将多种检索技术混合使
用。如:
TI(Web OR WWW) AND market*
TS=(nanotub* SAME carbon)
NOT
AU=Smalley RE
例1:以汽车导航系统为研究课题,构建
计算机逻辑检索式
题名词:汽车 导航系统 研究
题名扩展词:机动车; 全球定位技术
(GPS);设计 调查
计算机逻辑检索式:
(汽车+机动车)*(导航系统+全球定
位技术+ GPS)*(研究+设计+调查)
示例:有关“企业知识产权研究”
检索式
检索结果
(*表示AND,+表示OR,限定篇名字段)
(2004-2006)
1 企业知识产权
191篇(准确度最高漏检大)
2 企业*知识产权
404 (漏检率较高 )
3 (企业+集团+公司)* 知识产权
466
4 (企业+集团+公司)* (知识产权+专利权
520 (查全率查准率较高)
(适合综述性文献)
+商标权+著作权+名称权)
5 (企业+集团+公司)* (知识产权+专利权
+商标权+著作权+名称权)* 保护
137 (缩小范围效果最佳)
检索结果表明:
检索词的选择、逻辑算符的使用、同义词近
义词的扩展、检索字段的选择等变化,对检
索结果数量的多少、检索的查全和查准有很
大影响
检索结果过少,漏掉了相关文献?
放宽检索要求,提高检全率
去掉某个方面的检索要求;
放宽检索范围:学科领域、时间、文章类型,关键词出
现的字段等;
将描述检索主题的词想全,包括同义词及缩写形式;
如:MRI OR magnetic resonance imaging
使用单数单词检索,可以检索到大多数单词单数、复数
和所有格,不规则单词除外;
如:city 可以检索出 city,cities,city’s,cities’
使用通配符;
检索结果过多,很多文献不相关?
进一步限定检索,提高检准率
更加准确地描述检索需求;
严格限定检索范围:学科领域、时间、文章类型,
关键词出现的字段等;
选择与检索主题密切相关的词和专业术语,如:
kidney disease OR renal failure,避免使用过于
宽泛的词汇,如:influence;
使用词组检索或位置检索;
在检索结果的基础上进行二次检索;
二、数据库的检索方法
检索界面
浏览方式
( Browse )
检索方式
( Search )
浏览方式 ( Browse )
一般包括作者、作者单位、出版物名
称及出版社索引或者按学科划分的分类索引
如:EI Elsevier CSA PROQUEST
IEEE\IEE 重庆维普以及中国期刊网等等
都提供了各种不同的浏览方式
检索方式 ( Search )
基本检索 (basic\quick\simple\easy)
属于一般性的检索,它是根据自己的检索需要,输入字、
词或简单的检索式(不能使用位置检索)来完成检索的,是
一种初级性的检索方式。
高级检索(advance\expend\full\expert)
属于专家性的检索,可以根据自己的检索需要,构件比
较复杂的检索式(可以使用逻辑、括号、截词以及位置算符)
来完成高层次、高质量的检索,检索结果快速、准确。高级
检索分为菜单式检索和命令式检索两种
三 中文数据库的使用方法
中国期刊网
重庆维普数据库
万方数据库
全国期刊联合目录
高校期刊联合目录
书生之家
(一) 收录特点
中国期刊网目前世界上最大的连续动态更新的
中国期刊全文数据库。收录1979年至今约
7200种期刊全文。至2005年4月止,累积全
文文献1370多万篇。分为九大专辑:理工A、
理工B、理工C、农业、医药卫生、文史哲、经
济政治与法律、教育与社会科学 、电子技术
与信息科学;126个专题文献数据库。 知识
来源:中国国内约7200种核心期刊与专业特
色期刊的全文以及优秀博硕士学位论文和重要
报纸
重庆维普资讯有限公司是科学技术部西南信息中心下属的
一家大型专业化数据公司,是中文期刊数据库建设事业的
奠基人。自1989年以来,一直致力于报刊等信息资源的深
层次开发和推广应用,业务集数据采集、数据加工、光盘
制作发行和网上信息服务于一体。目前,已成为中国最有
影响力的数据库建设者之一。
维普公司收录有中文报纸400种、中文期刊8000种、外文
期刊5000种;已标引加工的数据总量达1300万篇、3000
万页次、拥有固定客户2000余家,在国内同行中处领先地
位。维普数据库已成为我国图书情报、教育机构、科研院
所等系统必不可少的基本工具和获取资料的重要来源。
数据主要来源于期刊
万方数据资源系统是建立在因特网上的大型科
技、商务信息平台。自1997年8月面向社会各
界开放以来,在国内外产生了较大的影响,同
时在全国各省市建有几百个服务中心,直接用
户达数万人。万方数据资源系统以其巨大的信
息量和方便的检索查询功能成为我国信息界的
知名品牌。
万方数据主要资源建立在万方数据庞大的数据库群之上。
迄今为止,万方数据自有版权以及与合作伙伴共同开发的
数据库总计110多个,归属于8个类别,内容涉及自然科
学和社会科学各个专业领域,收录范围包括期刊、会议、
文献、书目、题录、报告、论文、标准专利、连续出版物
和工具书等,用户既可以单库、跨库检索,也可以在所有
数据库中检索,同时还可以实现按行业需求的检索功能。
万方数据资源系统被整合为科技信息子系统、
商务信息子系统和数字化期刊子系统三个部分,
面向不同用户群,为客户提供全面的信息解决
方案。同时还提供了学位论文全文和会议论文
全文两个数据库。
(二) 使用方法
中国期刊全文数据库(扩展词的用法)
中文科技期刊全文数据库(逻辑算法的
正确运用)
万方数据库(各种文献类型的检索)
思考题
1)请举出三种以上常用中(外)文数据库使用的
检索字段。
2)如果要查找某一个精确的词组或短语,需
要用到哪种符号?
3)在国内外数据库的检索技术中,截词算符
一般有哪几种?
4)以“城市生活污染”为研究课题,请分析
该课题的主题概念,选择相关的同义词、近义
词,并写出基本的计算机逻辑检索式。
5)认真分析 “计算机辅助教学软件的研制”
这一课题,并为其编制基本的逻辑检索式。
6)目前很多中外文数据库都提供了主题词表
(如CSA/EBSCO/EI/中国期刊网等等),试举
例说明题名词、关键词与主题词的区别。
7)已知“网络出版对印刷业结构的影响”这
篇文章,在我馆电子全文期刊库中有收录,请
问哪些数据库中可以找到?并指出文献出处。
8)什么是查全率、查准率?在检索策略
的实施过程中,如何扩大和缩小检索范
围,提高查全率和查准率。
9)如果想查找“水泥工业污染物排放标
准”应该使用哪个标准库?采用何种途
径?如何检索。