元数据与互操作

Download Report

Transcript 元数据与互操作

北京大学研究生课程进修班 2005 上海
元数据与互操作
刘炜
[email protected]
元数据的互操作协议和标准
• 元数据的互操作
• 元数据的映射
• 元数据的互操作机制—标准的资源描述框
架
• OpenURL标准
• Z39.50 协议标准
• OAI元数据互操作协议
北京大学研究生课程进修班 2005 上海
整合检索模式
• 集中式联合目录
– 联合编目系统
– 人工上传批处理
– 采用协议,自动收割(Harvesting)元数据,如OAI
• 分布式联合目录
– 采用标准协议实时查询各资源站点的元数据,如
Z39.50, SDLIP, OpenURL
– 采用动态页面分析技术,以元搜索方式实时查询资源
站点元数据。
北京大学研究生课程进修班 2005 上海
互操作的现实目标
整合下述资源:
• Abstracting/Indexing Services
• Publishers (e.g. Elsevier ScienceDirect) –
important to be able to pull togther
• Aggregators
• Electronic reserves
• Local databases including digitization projects
• OAI resources
• Institutional repositories
北京大学研究生课程进修班 2005 上海
总控管理
检索参数定制
资源定制
检索结果保存
用户界面
用户管理
认证管理
Session管理
日志管理
统一检索入口
跨
库
检
索
系
统
针
对
特
定
资
源
的
元
数
据
检索请求处理API
检索请求处理模块
HTTP连接器
连接器引擎
API
统一格式结果反馈
检索结果处理API
各协议连接器引擎
Z39.50连接器
检索结果处理模块
JDBC连接器
Internet数据源
Z39.50服务器
本地数据库
北京大学研究生课程进修班 2005 上海
OAI连接器
OAI服务器
结
果
格
式
转
换
配
置
文
件
靜態連結
•
•
•
•
是以批次的方式先行演算好
在查詢時便是以即時回應的方式呈現
而這種方式大都是一對一的形式
故使用者無法從此獲得更多的資訊需求。
– 例:Silver Platter’s SilverLinker
– 因有執行維護與更新的工作,故不會出現
Access Denied的訊息
北京大学研究生课程进修班 2005 上海
靜態連結
北京大学研究生课程进修班 2005 上海
動態連結
• on the fly
– 電子期刊文章被查詢時,才產生其連結的URL
• 此動態的連結主要是和metadata相配合
– Metadata的品質愈好則連結的效果愈好。
– link-to
• 缺乏標準的型式來演算動態連結的URLs
– deeper link
北京大学研究生课程进修班 2005 上海
How to interlinking
• 開放性的連結機制
– OpenURL
• 建立聯合目錄
– OAI開放檔案詮釋資料擷取協定
(Open Archives Initiative Protocol for Metadata
Harvesting)
• 數位資源的統一編碼(命名)是更基本的問題
北京大学研究生课程进修班 2005 上海
DOI - CrossRef
參考資料
DOI
DOI
Metadata
北京大学研究生课程进修班 2005 上海
DOI - CrossRef
DOI
link
參考資料
DOI
URL to
DOI
Metadata
Publisher
http://dx.doi.org/10.1093/toxsci/57.1.95
北京大学研究生课程进修班 2005 上海
OpenURL
• 在Web間傳遞訊息的機制
• 定義
– 應用於Web上超連結的一種標準陳述語法。
– 藉由已經定義好的標籤 (Tag),增進Web超連結能力。
• 規範
– 定義一個標準INTERNET資料連結的陳述語法。
– 讓服務提供者(Target)可以輕易解析資料提供者
(Source)所傳送的要求。
– 而資料提供者(Source)輕易對服務提供者(Target)
送出深度連結服務要求。
北京大学研究生课程进修班 2005 上海
OpenURL
北京大学研究生课程进修班 2005 上海
OpenURL
• 協定內容
– 基本語法是與一般Internet上CGI程式所用的HTTP
GET與HTTP POST類似
• 完整的OPENURL語法有兩部分:
– BASE-URL
就是用來接收OPENURL資料的啟始位置,如
http://www.sfx.co.il/sfxmenu。
– DESCRIPTION
這部分就是要送給服務提供者的metadata物件細節。
每個metadata物件間以&符號區隔。
北京大学研究生课程进修班 2005 上海
OpenURL =
BASE URL +
QUERY
• 透過Metadata(Value),如:ISSN、ISBN嵌入於
URL
– http://server.lanl.gov/menu?genre=article&issn=1
2345678&volume=12&issue=3&spage=1&epage
=8&date=1998&aulast=Smith&aufirst=Paul
• 還可以透過如該資訊資源的識別資料-DOI
– http://server.lanl.gov/menu?id=doi:10.1000/63821
北京大学研究生课程进修班 2005 上海
透過OpenURL查詢
分散在各處的資料
索摘資料庫
•動態地將metadata 帶給
中介的服務機構
中介的服務機構
OPAC
OpenURL
OpenURL
OpenURL
電子文件
OpenURL
• 連結系統
• 可描述文件
全文資料庫
北京大学研究生课程进修班 2005 上海
以SFX為中介的服務機構
的做法
索摘資料庫
server
OPAC
OpenURL
全文資料庫
北京大学研究生课程进修班 2005 上海
OpenURL
OpenURL
OpenURL
電子文件
SFX
• 以OpenURL為效尤的開放性連結解決辦法
• 透過標準化的服務做跨系統查詢
• 可實現不同WEB學術資訊資源的動態連結:
– 索摘資料庫、引文資料庫、OPAC及WEB資源
• 能提供各種统計報表
– 點選SFX按鈕的次数
– 透過SFX下載全文的次數
北京大学研究生课程进修班 2005 上海
SFX Server
• 提供者(source):指資訊代理商的各種資源
– 如:Medline、Web of science、OPAC
• 透過SFX的hooks機制,使各圖書館能連結各資源
• 服務提供者(service):用來接受OpenURL的輸
入
– 分析和評估傳來的metadata,確定要連結目標
• 如:館藏、全文、目次、摘要服務
• 目標(targets):各種形式的電子資源
– 包括電子期刊、OPAC、ILL、索摘資料庫、百科全書等
北京大学研究生课程进修班 2005 上海
Sourse – Service - Target
Service
Source
Target
北京大学研究生课程进修班 2005 上海
DOI – CrossRef – OpenURL - SFX
OpenURL
aware
DOI
link
參考資料
DOI
http://dx.doi.org/10.1093/toxsci/57.1.95
DOI
Metadata
Server
北京大学研究生课程进修班 2005 上海
獲得館藏資料
北京大学研究生课程进修班 2005 上海
取得WOS的資料
http://sfxserver.uni.edu/sfxmenu?sid=Provider2:AI1&pid=987641
北京大学研究生课程进修班 2005 上海
Z39.50标准和 协议
• Z39.50标准的名称: 信息检索--应用服务定
义与协议规范
• Z39.50协议是在分布式网络环境下, 用以支
持信息搜索和信息检索的计算机系统间的
通信协议
北京大学研究生课程进修班 2005 上海
标准所依据的相关技术基础
• 标准规定了数据库管理系统的客户端和服
务器端对话的规则。
• 这种规则建立在客户机/服务器的体系结构
基础之上。
• 数据库客户端和服务器端的通讯通过网络
实现。
北京大学研究生课程进修班 2005 上海
Z39.50标准与协议的 对应关系
标
准
Z39.50--1988
Z39.50--1992
Z39.50--1995
标准规范的协议
Z39.50第一版
Z39.50第二版
Z39.50第二版和第三版
北京大学研究生课程进修班 2005 上海
源端与目标端的概念
• Z39.50标准是按典型的客户机/服务器体系
结构定义的。
• 在Z39.50标准术语中,客户端计算机和服
务器在通讯过程中分别被称为“源端”
(Origin)和“目标端”(Target)。
• 使用“源端”和“目标端” 代表客户机与
服务器描述数据通讯过程,是为了概念上
更准确。
北京大学研究生课程进修班 2005 上海
Z39.50信息检索模型
用户界面
搜索
数据库
检索结果
转换
客户端
搜索
数据集
数据库记录
转换
检索
Z-server
检索结果
北京大学研究生课程进修班 2005 上海
根据Z39.50标准实现的图书馆管理系统
标准数据格式及统一的检索逻辑
Z39.50标准接口
BER编码
TCP/IP或其它协议
北京大学研究生课程进修班 2005 上海
设施、服务与操作
• Z39.50标准规定了源端和目标端互操作的
规范。
• 这些操作抽象为设施和服务,并对其过程
作出各种约定。
• 这些设施中的服务,需要通过特定的操作
指令来表达。
• 配合这些操作指令,还约定了属性集和记
录语法,用代码来表示特定的操作属性和
记录语法形态。
北京大学研究生课程进修班 2005 上海
Z39.50标准的主要内容
•
•
•
•
•
•
•
•
•
•
•
设施名称
初始化
搜索
获取
删除结果集
浏览
排序
存取控制
帐务与资源管理
解释
扩展服务
终止
服务名称
初始化
搜索
提交、分段
删除
扫描
排序
存取控制
资源管理、触发资源管理、资源报告
(使用搜索和获取设施中的服务)
扩展服务
关闭
北京大学研究生课程进修班 2005 上海
Z39.50协议的服务与机制
机制
机制中的服务
记帐/资源控制机制
解释机制
扩展服务群机制
终止机制
资源控制服务、触发
资源控制服务、资源
报告服务
扩展服务群服务
关闭服务
北京大学研究生课程进修班 2005 上海
Z39.50的操作
Z39.50标准描述了八种操作类型:
•
•
•
•
Init(初始化)
Search(检索)
Present(提交)
Delete(删除)
•
•
•
•
Scan(扫描)
Sort(排序)
Resource-report(资源报告)
Extended-services(扩展服
务)。
北京大学研究生课程进修班 2005 上海
关于属性集
在Z39.50标准实施中,bib-1是最主要的属性
集,包括6组属性或属性类型:
• 使用属性:指定搜索过程将要访问的检索点。
• 关系属性:指定用户输入的检索词与数据库索引
值的关系。
• 截断属性:指定检索词在索引的哪一部分作为命
中条件。
• 完整性属性:指定检索词在索引中是唯一值或非
唯一值。
• 位置属性:指定在索引字段中与检索词相关的内
容应出现在哪个位置。
• 结构属性:指定搜索的格式。
北京大学研究生课程进修班 2005 上海
关于记录语法
• 简单无格式文本记录语法(Simple Unstructured
Text Record Syntax,简称SUTRS)。
• 通用记录语法(Generic Record Syntax,简称
GRS-1)。
• 公共目录记录语法(OPAC Record Syntax)。
• 摘要记录语法(Summary Record Syntax,简称
Summary)。
• 扩展置标语言(EXtensible Markup Language,
简称XML)。
北京大学研究生课程进修班 2005 上海
机读目录的记录语法定义
• Z39.50对机读目录格式记录语法的定义,是为每
一种机读目录格式分配一个对象标识号(object
identifier number)。下面列出了Z39.50支持的
机读目录格式类型:
Ausmarc
Canmarc
CCF
Danmarc
Finmarc
Ibermarc
Intermarc
Librismarc
MAB
Normarc
Picamarc
SBN
UKmarc
Unimarc
USmarc
北京大学研究生课程进修班 2005 上海
关于Profile(描述文件)
由于Z39.50是一个非常灵活的标准,执行这
个标准还需要通过制定相应的profile(描述
文件)以保证系统的互操作性。图书馆界
制定的Bath Profile,就是被图书馆界普遍
接受的描述文件。使用描述文件的好处是:
• 使多数据库检索过程更为容易。
• 检索结果更为准确。
• 检索结果更为精练。
转下页
北京大学研究生课程进修班 2005 上海
(接上页)
• 用户对支持这个描述文件的服务器进行检索时,
可以保持同样的界面环境并得到更高质量的检索
结果。
• 图书馆不必为每个数据库资源逐一定义检索方式,
而是利用国际上由专家在描述文件中设计的方式。
• 提高多数据库检索的效率。
• 借鉴Bath描述文件建立本地的描述文件,可以减
少另外设计描述文件的时间。
• 用户只需要向软件供应商了解产品如何支持某个
国际标准描述文件,而不是问软件供应商如何定
义自己的标准。
北京大学研究生课程进修班 2005 上海
客户机与服务器之间通讯的一般原理
客户机
信号传输方向
服务器
建立联接
接受联接
接收联接确认
发出联接确认
发出权限验证
接受验证信息
接受确认验证
确认接受验证
发出检索请求
接受检索请求
接受检索结果
返回检索结果
发出获取记录请求
接受获取记录请求
接受指定记录
返回指定记录
关闭联接
关闭服务
北京大学研究生课程进修班 2005 上海
Z39.50的基本服务
Z39.50应用程序在实现其功能的过程中,根
据需要选择这些服务。有三种服务是最基
本的服务:
• 初始化(Initialization)
• 搜索(Search)
• 提交(Present)
在各种现有的Z39.50应用中,通常都包括了
上述三种服务功能。
北京大学研究生课程进修班 2005 上海
基本服务之一:初始化
初始化是在任何查询过程中的第一步。在这
个服务中,源端需要:
• 向目标端表明自己的身份
• 与目标端约定某些后续查询处理过程中的
基本规则
• 与目标端交换验证信息的具体内容
北京大学研究生课程进修班 2005 上海
基本服务之二:搜索
• 搜索功能包括了系统的主要工作
• 由源端向目标端提交查询请求
这些查询请求可以是非常简单的请求,也可能是含有复杂
逻辑检索式(与、或、非、大于、小于等等)的请求。
• 服务器端通常使用描述文件(Profiles)说
明支持的服务类型和应用程序兼容性,很
多描述文件还说明了哪些是本系统能够支
持的检索属性。
北京大学研究生课程进修班 2005 上海
基本服务之三:提交
提交功能的作用是说明管理结果被返回用户
端时的形态。在提交功能中,用户可以:
• 指定提供记录的数量,例如:当命中记录
较多时,只提交前十条命中的记录。
• 指定提供记录的格式,例如:要求按英国
机读格式标准提交,不要按美国机读格式
标准提交。
北京大学研究生课程进修班 2005 上海
Z的下一代
北京大学研究生课程进修班 2005 上海
SRW/U
• SRW
– Search and Retrieve Web Service
• SRU
– Search and Retrieve URL Service
• SRW/U
– Search and Retrieve for the Web
北京大学研究生课程进修班 2005 上海
ZING
ZING:
“Z39.50 (international)
Next Generation”
srw
sru
北京大学研究生课程进修班 2005 上海
ZING
srw
sru
cql
Common Query Language
北京大学研究生课程进修班 2005 上海
ZING
srw
sru
cql
北京大学研究生课程进修班 2005 上海
ZING
srw
sru
zeeRex
cql
ez3950
ZOOM
北京大学研究生课程进修班 2005 上海
ZING
srw
sru
zeeRex
cql
ez3950
ZOOM
北京大学研究生课程进修班 2005 上海
ZING
Z39.50 Explain: Explained
and Re-engineered in XML
srw
sru
北京大学研究生课程进修班 2005 上海
zeeRex
ZING
srw
sru
zeeRex
Z39.50
北京大学研究生课程进修班 2005 上海
ZING
srw
sru
北京大学研究生课程进修班 2005 上海
zeeRex
ZING
Z39.50 Object
Oriented Model
srw
sru
北京大学研究生课程进修班 2005 上海
ZOOM
ZING
srw
sru
ZOOM
Z39.50
北京大学研究生课程进修班 2005 上海
ZING
srw
sru
北京大学研究生课程进修班 2005 上海
ZOOM
ZING
srw
sru
北京大学研究生课程进修班 2005 上海
SRW/U Features
•
•
•
•
SOAP and URL-based access
Common Query Language -- CQL
Retains several Z39.50 abstractions….
….. And discards a few
北京大学研究生课程进修班 2005 上海
SRW/U Features
•
•
•
•
SOAP and URL-based access
Common Query Language -- CQL
Retains several Z39.50 abstractions….
….. And discards a few
北京大学研究生课程进修班 2005 上海
SRW/U Features
•
•
•
•
SOAP and URL-based access
Common Query Language -- CQL
Retains several Z39.50 abstractions ….
….. And discards a few
北京大学研究生课程进修班 2005 上海
SRW/U Features
•
•
•
•
SOAP and URL-based access
Common Query Language -- CQL
Retains several Z39.50 abstractions ….
….. And discards a few
北京大学研究生课程进修班 2005 上海
SRW/U retains these Z39.50
concepts……….
•
•
•
•
•
result sets
abstract access points
abstract record schemas
application level diagnostics
“Explain”
北京大学研究生课程进修班 2005 上海
….. But differs from Z39.50
in these respects:
• Web-based
• Connectionless
• XML:
– Protocol (no ASN.1)
– + records (no “record syntax”)
• CQL -- user-friendly query
北京大学研究生课程进修班 2005 上海
The Weaknesses of Classic
Z39.50
• Not popular with the Web community
– Connection-based Sessions
– Binary Encoding
– Transmitted directly over TCP/IP
• Complicated
北京大学研究生课程进修班 2005 上海
Z39.50 Complicated?
• 11 Native Services
– Init, Search, Present, DeleteResultSet,
AccessControl, ResourceControl,
TriggerResourceControl, ResourceReport,
Scan, Sort, Segment.
• 7 Extended Services
– PersistentResultSet, PersistentQuery,
PeriodicQuerySchedule, ItemOrder,
DatabaseUpdate, ExportSpecification,
ExportInvocation
北京大学研究生课程进修班 2005 上海
Z39.50 Complicated?
• 156 page standard
– 147 in the 2002 draft
• Vocabulary from the OSI community
– Target, Origin, APDU, A-association, Zassociation..
• Records described with ASN.1
• Attribute Sets
北京大学研究生课程进修班 2005 上海
The Strengths of Classic
Z39.50
• Result Sets (a.k.a. Statefulness)
• Abstraction
– Abstract Access Points (Attribute Sets)
– Abstract Record Schemas
• Explain
北京大学研究生课程进修班 2005 上海
SRW: Search and Retrieve on
the Web
• SOAP (Simple Object Access Protocol)
Based
– HTTP
– XML
• Records Described in WSDL (Web Service
Description Language)
• 1 Service: SearchAndRetrieve
• No Documentation :-)
北京大学研究生课程进修班 2005 上海
Semantically equivalent to
classic Z39.50
• Gateways Trivial
• Preserves the experience of the ZIG
without the baggage of the standard
• Syntactic equivalence discounted
北京大学研究生课程进修班 2005 上海
SRW: The Basics
•
•
•
•
Only one database per request
String (not structure) based queries
Index Sets, not Attribute Sets
One Record Syntax (XML)
北京大学研究生课程进修班 2005 上海
The SRW Request
•
•
•
•
String Query
Integer StartRecord
Integer MaximumRecords
String RecordSchema
北京大学研究生课程进修班 2005 上海
The SRW Response
• String ResultSetReference
– ResultSetName
– ResultSetTimeToLive
• Integer TotalHits
• Records
• Status (Status Code & Diagnostic)
北京大学研究生课程进修班 2005 上海
CQL: Common Query
Language
•
•
•
•
•
Loosely based on CCL Search
Boolean & Proximity Operators
Index Sets & Indexes
Truncation Characters ‘*’, ‘#’ & ‘?’
Example:
dc.title=“harry potter” or bib1.isbn=123-456-78x
北京大学研究生课程进修班 2005 上海
Explain Now Possible
• Not practical for classic Z39.50
• List of supported Schemas
• List of supported Indexes
北京大学研究生课程进修班 2005 上海
SRU: Search and Retrieve
with URL’s
•
•
•
•
SRW Without the SOAP Wrapper
Intended for Thin Clients
Adds ResponseSchema Parameter
Example
http://deimos.oclc.org/SRW/etdcat?query=nucle
ar&maxRecords=10
北京大学研究生课程进修班 2005 上海
Outlook for SRW/SRU
• A solution looking for a problem?
• Not likely to be quickly adopted by the
library community
• Could show up first in other communities:
MetaSearch, Geospatial, Biodiversity,
OAI(?)
• Will be seen as a competitor with XML
Query
北京大学研究生课程进修班 2005 上海
Links
• http://www.loc.gov/
– LC Home Page
• http://www.loc.gov/srw
– SRW/U Home Page
• http://www.loc.gov/cql
– CQL Home Page
[email protected]
北京大学研究生课程进修班 2005 上海
OAI: Open Archival
Initiative
北京大学研究生课程进修班 2005 上海
定义
• Open Archives Initiative Protocol for Metadata
Harvesting,(OAI-PMH)简称OAI协议,协议
的制定目的是提供具有独立于应用程序的、可互
操作的,能夠提供和促进Web上信息资源发布和
共享的社区的应用框架。其主要目标为:
– 简化文件內容的有效传播。
– 促进数字化文件的存取。
– 扩展存取数字化信息的种类和范围。
北京大学研究生课程进修班 2005 上海
规范
• 定义一个资料提供者能夠通过HTTP为基础
的协议,发布其metadata的机制
• 定义一个能夠从资源库(Repository)获取含
有元数据记录的机制
北京大学研究生课程进修班 2005 上海
组成要素
OAI verb
Repository
Data
Provider
Request
Service
Provider
Repository
Record
Response
Repository
北京大学研究生课程进修班 2005 上海
User
名次定义
• DP数据提供者:提供其文件內容,並以OAI作為發佈metadata的协议。
主要工作為維護一個或一個以上支援OAI协议來將其內容以metadata
發佈的儲存器(Web伺服器)。
• SP服务提供者:透過OAI协议向資料提供者取得資料,並將獲得的
metadata在其上建立加值服務。
• 资源库(Repository):透過HTTP,接受OAI协议所提出存取資料需求
的伺服器。
• 数据集(Set):非必备功能。为了方便取得所需资料的目的,儲存器內
可將不同類別的資料區分成不同的群組,並以階層式架構表示,以節
點(node)作為各分類的區分,因此每一個節點即稱之為資料集。
• 记录(Record):一个数据记录是后台服务器依据OAI协议,从存储器
內將资料以XML编码传回前端的元数据。
北京大学研究生课程进修班 2005 上海
数据记录的元数据结构
• Header-標記有關此筆資料錄的資訊,主要包含
兩部分:
– Unique identifier-儲存器內資料的唯一性標示
– Datestamp-有關資料新增、維護、刪除的日期資訊,
提供服務提供者端程式判斷處理。
• Metadata-資料錄實際的metadata內容。
• About-非必備的部分。提供有關資料的相關說明,
如版權宣告等。
北京大学研究生课程进修班 2005 上海
编码要求
• 依據OAI协议1.0版本,所有以OAI协议需求
而傳回文件的Content-Type標籤,必須為
「text/xml」,而XML文件之字碼必須使用
Unicode之UTF-8字碼結構,而UTF-8亦是
XML的預設字碼,表示使用8位元之
Unicode字集。因此,在XML文件內的
prolog應宣告成:
– <?xml version=”1.0” encoding=”UTF-8”?>
北京大学研究生课程进修班 2005 上海
协议规范
• definitions & concepts
–
–
–
–
–
repository
record
identifier
datestamp
set
• protocol features
– HTTP encoding
– metadata prefix &
schema
– flow control
• protocol requests
– supporting requests
– harvesting requests
北京大学研究生课程进修班 2005 上海
Repository
support
data
harvesting
data
h
a
r
v
e
s
t
e
r
oai protocol
北京大学研究生课程进修班 2005 上海
r
e
p
o
s
i
t
o
r
y
items
Record
<record>
<header>
<identifier>oai:eg:001</identifier>
<datestamp>1999-01-01</datestamp>
</header>
<metadata>
<dc xmlns=“http://purl.org/dc”>
<title>My Example</title>
</dc>
</metadata>
<about>
<ea xmlns=“http://www.arXiv.org/ea”
<usage>No restrictions</usage>
</ea>
</about>
</record>
北京大学研究生课程进修班 2005 上海
protocol support
format-specific
metadata
community-specific
record data
oai:ncstrl:ncstrl.cornellcs/TR94Identifiers1418
locally unique key for extracting a record
from a repository
oai-identifier = oai:archive-identifier:record-identifier
Registered
URI
Scheme
Archive
Idendifier:
Registered within
OAI
北京大学研究生课程进修班 2005 上海
Unique ID within
archive:
(syntax is archivespecific)
Selective Harvesting Datestamps
harvest within
date range
record
record
北京大学研究生课程进修班 2005 上海
r
e
p
o
s
i
t
o
r
y
Selective Harvesting - Sets
harvest within set
record
record
record
r
e
p
o
s
i
t
o
r
y
北京大学研究生课程进修班 2005 上海
S1
S2
Set Specifics…
• Repositories define hierarchical
organization
• Each item in a repository may be
organized in one set, several sets, or no
sets at all
• Meaning of sets or of set hierarchy is not
defined in protocol
• Individual communities may formulate
common set configurations
北京大学研究生课程进修班 2005 上海
HTTP encoding - requests
BASE-URL -----------> an.oa.org/OAI-script
keyword arguments --> verb=ListIdentifers&set=S1
GET
http://an.oa.org/OAI-script?verb=ListIdentifers&set=S1
POST
POST http://an.oa.org/OAI-script HTTP/1.0
Content-Length: 78
Content-Type: application/x-www-form-urlencoded
verb=ListIdentifers&set=S1
北京大学研究生课程进修班 2005 上海
HTTP encoding - responses
<xml version=1.0 encoding=“UTF-9” ?>
<GetRecord
xmlns=“http://oai.namespace.uri”
xmlns:xsi=“http://w3.namespace.uri”
xsi:schemaLocation=“http://oai.namespace.uri
http://oai.schemaURL”>
<responseDate>2000-19-01T19:30:30-04:00</responseDate>
<requestURL>http://an.oa.org/OAI-script?verb=GetRecord
&amp;identifier=oai%3AarXiv%3A0001
&amp;metadataPrefix=oai_dc</requestURL>
<record>
record contents
</record
additional records
</GetRecord>
北京大学研究生课程进修班 2005 上海
xml
namespaces
response
header
response
data
Metadata Prefix and Schema
• Support for harvesting multiple metadata
formats
– Metadata schema: each format must have a
validating XML schema at a publicly
accessible URL (communities may define
shared formats and schema.
– Metadata prefix: each repository maps a
prefix to the schema it supports, which is used
in protocol requests.
• Support for unqualified Dublin Core
北京大学研究生课程进修班 2005 上海
mandatory
Flow Control
h
a
r
v
e
s
t
e
r
protocol request
北京大学研究生课程进修班 2005 上海
r
e
p
o
s
i
t
o
r
y
Flow Control Specifics…
• Applies to all protocol requests that return
lists: ListRecords, ListIdentifiers, ListSets
• ResumptionToken is opaque
• Semantics of partitioning of responses
within resumption requests is undefined
• Time-to-live of resumptionToken is not
defined by the protocol
北京大学研究生课程进修班 2005 上海
OAI harvesting tools
service provider
h
a
r
v
e
s
t
e
r
data provider
Supporting protocol requests:
• Identify
• ListMetadataFormats
• ListSets
Harvesting protocol requests:
• ListRecords
• ListIdentifiers
• GetRecord
北京大学研究生课程进修班 2005 上海
r
e
p
o
s
i
t
o
r
y
Supporting Protocol
Requests
service provider
h
a
r
v
e
s
t
e
r
data provider
Identify
•Repository name
•Base-URL
• Admin e-mail
• OAI protocol version
• Description Container
北京大学研究生课程进修班 2005 上海
r
e
p
o
s
i
t
o
r
y
Supporting Protocol
Requests
service provider
h
a
r
v
e
s
t
e
r
data provider
ListMetadataFormats
REPEAT
• Format prefix
• Format XML schema
/REPEAT
北京大学研究生课程进修班 2005 上海
r
e
p
o
s
i
t
o
r
y
Supporting Protocol
Requests
service provider
h
a
r
v
e
s
t
e
r
data provider
ListSets
REPEAT
• Set Specification
• Set Name
/REPEAT
北京大学研究生课程进修班 2005 上海
r
e
p
o
s
i
t
o
r
y
Harvesting Requests
service provider
h
a
r
v
e
s
t
e
r
* from=a
data provider
* until=b
* set=klm
ListRecords * metadataPrefix=oai_dc
REPEAT
• Identifier
• Datestamp
• Metadata
•About Container
/REPEAT
北京大学研究生课程进修班 2005 上海
r
e
p
o
s
i
t
o
r
y
Harvesting Requests
service provider
h
a
r
v
e
s
t
e
r
ListIdentifiers
* from=a
* until=b
* set=klm
data provider
REPEAT
• Identifier
• Datestamp
/REPEAT
北京大学研究生课程进修班 2005 上海
r
e
p
o
s
i
t
o
r
y
Harvesting Requests
service provider
h
a
r
v
e
s
t
e
r
data provider
GetRecord
* identifier=oai:mlib:123a
* metadataPrefix=oai_dc
• Identifier
• Datestamp
• Metadata
• About
北京大学研究生课程进修班 2005 上海
r
e
p
o
s
i
t
o
r
y
服务提供方功能模块
北京大学研究生课程进修班 2005 上海
数据提供方功能模块
北京大学研究生课程进修班 2005 上海
注册服务器功能模块
北京大学研究生课程进修班 2005 上海
Z39.50、OpenURL、OAI三种互操作机制比较
•
主要目的
– 都在提供整合性的資訊查尋與連結服務
•
运作方式
– Z39.50主要用在MARC資料庫,是一種分布式查询协议
– OpenURL是一種相當簡單的語法,可即時、分布的連結資源
– OAI建立的是一個集中式的聯合目錄
•
对使用者而言
– OpenURL同時連到好幾個target,速度會較慢
– OAI 則為集中式的目錄,所以查尋速度較快
•
获取原文
– 除非是免費的數位資源,否則都需先取得授權
•
需整個服务环境的配合建置,包括
–
–
–
–
數位資源的命名系統(如DOI)
出版單位需支持此命名系統
成立命名註冊機制(如CrossRef)
中介的服務機構(如SFX)
北京大学研究生课程进修班 2005 上海
結論與建議
• 在複雜多元的資訊服務環境中
– 應提供快速的服務
– 建立比較好用的服務環境
• 一個可以整合各種資源的機制實在非常迫切
– DOI &CrossRef、OpenURL & SFX
– OAI
– Z39.50 + ILL
北京大学研究生课程进修班 2005 上海