Transcript 元数据与互操作
北京大学研究生课程进修班 2005 上海 元数据与互操作 刘炜 [email protected] 元数据的互操作协议和标准 • 元数据的互操作 • 元数据的映射 • 元数据的互操作机制—标准的资源描述框 架 • OpenURL标准 • Z39.50 协议标准 • OAI元数据互操作协议 北京大学研究生课程进修班 2005 上海 整合检索模式 • 集中式联合目录 – 联合编目系统 – 人工上传批处理 – 采用协议,自动收割(Harvesting)元数据,如OAI • 分布式联合目录 – 采用标准协议实时查询各资源站点的元数据,如 Z39.50, SDLIP, OpenURL – 采用动态页面分析技术,以元搜索方式实时查询资源 站点元数据。 北京大学研究生课程进修班 2005 上海 互操作的现实目标 整合下述资源: • Abstracting/Indexing Services • Publishers (e.g. Elsevier ScienceDirect) – important to be able to pull togther • Aggregators • Electronic reserves • Local databases including digitization projects • OAI resources • Institutional repositories 北京大学研究生课程进修班 2005 上海 总控管理 检索参数定制 资源定制 检索结果保存 用户界面 用户管理 认证管理 Session管理 日志管理 统一检索入口 跨 库 检 索 系 统 针 对 特 定 资 源 的 元 数 据 检索请求处理API 检索请求处理模块 HTTP连接器 连接器引擎 API 统一格式结果反馈 检索结果处理API 各协议连接器引擎 Z39.50连接器 检索结果处理模块 JDBC连接器 Internet数据源 Z39.50服务器 本地数据库 北京大学研究生课程进修班 2005 上海 OAI连接器 OAI服务器 结 果 格 式 转 换 配 置 文 件 靜態連結 • • • • 是以批次的方式先行演算好 在查詢時便是以即時回應的方式呈現 而這種方式大都是一對一的形式 故使用者無法從此獲得更多的資訊需求。 – 例:Silver Platter’s SilverLinker – 因有執行維護與更新的工作,故不會出現 Access Denied的訊息 北京大学研究生课程进修班 2005 上海 靜態連結 北京大学研究生课程进修班 2005 上海 動態連結 • on the fly – 電子期刊文章被查詢時,才產生其連結的URL • 此動態的連結主要是和metadata相配合 – Metadata的品質愈好則連結的效果愈好。 – link-to • 缺乏標準的型式來演算動態連結的URLs – deeper link 北京大学研究生课程进修班 2005 上海 How to interlinking • 開放性的連結機制 – OpenURL • 建立聯合目錄 – OAI開放檔案詮釋資料擷取協定 (Open Archives Initiative Protocol for Metadata Harvesting) • 數位資源的統一編碼(命名)是更基本的問題 北京大学研究生课程进修班 2005 上海 DOI - CrossRef 參考資料 DOI DOI Metadata 北京大学研究生课程进修班 2005 上海 DOI - CrossRef DOI link 參考資料 DOI URL to DOI Metadata Publisher http://dx.doi.org/10.1093/toxsci/57.1.95 北京大学研究生课程进修班 2005 上海 OpenURL • 在Web間傳遞訊息的機制 • 定義 – 應用於Web上超連結的一種標準陳述語法。 – 藉由已經定義好的標籤 (Tag),增進Web超連結能力。 • 規範 – 定義一個標準INTERNET資料連結的陳述語法。 – 讓服務提供者(Target)可以輕易解析資料提供者 (Source)所傳送的要求。 – 而資料提供者(Source)輕易對服務提供者(Target) 送出深度連結服務要求。 北京大学研究生课程进修班 2005 上海 OpenURL 北京大学研究生课程进修班 2005 上海 OpenURL • 協定內容 – 基本語法是與一般Internet上CGI程式所用的HTTP GET與HTTP POST類似 • 完整的OPENURL語法有兩部分: – BASE-URL 就是用來接收OPENURL資料的啟始位置,如 http://www.sfx.co.il/sfxmenu。 – DESCRIPTION 這部分就是要送給服務提供者的metadata物件細節。 每個metadata物件間以&符號區隔。 北京大学研究生课程进修班 2005 上海 OpenURL = BASE URL + QUERY • 透過Metadata(Value),如:ISSN、ISBN嵌入於 URL – http://server.lanl.gov/menu?genre=article&issn=1 2345678&volume=12&issue=3&spage=1&epage =8&date=1998&aulast=Smith&aufirst=Paul • 還可以透過如該資訊資源的識別資料-DOI – http://server.lanl.gov/menu?id=doi:10.1000/63821 北京大学研究生课程进修班 2005 上海 透過OpenURL查詢 分散在各處的資料 索摘資料庫 •動態地將metadata 帶給 中介的服務機構 中介的服務機構 OPAC OpenURL OpenURL OpenURL 電子文件 OpenURL • 連結系統 • 可描述文件 全文資料庫 北京大学研究生课程进修班 2005 上海 以SFX為中介的服務機構 的做法 索摘資料庫 server OPAC OpenURL 全文資料庫 北京大学研究生课程进修班 2005 上海 OpenURL OpenURL OpenURL 電子文件 SFX • 以OpenURL為效尤的開放性連結解決辦法 • 透過標準化的服務做跨系統查詢 • 可實現不同WEB學術資訊資源的動態連結: – 索摘資料庫、引文資料庫、OPAC及WEB資源 • 能提供各種统計報表 – 點選SFX按鈕的次数 – 透過SFX下載全文的次數 北京大学研究生课程进修班 2005 上海 SFX Server • 提供者(source):指資訊代理商的各種資源 – 如:Medline、Web of science、OPAC • 透過SFX的hooks機制,使各圖書館能連結各資源 • 服務提供者(service):用來接受OpenURL的輸 入 – 分析和評估傳來的metadata,確定要連結目標 • 如:館藏、全文、目次、摘要服務 • 目標(targets):各種形式的電子資源 – 包括電子期刊、OPAC、ILL、索摘資料庫、百科全書等 北京大学研究生课程进修班 2005 上海 Sourse – Service - Target Service Source Target 北京大学研究生课程进修班 2005 上海 DOI – CrossRef – OpenURL - SFX OpenURL aware DOI link 參考資料 DOI http://dx.doi.org/10.1093/toxsci/57.1.95 DOI Metadata Server 北京大学研究生课程进修班 2005 上海 獲得館藏資料 北京大学研究生课程进修班 2005 上海 取得WOS的資料 http://sfxserver.uni.edu/sfxmenu?sid=Provider2:AI1&pid=987641 北京大学研究生课程进修班 2005 上海 Z39.50标准和 协议 • Z39.50标准的名称: 信息检索--应用服务定 义与协议规范 • Z39.50协议是在分布式网络环境下, 用以支 持信息搜索和信息检索的计算机系统间的 通信协议 北京大学研究生课程进修班 2005 上海 标准所依据的相关技术基础 • 标准规定了数据库管理系统的客户端和服 务器端对话的规则。 • 这种规则建立在客户机/服务器的体系结构 基础之上。 • 数据库客户端和服务器端的通讯通过网络 实现。 北京大学研究生课程进修班 2005 上海 Z39.50标准与协议的 对应关系 标 准 Z39.50--1988 Z39.50--1992 Z39.50--1995 标准规范的协议 Z39.50第一版 Z39.50第二版 Z39.50第二版和第三版 北京大学研究生课程进修班 2005 上海 源端与目标端的概念 • Z39.50标准是按典型的客户机/服务器体系 结构定义的。 • 在Z39.50标准术语中,客户端计算机和服 务器在通讯过程中分别被称为“源端” (Origin)和“目标端”(Target)。 • 使用“源端”和“目标端” 代表客户机与 服务器描述数据通讯过程,是为了概念上 更准确。 北京大学研究生课程进修班 2005 上海 Z39.50信息检索模型 用户界面 搜索 数据库 检索结果 转换 客户端 搜索 数据集 数据库记录 转换 检索 Z-server 检索结果 北京大学研究生课程进修班 2005 上海 根据Z39.50标准实现的图书馆管理系统 标准数据格式及统一的检索逻辑 Z39.50标准接口 BER编码 TCP/IP或其它协议 北京大学研究生课程进修班 2005 上海 设施、服务与操作 • Z39.50标准规定了源端和目标端互操作的 规范。 • 这些操作抽象为设施和服务,并对其过程 作出各种约定。 • 这些设施中的服务,需要通过特定的操作 指令来表达。 • 配合这些操作指令,还约定了属性集和记 录语法,用代码来表示特定的操作属性和 记录语法形态。 北京大学研究生课程进修班 2005 上海 Z39.50标准的主要内容 • • • • • • • • • • • 设施名称 初始化 搜索 获取 删除结果集 浏览 排序 存取控制 帐务与资源管理 解释 扩展服务 终止 服务名称 初始化 搜索 提交、分段 删除 扫描 排序 存取控制 资源管理、触发资源管理、资源报告 (使用搜索和获取设施中的服务) 扩展服务 关闭 北京大学研究生课程进修班 2005 上海 Z39.50协议的服务与机制 机制 机制中的服务 记帐/资源控制机制 解释机制 扩展服务群机制 终止机制 资源控制服务、触发 资源控制服务、资源 报告服务 扩展服务群服务 关闭服务 北京大学研究生课程进修班 2005 上海 Z39.50的操作 Z39.50标准描述了八种操作类型: • • • • Init(初始化) Search(检索) Present(提交) Delete(删除) • • • • Scan(扫描) Sort(排序) Resource-report(资源报告) Extended-services(扩展服 务)。 北京大学研究生课程进修班 2005 上海 关于属性集 在Z39.50标准实施中,bib-1是最主要的属性 集,包括6组属性或属性类型: • 使用属性:指定搜索过程将要访问的检索点。 • 关系属性:指定用户输入的检索词与数据库索引 值的关系。 • 截断属性:指定检索词在索引的哪一部分作为命 中条件。 • 完整性属性:指定检索词在索引中是唯一值或非 唯一值。 • 位置属性:指定在索引字段中与检索词相关的内 容应出现在哪个位置。 • 结构属性:指定搜索的格式。 北京大学研究生课程进修班 2005 上海 关于记录语法 • 简单无格式文本记录语法(Simple Unstructured Text Record Syntax,简称SUTRS)。 • 通用记录语法(Generic Record Syntax,简称 GRS-1)。 • 公共目录记录语法(OPAC Record Syntax)。 • 摘要记录语法(Summary Record Syntax,简称 Summary)。 • 扩展置标语言(EXtensible Markup Language, 简称XML)。 北京大学研究生课程进修班 2005 上海 机读目录的记录语法定义 • Z39.50对机读目录格式记录语法的定义,是为每 一种机读目录格式分配一个对象标识号(object identifier number)。下面列出了Z39.50支持的 机读目录格式类型: Ausmarc Canmarc CCF Danmarc Finmarc Ibermarc Intermarc Librismarc MAB Normarc Picamarc SBN UKmarc Unimarc USmarc 北京大学研究生课程进修班 2005 上海 关于Profile(描述文件) 由于Z39.50是一个非常灵活的标准,执行这 个标准还需要通过制定相应的profile(描述 文件)以保证系统的互操作性。图书馆界 制定的Bath Profile,就是被图书馆界普遍 接受的描述文件。使用描述文件的好处是: • 使多数据库检索过程更为容易。 • 检索结果更为准确。 • 检索结果更为精练。 转下页 北京大学研究生课程进修班 2005 上海 (接上页) • 用户对支持这个描述文件的服务器进行检索时, 可以保持同样的界面环境并得到更高质量的检索 结果。 • 图书馆不必为每个数据库资源逐一定义检索方式, 而是利用国际上由专家在描述文件中设计的方式。 • 提高多数据库检索的效率。 • 借鉴Bath描述文件建立本地的描述文件,可以减 少另外设计描述文件的时间。 • 用户只需要向软件供应商了解产品如何支持某个 国际标准描述文件,而不是问软件供应商如何定 义自己的标准。 北京大学研究生课程进修班 2005 上海 客户机与服务器之间通讯的一般原理 客户机 信号传输方向 服务器 建立联接 接受联接 接收联接确认 发出联接确认 发出权限验证 接受验证信息 接受确认验证 确认接受验证 发出检索请求 接受检索请求 接受检索结果 返回检索结果 发出获取记录请求 接受获取记录请求 接受指定记录 返回指定记录 关闭联接 关闭服务 北京大学研究生课程进修班 2005 上海 Z39.50的基本服务 Z39.50应用程序在实现其功能的过程中,根 据需要选择这些服务。有三种服务是最基 本的服务: • 初始化(Initialization) • 搜索(Search) • 提交(Present) 在各种现有的Z39.50应用中,通常都包括了 上述三种服务功能。 北京大学研究生课程进修班 2005 上海 基本服务之一:初始化 初始化是在任何查询过程中的第一步。在这 个服务中,源端需要: • 向目标端表明自己的身份 • 与目标端约定某些后续查询处理过程中的 基本规则 • 与目标端交换验证信息的具体内容 北京大学研究生课程进修班 2005 上海 基本服务之二:搜索 • 搜索功能包括了系统的主要工作 • 由源端向目标端提交查询请求 这些查询请求可以是非常简单的请求,也可能是含有复杂 逻辑检索式(与、或、非、大于、小于等等)的请求。 • 服务器端通常使用描述文件(Profiles)说 明支持的服务类型和应用程序兼容性,很 多描述文件还说明了哪些是本系统能够支 持的检索属性。 北京大学研究生课程进修班 2005 上海 基本服务之三:提交 提交功能的作用是说明管理结果被返回用户 端时的形态。在提交功能中,用户可以: • 指定提供记录的数量,例如:当命中记录 较多时,只提交前十条命中的记录。 • 指定提供记录的格式,例如:要求按英国 机读格式标准提交,不要按美国机读格式 标准提交。 北京大学研究生课程进修班 2005 上海 Z的下一代 北京大学研究生课程进修班 2005 上海 SRW/U • SRW – Search and Retrieve Web Service • SRU – Search and Retrieve URL Service • SRW/U – Search and Retrieve for the Web 北京大学研究生课程进修班 2005 上海 ZING ZING: “Z39.50 (international) Next Generation” srw sru 北京大学研究生课程进修班 2005 上海 ZING srw sru cql Common Query Language 北京大学研究生课程进修班 2005 上海 ZING srw sru cql 北京大学研究生课程进修班 2005 上海 ZING srw sru zeeRex cql ez3950 ZOOM 北京大学研究生课程进修班 2005 上海 ZING srw sru zeeRex cql ez3950 ZOOM 北京大学研究生课程进修班 2005 上海 ZING Z39.50 Explain: Explained and Re-engineered in XML srw sru 北京大学研究生课程进修班 2005 上海 zeeRex ZING srw sru zeeRex Z39.50 北京大学研究生课程进修班 2005 上海 ZING srw sru 北京大学研究生课程进修班 2005 上海 zeeRex ZING Z39.50 Object Oriented Model srw sru 北京大学研究生课程进修班 2005 上海 ZOOM ZING srw sru ZOOM Z39.50 北京大学研究生课程进修班 2005 上海 ZING srw sru 北京大学研究生课程进修班 2005 上海 ZOOM ZING srw sru 北京大学研究生课程进修班 2005 上海 SRW/U Features • • • • SOAP and URL-based access Common Query Language -- CQL Retains several Z39.50 abstractions…. ….. And discards a few 北京大学研究生课程进修班 2005 上海 SRW/U Features • • • • SOAP and URL-based access Common Query Language -- CQL Retains several Z39.50 abstractions…. ….. And discards a few 北京大学研究生课程进修班 2005 上海 SRW/U Features • • • • SOAP and URL-based access Common Query Language -- CQL Retains several Z39.50 abstractions …. ….. And discards a few 北京大学研究生课程进修班 2005 上海 SRW/U Features • • • • SOAP and URL-based access Common Query Language -- CQL Retains several Z39.50 abstractions …. ….. And discards a few 北京大学研究生课程进修班 2005 上海 SRW/U retains these Z39.50 concepts………. • • • • • result sets abstract access points abstract record schemas application level diagnostics “Explain” 北京大学研究生课程进修班 2005 上海 ….. But differs from Z39.50 in these respects: • Web-based • Connectionless • XML: – Protocol (no ASN.1) – + records (no “record syntax”) • CQL -- user-friendly query 北京大学研究生课程进修班 2005 上海 The Weaknesses of Classic Z39.50 • Not popular with the Web community – Connection-based Sessions – Binary Encoding – Transmitted directly over TCP/IP • Complicated 北京大学研究生课程进修班 2005 上海 Z39.50 Complicated? • 11 Native Services – Init, Search, Present, DeleteResultSet, AccessControl, ResourceControl, TriggerResourceControl, ResourceReport, Scan, Sort, Segment. • 7 Extended Services – PersistentResultSet, PersistentQuery, PeriodicQuerySchedule, ItemOrder, DatabaseUpdate, ExportSpecification, ExportInvocation 北京大学研究生课程进修班 2005 上海 Z39.50 Complicated? • 156 page standard – 147 in the 2002 draft • Vocabulary from the OSI community – Target, Origin, APDU, A-association, Zassociation.. • Records described with ASN.1 • Attribute Sets 北京大学研究生课程进修班 2005 上海 The Strengths of Classic Z39.50 • Result Sets (a.k.a. Statefulness) • Abstraction – Abstract Access Points (Attribute Sets) – Abstract Record Schemas • Explain 北京大学研究生课程进修班 2005 上海 SRW: Search and Retrieve on the Web • SOAP (Simple Object Access Protocol) Based – HTTP – XML • Records Described in WSDL (Web Service Description Language) • 1 Service: SearchAndRetrieve • No Documentation :-) 北京大学研究生课程进修班 2005 上海 Semantically equivalent to classic Z39.50 • Gateways Trivial • Preserves the experience of the ZIG without the baggage of the standard • Syntactic equivalence discounted 北京大学研究生课程进修班 2005 上海 SRW: The Basics • • • • Only one database per request String (not structure) based queries Index Sets, not Attribute Sets One Record Syntax (XML) 北京大学研究生课程进修班 2005 上海 The SRW Request • • • • String Query Integer StartRecord Integer MaximumRecords String RecordSchema 北京大学研究生课程进修班 2005 上海 The SRW Response • String ResultSetReference – ResultSetName – ResultSetTimeToLive • Integer TotalHits • Records • Status (Status Code & Diagnostic) 北京大学研究生课程进修班 2005 上海 CQL: Common Query Language • • • • • Loosely based on CCL Search Boolean & Proximity Operators Index Sets & Indexes Truncation Characters ‘*’, ‘#’ & ‘?’ Example: dc.title=“harry potter” or bib1.isbn=123-456-78x 北京大学研究生课程进修班 2005 上海 Explain Now Possible • Not practical for classic Z39.50 • List of supported Schemas • List of supported Indexes 北京大学研究生课程进修班 2005 上海 SRU: Search and Retrieve with URL’s • • • • SRW Without the SOAP Wrapper Intended for Thin Clients Adds ResponseSchema Parameter Example http://deimos.oclc.org/SRW/etdcat?query=nucle ar&maxRecords=10 北京大学研究生课程进修班 2005 上海 Outlook for SRW/SRU • A solution looking for a problem? • Not likely to be quickly adopted by the library community • Could show up first in other communities: MetaSearch, Geospatial, Biodiversity, OAI(?) • Will be seen as a competitor with XML Query 北京大学研究生课程进修班 2005 上海 Links • http://www.loc.gov/ – LC Home Page • http://www.loc.gov/srw – SRW/U Home Page • http://www.loc.gov/cql – CQL Home Page [email protected] 北京大学研究生课程进修班 2005 上海 OAI: Open Archival Initiative 北京大学研究生课程进修班 2005 上海 定义 • Open Archives Initiative Protocol for Metadata Harvesting,(OAI-PMH)简称OAI协议,协议 的制定目的是提供具有独立于应用程序的、可互 操作的,能夠提供和促进Web上信息资源发布和 共享的社区的应用框架。其主要目标为: – 简化文件內容的有效传播。 – 促进数字化文件的存取。 – 扩展存取数字化信息的种类和范围。 北京大学研究生课程进修班 2005 上海 规范 • 定义一个资料提供者能夠通过HTTP为基础 的协议,发布其metadata的机制 • 定义一个能夠从资源库(Repository)获取含 有元数据记录的机制 北京大学研究生课程进修班 2005 上海 组成要素 OAI verb Repository Data Provider Request Service Provider Repository Record Response Repository 北京大学研究生课程进修班 2005 上海 User 名次定义 • DP数据提供者:提供其文件內容,並以OAI作為發佈metadata的协议。 主要工作為維護一個或一個以上支援OAI协议來將其內容以metadata 發佈的儲存器(Web伺服器)。 • SP服务提供者:透過OAI协议向資料提供者取得資料,並將獲得的 metadata在其上建立加值服務。 • 资源库(Repository):透過HTTP,接受OAI协议所提出存取資料需求 的伺服器。 • 数据集(Set):非必备功能。为了方便取得所需资料的目的,儲存器內 可將不同類別的資料區分成不同的群組,並以階層式架構表示,以節 點(node)作為各分類的區分,因此每一個節點即稱之為資料集。 • 记录(Record):一个数据记录是后台服务器依据OAI协议,从存储器 內將资料以XML编码传回前端的元数据。 北京大学研究生课程进修班 2005 上海 数据记录的元数据结构 • Header-標記有關此筆資料錄的資訊,主要包含 兩部分: – Unique identifier-儲存器內資料的唯一性標示 – Datestamp-有關資料新增、維護、刪除的日期資訊, 提供服務提供者端程式判斷處理。 • Metadata-資料錄實際的metadata內容。 • About-非必備的部分。提供有關資料的相關說明, 如版權宣告等。 北京大学研究生课程进修班 2005 上海 编码要求 • 依據OAI协议1.0版本,所有以OAI协议需求 而傳回文件的Content-Type標籤,必須為 「text/xml」,而XML文件之字碼必須使用 Unicode之UTF-8字碼結構,而UTF-8亦是 XML的預設字碼,表示使用8位元之 Unicode字集。因此,在XML文件內的 prolog應宣告成: – <?xml version=”1.0” encoding=”UTF-8”?> 北京大学研究生课程进修班 2005 上海 协议规范 • definitions & concepts – – – – – repository record identifier datestamp set • protocol features – HTTP encoding – metadata prefix & schema – flow control • protocol requests – supporting requests – harvesting requests 北京大学研究生课程进修班 2005 上海 Repository support data harvesting data h a r v e s t e r oai protocol 北京大学研究生课程进修班 2005 上海 r e p o s i t o r y items Record <record> <header> <identifier>oai:eg:001</identifier> <datestamp>1999-01-01</datestamp> </header> <metadata> <dc xmlns=“http://purl.org/dc”> <title>My Example</title> </dc> </metadata> <about> <ea xmlns=“http://www.arXiv.org/ea” <usage>No restrictions</usage> </ea> </about> </record> 北京大学研究生课程进修班 2005 上海 protocol support format-specific metadata community-specific record data oai:ncstrl:ncstrl.cornellcs/TR94Identifiers1418 locally unique key for extracting a record from a repository oai-identifier = oai:archive-identifier:record-identifier Registered URI Scheme Archive Idendifier: Registered within OAI 北京大学研究生课程进修班 2005 上海 Unique ID within archive: (syntax is archivespecific) Selective Harvesting Datestamps harvest within date range record record 北京大学研究生课程进修班 2005 上海 r e p o s i t o r y Selective Harvesting - Sets harvest within set record record record r e p o s i t o r y 北京大学研究生课程进修班 2005 上海 S1 S2 Set Specifics… • Repositories define hierarchical organization • Each item in a repository may be organized in one set, several sets, or no sets at all • Meaning of sets or of set hierarchy is not defined in protocol • Individual communities may formulate common set configurations 北京大学研究生课程进修班 2005 上海 HTTP encoding - requests BASE-URL -----------> an.oa.org/OAI-script keyword arguments --> verb=ListIdentifers&set=S1 GET http://an.oa.org/OAI-script?verb=ListIdentifers&set=S1 POST POST http://an.oa.org/OAI-script HTTP/1.0 Content-Length: 78 Content-Type: application/x-www-form-urlencoded verb=ListIdentifers&set=S1 北京大学研究生课程进修班 2005 上海 HTTP encoding - responses <xml version=1.0 encoding=“UTF-9” ?> <GetRecord xmlns=“http://oai.namespace.uri” xmlns:xsi=“http://w3.namespace.uri” xsi:schemaLocation=“http://oai.namespace.uri http://oai.schemaURL”> <responseDate>2000-19-01T19:30:30-04:00</responseDate> <requestURL>http://an.oa.org/OAI-script?verb=GetRecord &identifier=oai%3AarXiv%3A0001 &metadataPrefix=oai_dc</requestURL> <record> record contents </record additional records </GetRecord> 北京大学研究生课程进修班 2005 上海 xml namespaces response header response data Metadata Prefix and Schema • Support for harvesting multiple metadata formats – Metadata schema: each format must have a validating XML schema at a publicly accessible URL (communities may define shared formats and schema. – Metadata prefix: each repository maps a prefix to the schema it supports, which is used in protocol requests. • Support for unqualified Dublin Core 北京大学研究生课程进修班 2005 上海 mandatory Flow Control h a r v e s t e r protocol request 北京大学研究生课程进修班 2005 上海 r e p o s i t o r y Flow Control Specifics… • Applies to all protocol requests that return lists: ListRecords, ListIdentifiers, ListSets • ResumptionToken is opaque • Semantics of partitioning of responses within resumption requests is undefined • Time-to-live of resumptionToken is not defined by the protocol 北京大学研究生课程进修班 2005 上海 OAI harvesting tools service provider h a r v e s t e r data provider Supporting protocol requests: • Identify • ListMetadataFormats • ListSets Harvesting protocol requests: • ListRecords • ListIdentifiers • GetRecord 北京大学研究生课程进修班 2005 上海 r e p o s i t o r y Supporting Protocol Requests service provider h a r v e s t e r data provider Identify •Repository name •Base-URL • Admin e-mail • OAI protocol version • Description Container 北京大学研究生课程进修班 2005 上海 r e p o s i t o r y Supporting Protocol Requests service provider h a r v e s t e r data provider ListMetadataFormats REPEAT • Format prefix • Format XML schema /REPEAT 北京大学研究生课程进修班 2005 上海 r e p o s i t o r y Supporting Protocol Requests service provider h a r v e s t e r data provider ListSets REPEAT • Set Specification • Set Name /REPEAT 北京大学研究生课程进修班 2005 上海 r e p o s i t o r y Harvesting Requests service provider h a r v e s t e r * from=a data provider * until=b * set=klm ListRecords * metadataPrefix=oai_dc REPEAT • Identifier • Datestamp • Metadata •About Container /REPEAT 北京大学研究生课程进修班 2005 上海 r e p o s i t o r y Harvesting Requests service provider h a r v e s t e r ListIdentifiers * from=a * until=b * set=klm data provider REPEAT • Identifier • Datestamp /REPEAT 北京大学研究生课程进修班 2005 上海 r e p o s i t o r y Harvesting Requests service provider h a r v e s t e r data provider GetRecord * identifier=oai:mlib:123a * metadataPrefix=oai_dc • Identifier • Datestamp • Metadata • About 北京大学研究生课程进修班 2005 上海 r e p o s i t o r y 服务提供方功能模块 北京大学研究生课程进修班 2005 上海 数据提供方功能模块 北京大学研究生课程进修班 2005 上海 注册服务器功能模块 北京大学研究生课程进修班 2005 上海 Z39.50、OpenURL、OAI三种互操作机制比较 • 主要目的 – 都在提供整合性的資訊查尋與連結服務 • 运作方式 – Z39.50主要用在MARC資料庫,是一種分布式查询协议 – OpenURL是一種相當簡單的語法,可即時、分布的連結資源 – OAI建立的是一個集中式的聯合目錄 • 对使用者而言 – OpenURL同時連到好幾個target,速度會較慢 – OAI 則為集中式的目錄,所以查尋速度較快 • 获取原文 – 除非是免費的數位資源,否則都需先取得授權 • 需整個服务环境的配合建置,包括 – – – – 數位資源的命名系統(如DOI) 出版單位需支持此命名系統 成立命名註冊機制(如CrossRef) 中介的服務機構(如SFX) 北京大学研究生课程进修班 2005 上海 結論與建議 • 在複雜多元的資訊服務環境中 – 應提供快速的服務 – 建立比較好用的服務環境 • 一個可以整合各種資源的機制實在非常迫切 – DOI &CrossRef、OpenURL & SFX – OAI – Z39.50 + ILL 北京大学研究生课程进修班 2005 上海