Semantic interoperability for linked data

Download Report

Transcript Semantic interoperability for linked data

数字环境下图书馆前沿问题研讨班
上海 2008
ID: [email protected]
URI: http://www.kevenlw.name/foaf.rdf
SEMANTIC INTEROPERABILITY
OF LINKED DATA
我为什么介绍这个主题?
 DC-2009 theme: Semantic Interoperability of
Linked Data
 “元数据运动”的现状和趋势?
敬请关注:http://dublincore.org
 我们是否因为元数据,而使信息的查找更
为容易?
图书馆技术服务:元数据加工厂,建设语义仓储…
From: http://www.wayland.ma.us/library/images/tech%20services2.jpg
图书馆职业的未来:
把数字带进图书馆
把语义带给万维网
图书馆职业的中介本质:
以互操作整合信息资源
提供基本的信息公平
未来(数字)图书馆技术服务:数字资源的书目控制
未来(数字)图书馆的技术服务
 元数据服务:用于资源描述,包括资源集
合、保存性/管理性需求等;
 本体服务:知识组织;
 资源整合:跨库/联邦检索、个性化门户创
建;基于标准协议的整合与”强行”整合;
 服务整合:Web2.0,无所不在的服务,业
务流程重组。
 技术基础:语义描述与互操作技术(目前是
战国纷争)
走向Web
走向语义
什么是语义(Semantics)
 语义:“表达(representation)的含义”;
 元数据(关于数据的数据)就是语义;
 RDF就是表达机器可理解语义的基本格式;
 在Web环境下,任何非RDF表达的语义,都
无法被看做是全局语义。
什么是互操作?
 “互操作性”指不同系统平台或系统之间
交换和共享数据的能力。
 互操作解决信息系统之间的”异构”问题
。
 不同的技术架构、数据库形式、媒体、以
及不断产生的多语种数字内容使异构也呈
现出丰富多彩、无穷无尽的形式。
Web语义互操作的实现
 语义描述层面(静态):元数据和本体方法;
 协议层面(动态):(Z39.50, CORBA,
COM/DCOM, SDARTS) , ZING, WS, REST,
Linked Data…
DCAM图示(来自Andy Powell)
Record (encoded as html, XML, or RDF/XML
Description set
Resource
Description
(URI)
Resource
Description
Resource Description(URI)
(URI)
Vocabulary
Statement
Statement
encoding scheme
Statement
property (URI)
value URI
value string
syntax encoding
scheme
language
(pt-BR)
新加坡框架图示(来自Tom Baker)
应用指南
DC应用纲要
功能需求
标注 Annotate
建立
基础
领域模型
建立
基础
元素集
描述
建立
基础
建立
基础
社区领域
模型
领域标准
基础标准
元素词表
DCMI
抽象模型
建立
基础
建立
基础
RDF/S
建立
基础
RDF
编码指南
与数据格式
建立
基础
建立
基础
DCMI
句法指南
元数据方案的互操作程度
 第一级 共享元素语义(Shared Term Definitions):共享对于术语
的自然语言理解;只要采用了DC的元素即可;
 第二级 正式语义互操作(Formal Semantic Interoperability):共
享对于术语的形式化语义。需要每个术语的RDF参考;需要符合
值域限制;需要符合子元素的限制;
 第三级 语法描述级互操作(Description Set Syntactic
Interoperability):共享术语的形式化语义以及语法(达成语义
互操作)。抽象模型层面的语义互操作;形式化语义+语法限定
的一致性,并保证交换。
 第四级 描述纲要级互操作(Description Set Profile Interoperability
):整套元数据方案的形式化和互操作。保证了最严格的语义互
操作。
At this point I have to say that I wish DCAM
would just die. It has been more of a
hindrance than help, so far. If you could use it
for good rather than for berating people, you
might get further.
----Karen Coyle
(此时此刻我不得不说:让DCAM去死吧!到目前为止,它真是累赘多于帮
助,如果你想因为有用而用而是因为想让人出丑,你真应该抛弃它!)
目的:元数据方案的机读化
只有机器会操作,才能彻底解放
全世界图书馆员
语义互操作的实现:协议
 基于页面分析的(HTTP/DOM):一站式检索
平台;
 基于API的:Web Services, Mashup;
 基于HTTP/XML-RPC的:OAI-PMH;
 基于HTTP/RDF的:语义互操作
从开放应用程序接口到开放数据
网管眼中的Web:The Web of Linked
Computers
Google眼中的Web:The Web of
Documents
The Web of Data
http://richard.cyganiak.de/2007/10/lod/
My document can point at your document on
the Web, but my database can't point at
something in your database without writing
special purpose code. The Semantic Web aims
at fixing that.
——Jim Hendler
(我在网上的文件能够很容易指向你的文件,但是我的
数据库中的数据如果不写一些特别的代码,就无法指
向你的数据。语义Web就是要解决这个问题。)
Document Web vs. Data Web
 Document Web
 Data Web
 Glued by hyperlinks
 Data are HTML pages
 Query result is HTML pages,
which can not be further
processed
 Data are just interlinked,
but not integrated
 Data access through
different APIs
 Glued by RDF links
 Data are RDF triples
 Query result is RDF triples which
can be easily further processed
(e.g., web services)
 Data are interlinked and
integrated, and links are typed
 Data access through a single and
standardized access mechanism
(maybe it will called in the future
LOD API?)
什么是关联数据(Linked Data)?
 由Web的发明人Tim Berners-Lee提出;
 定义了一种URI规范,使得人们可以通过HTTP/URI机
制,直接获得数字资源(Thing);
 A richer Linking mechanism for the Web that takes
us from Hypertext Links (Document to Document) to
Hyperdata Links (across things that documents are
about)
 关联数据是实现Data Web的关键技术。
Tim Burners-Lee: http://www.w3.org/DesignIssues/LinkedData.html
关联数据的四项基本原则:
 使用URI作为任何事物的标识名称
 Use URIs as names for things
 使用HTTP URI使任何人都可以访问名称
 Use HTTP URIs so that people can look up those names
 当有人访问名称时,提供有用的信息
 When someone looks up a name, provide useful information
 尽可能提供相关的URI以使人们发现更多的信息
 Include links to other URIs so that they can discover more
things
关联数据举例:
From: Michael Panzer’s presentation “DDC, SKOS, and Linked Data on the Web”
http://dewey.info/class/338.4
Thing
From:Michael Panzer,
DDC, SKOS, and Linked Data on the Web
303 See Other
http://dewey.info/class/338.4/about
[300 Multiple Choices]
Generic
Document
application/rdf+xml wins
text/html wins
content
negotiation
RDF
Content-Location:
http://dewey.info/class/338.4/about.de.skos
HTML
200 OK
http://dewey.info/class/338.4/about.de.html
A Few Words on Linked Data
 “Linked Data on the Web” is a collection of best practices for
publishing data on the semantic web.




Distinguishing between Information and non-information resources.
303 redirects and content negotiation.
HTTP URIs for everything on Earth.
owl:sameAs
 重新定义“语义Web”( rebranding of the semantic web).

Much more emphasis on links amongst datasets.
 Much less emphasis on formal semantics.
 任意的数据浏览Linked data can be browsed, in much the same way
we browse the traditional web.

So we can find data either by searching for it (with Swoogle/Tripleshop)
or by surfing our way to it.
值得关注:
 RDF
 OWL
 SKOS
 RDFa
 Linked Data/Cool URL
 GRDDL
 SPARQL
 REST
大量的过渡技术已经/注定倒在沙滩上:
 unAPI
 Microformat
 …
Google的元数据公理
 Web对象应该实现自描述World wide web
objects should describe themselves
 不能相信隐藏的、用户产生的元数据You can’t
trust “hidden,” user generated information
 通过链接可以提高Web对象之间的相关性The
more world wide web objects that link to your
world wide web object the more relevant your
object must be.
注:相关性即反映了“元数据”所要反映的内容
图书馆员的元数据公理
 信息对象并不总是能够说明自己
Information objects don’t always describe
themselves (images, audio, movies, technical
writing)
 信息专家是可以信赖的You can trust
information provided by information experts
 页面排序并不总能精确反映相关性,而语
义内容则可以Pagerank does not accurately
denote relevance, meaning does
中国元数据发展:我们处在什么位置?
 元数据运动:“元数据!元数据!!”
 理念普及
 概念普及
 规范逐步出台,从行业规范到国家标准
 研究众多,培训频繁
 数字化资源普遍采用元数据,虽然解决方
案并不能发挥元数据的潜能;
 共识:“MARC已死,Meta当立!”
中国元数据发展:我们有什么问题?
 全民元数据:“让元数据走开!”
 认识理解不一:“元数据最终应该是为机
器而做,不是为人而做。”
 缺乏领域应用的应用指南和操作手册
 缺乏“最佳实践”:行业评比?
 应用效果不显著:平台?工具?
 缺乏权威机构的更新维护:民间机构能否
承担此任?
 没有必要的软件工具
中国元数据发展:当前我们最需要什么?
 建立元数据(术语)登记注册体系;
 建立基于Web的知识组织体系;
 开发提供资源描述与编码的平台、软件和
工具;
 建立可供测试和应用的规范数据仓储;
 建立保障上述设施运行的行业性的更新维
护机制。
谢谢!