support 2 - Groupe technique sur l`adoption de RDA en France

Download Report

Transcript support 2 - Groupe technique sur l`adoption de RDA en France

Participer
au Web de
données
… en utilisant les technologies
du Web sémantique
Architecture du Web
• World Wide Web : toile d’araignée de
serveurs d’informations reliés les uns
aux autres par des liens physiques (le
réseau matériel) et des liens logiques
(les liens hypertextes)
• Architecture du Web : infrastructure
technologique définie par des standards
• Standardisation de l’architecture du Web
assurée par un organisme, le W3C
(World Wide Web Consortium)
Comment fonctionne le Web ?
Un espace global
d’information :
réseau de
machines reliées
entre elles
Un langage
universel
Un protocole qui
permet le dialogue
entre machines : http
Le principe de
l’hypertexte
pour relier les
ressources
Des identifiants Web, les URI
(Uniform resource identifier)
Les URL sont des URI qui
identifient les ressources et les
localisent sur Internet
URI
Évolutions du web
• Web 1.0  web de documents
– Navigation d’un document à un autre en
utilisant des liens hypertexte
• une page HTML = la représentation d’un document
• Le navigateur n’interprète pas le contenu du
document
• Web 2.0  web collaboratif
Le Web de documents
Données
Documents
Base de
données
Hyperlien
Base de
données
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Limites du Web de documents
• Les données structurées des BDD
sont
• soit cachées (« web profond »)
• Soit présentes mais non interprétables par
des machines
• Seules les pages HTML sont liées
entre« elles
Il faut sortir les données des Bases de
données pour les mettre dans l’espace
• Les données
de» Tim
différentes
global du Web
Berners-LeeBDD ne
sont pas liées entre elles
Métadonnées et données
structurées
• Méta-données : Données « sur » d’autres données
– Par exemple une notice en Unimarc : un ensemble de
métadonnées
• Les métadonnées sont des données structurées
(interprétables par des machines)
– Par exemple une notice en Unimarc est un ensemble
de données structurées
• Métadonnées Définition : informations structurées qui
décrivent, expliquent, localisent, facilitent la gestion
d’une ressource d’information
Le Web de données ?
• Un Web constitué de données accessibles, structurées, dans un format
non-propriétaire, identifiées et liées entre elles sémantiquement
(Définition de Tim Berners-Lee dès 1999)
• Web sémantique
– Ensemble de standards et de technologies visant à faire entrer les
données structurées dans l’environnement du Web en adoptant les
principes, l’architecture et les techniques qui ont permis la
construction de cet espace d’interopérabilité globale qu’est la toile
aujourd’hui (E Bermès et G Poupeau, 2012)
• Web de données
– extension du Web, construite selon les technologies du Web
sémantique, permettant de relier non pas des documents (pages
HTML) mais les données elles-mêmes et de les rendre interprétables
par les machines
Le Web de données liées
Données
Documents
Base de
données
Liens entre les
bases de
données
Hyperlien
Base de
données
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Ce qu’on veut
SUDOC
BNF
Technologies du Web sémantique
des
identifiants
Une grammaire
URI
Un langage de
requête dédié
pour
communiquer
RDF
Des
systèmes
d’écriture
Des Vocabulaires
(ontologies)
Exprimés en
RDFS ou OWL
RDF/XML
N3, Turtle, Ntriples
RDFa
SPARQL
Resource Description Framework
Objectif : assurer
l’interopérabilité des
données sur le Web
Objectif : permettre
aux machines
d’interpréter la nature
des relations entre
deux ressources du
Web
RDF
Charles Darwin
sujet
Triplet RDF
En RDF, toute information
doit être exprimée sous la
forme d’une phrase simple
:
sujet – prédicat – objet
Qu’on appelle triplet
Ressource
(entité)
URI
A écrit On the origins of
species
prédicat
Ressource
Nature de la
relation
URI
objet
Ressource
(entité)
URI
Littéral :
Chiffre, date,
mot …
Resource Description Framework
RDF
Charles Darwin
sujet
Appartient
à une
classe
A écrit
On the origins of species
prédicat
objet
Est un type de
relation appelé
propriété
Charles Darwin est une instance de la classe
« personne »
L’objet « On the origins of species » peut être un
littéral ou une entité, instance de la classe
« œuvres » identifiée par son URI
Classes et propriétés sont
déclarées dans des vocabulaires
(ontologies) et sont identifiées par
des URI
Le graphe RDF
sujet
objet
prédicat
Charles Darwin
A pour sujet
Le grand voyage de C.
Darwin (film)
A
réalisé
Est né à
Shrewsbury
Fait partie de
Une même ressource peut être
sujet, prédicat ou objet dans
plusieurs triplets. L’ensemble de
ces triplets reliés les uns aux
autres par les URI qu’ils ont en
commun constitue un graphe
Hannes Schuler
Angleterre
Le Web de données aujourd’hui
(linking open data cloud)
• Espace global et ouvert d’information, sans
cesse grossissant, dans lequel les bases et
données sont liées entre elles en RDF
Principe:
Utilisation d’URI
accessibles via HTTP
Donner accès aux
données utiles via RDF et
Sparql
Construction du Web de
données
LC
Partage d’un référentiel
commun
Modèle « hub and spoke »
BnF
SUDO
C
Modèles d’interopérabilité du Web
de données
Modèle « follow your nose”
Interopérabilité basée sur les
liens
Quand les géants du Web utilisent
les technologies du Web de
données …
Open graph
protocol
knowledge graph
Google : knowledge graph
Facebook : Open graph protocol
Open graph protocol
Que peut apporter le Web de
données aux bibliothèques?
Ouverture à
d’autres
communautés
d’utilisateurs
Visibilité par les
moteurs de
recherche
Réutiliser les
données des autres :
enrichir les
catalogues, pousser
des contenus
Interopérabilité :
Le Web devient
une gigantesque
base de données
liées et ouvertes
Mettre nos données
à disposition des
autres
Comment y arriver ?
Des données structurées
Des identifiants pérennes : URI
pour désigner les ressources
pour exprimer les relations
entre les données
Des vocabulaires normalisés
Une syntaxe normalisée :
RDF
Des données structurées
000 cam 22 3 450
001FRBNF42226398000000X
003http://catalogue.bnf.fr/ark:/12148/cb42226398b
010 $a978-2-603-01444-8$brel.
100 $a20100624d2005 m y0frey50 ba
1011 $afre
102 $aFR
105 $a||||z 00|||
106 $ar
2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de
500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves
210 $aParis$cDelachaux et Niestlé$dDL 2005
215 $a1 vol. (311 p.)$cill.$d20 cm
2252 $aˆLes ‰guides du naturaliste
300 $aBibliogr. p. 301-303
410 0$034235813$tˆLes
‰Guides du naturaliste$x1022-2707$d2005
http://catalogue.bnf.fr/ark:/12148/cb34235813n
454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe
606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques
et mémentos$2rameau
676 $a595.781 39$v22
700 1$312013664$aCarter$bDavid$f1943-....$4070
http://catalogue.bnf.fr/ark:/12148/cb120136648
702 1$312367696$aHargreaves$bBrian$4440
http://catalogue.bnf.fr/ark:/12148/cb12367696d
801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc
Des URI pour désigner les
ressources
http://catalogue.bnf.fr/ark:/12148/cb42226398b
Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves
. - Paris : Delachaux et Niestlé, DL 2005
http://catalogue.bnf.fr/ark:/12148/cb34235813n
Les Guides du naturaliste
http://catalogue.bnf.fr/ark:/12148/cb120136648
Carter, David (1943-....)
http://catalogue.bnf.fr/ark:/12148/cb12367696d
Hargreaves, Brian
Des vocabulaires normalisés
Pour exprimer les relations entre les données
2001 $aGuide des chenilles d'Europe
700 1$312013664$aCarter$bDavid$f1943-.... $4070
200 $a Titre propre
DC : Title
ISBD : Title proper
RDA : Title proper
700 $4070 Auteur du texte
DC : Creator
RDA : Creator
RDA : Author
Des URI pour exprimer les relations (1)
Des URI pour exprimer les
relations (2)
DC : Title
http://purl.org/dc/elements/1.1/title
ISBD : has title proper
http://iflastandards.info/ns/isbd/elements/P1004
RDA : Title proper
http://rdvocab.info/Elements/titleProper
DC : Creator
http://purl.org/dc/elements/1.1/creator
RDA : Author
http://rdvocab.info/roles/author
Une syntaxe normalisée
Le sujet est
toujours une URI
200 $aGuide des chenilles d'Europe
Cette ressource
a pour titre propre
"Guide des chenilles d'Europe"
Le prédicat est
toujours une URI
sujet
L’objet peut être
verbe
prédicat un texte (« littéral »)
complément
d’objet
ou une
URI
objet
http://catalogue.bnf.fr/ark:/12148/cb42226398b
Sujet
http://iflastandards.info/ns/isbd/elements/P1004
Prédicat
"Guide des chenilles d’Europe"
objet
Un réseau
de relations entre des données
"Guide des chenilles d’Europe"
"Carter"
http://catalogue.bnf.fr/ark:/12148/cb42226398b
"David"
http://xmlns.com/foaf/0.1/givenName
A pour prénom
http://catalogue.bnf.fr/ark:/12148/cb120136648
1943
http://data.bnf.fr/what-happened/date-1943
http://catalogue.bnf.fr/ark:/12148/cb34235813n
"Les Guides du naturaliste"
Des exemples
• Isidore :
http://www.rechercheisidore.fr
– Plateforme de recherche permettant
l’accès aux données numériques en
sciences humaines et sociales
– Données en accès libre (open access)
– Moissonnage ciblé des métadonnées
– Conversion et enrichissement des
métadonnées en RDF