Application de technologies du web sémantique à l

Download Report

Transcript Application de technologies du web sémantique à l

Application de technologies du
web sémantique à l’extraction
d’information dans les
bibliothèques numériques
Michel Gagnon
École Polytechnique de Montréal
ou
Les bibliothèques numériques sont-elles
solubles dans le web sémantique?
Plan
Plan
Plan
Plan
Plan
Plan
Web sémantique
 Ensemble de technologies visant à rendre le contenu
des ressources du web accessible et utilisable par les
programmes et agents logiciels, grâce à un système de
métadonnées formelles
 Une couche qui s’ajoute au web actuel
 But visé: un web de données
 Nécessite des vocabulaires partagés
Le web actuel




Ensemble de
documents
Basé essentiellement
sur HTML
Recherche par mots
clé
Utilisable par l'humain
Le web sémantique
Le web actuel




Ensemble de
documents
Basé essentiellement
sur HTML
Recherche par mots
clé
Utilisable par l'humain




Ensemble de
connaissances
Basé sur XML et
RDF(S)
Recherche par concepts
Utilisable par la machine
Les couches du WS
Source: Tim Berners-Lee http://www.w3.org/2006/Talks/0718-aaai-tbl/
WS - Illustration
Site
Polytechnique
Citeseer
fournit
fournit
Liste
des
professeurs
Informations
sur
publications
Utilisateur
WS - Illustration
Données
biographiques
Site
Polytechnique
Citeseer
Personne
Professeur
Vocablaire
académique
Vocabulaire
Instance de
MICHELGAGNON
instance de
akt:Article-Reference
owl:sameAs
akt:has-author
Instance de
http://www.polymtl.ca/professeurs/michel.gagnon
resource-CS97624
Agent client
Plan
RDF
 Resource description framework
 Les ressources sont représentées par des URI
 Un énoncé est un triplet <S, P, O>, où
 S est le sujet
 P est le prédicat (une propriété)
 O est l'objet (la valeur de la propriété pour le sujet en question)
 Permet de représenter des hiérarchies de classes
 On peut définir les domaines et images des propriétés
RDF
hasActivity
rdfs:subPropertyOf
StaffMember
rdfs:domain
worksAt
rdfs:subClassOf
rdfs:range
Professor
WorkPlace
rdfs:subClassOf
Michel Gagnon
rdfs:subClassOf
University
AssistantProfessor
rdf:type
local:name
rdfs:subClassOf
AssociateProfessor
rdf:type
local:worksAt
http://www.polymtl.ca/profs#MichelGagnon
local:hasHomePage
http://www.professeurs.polymtl.ca/michel.gagnon
RDF
@prefix local: <http://www.polymtl.ca/vocab/> .
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
<http://www.polymtl.ca/profs#MichelGagnon>
local:worksAt _:n1 ;
local:name "Michel Gagnon";
rdf:type :AssistantProfessor ;
local:hasHomePage <http://www.professeurs.polymtl.ca/michel.gagnon> .
_:n1 rdf:type :University .
RDF – Accès aux données
Vous connaissez peut-être ceci:
RDF – Accès aux données
Pour RDF, vous avez mieux encore:
Exemple - requête SPARQL
PREFIX dbpedia: <http://dbpedia.org/resource/>
PREFIX dbpedia-owl: <http://dbpedia.org/ontology/>
PREFIX umbel: <http://umbel.org/umbel/rc/>
SELECT distinct ?personne
WHERE {?personne a umbel:Politician ;
dbpedia-owl:birthPlace dbpedia:Hawaii .}
Exemple - requête SPARQL
Résultat:
http://dbpedia.org/resource/Barack_Obama
http://dbpedia.org/resource/George_R._Carter
http://dbpedia.org/resource/Lawrence_M._Judd
http://dbpedia.org/resource/Patsy_Mink
http://dbpedia.org/resource/Ed_Case
Limites de RDF
 Pas de négation
 Limites dans la définition des classes
 Limites dans la caractérisation des propriétés
 Il faut donc faire appel à la logique descriptive: langage
OWL
Plan
Linked Open Data
 Un web de données en RDF
 Basé sur 4 principes:
 URI pour désigner les entités
 Les URI sont déréférençables
 Lorsqu’on accède à une URI, on obtient les données en
RDF ou par un accès SPARQL
 Établissement de liens entre les différentes sources de
données
LOD en septembre 2011
LOD en septembre 2011
Domaine
Sources
Triplets
%
Liens RDF
Percent
Multidomaines
41
4 185 M
13,2
63 M
12,5
Géographique
31
6 146 M
19,4
36 M
7,1
Gouvernement
49
13 315 M
42,1
19 M
3,8
Médias
25
1 842 M
5,8
50 M
10,1
Publications
87
2 951 M
9,3
140 M
27,8
Sciences de la
vie
41
3 036 M
9,6
192 M
38,1
Autres
20
134 M
0,4
3M
0,7
294
31 634 M
504 M
LOD
 Les sources des données font appel à des
vocabulaires partagés:
 FOAF, GoodRelation
 SKOS, DC, MADS, OAI ORE, FRBR
 WGS84 GEO, Geonames, Event, Time
 À ce jour, 262 vocabulaires ont été recensés dans LOD
Entités les plus utilisées
# Occurrences
37690602
32496151
32371723
31558903
30924404
30745633
29411616
28469887
26914075
26884281
26843510
26731600
26485921
26367428
25985725
25584605
25500182
25367750
25251304
24580403
24170553
23087198
22916785
22603299
22559844
Voc.
foaf
foaf
unpc
foaf
unpc
unpc
unpc
unpc
unpc
unpc
dce
unpc
geo
unpc
unpc
unpc
unpc
dce
unpc
unpc
unpc
dce
unpc
unpc
unpc
Entité
http://xmlns.com/foaf/0.1/Person
http://xmlns.com/foaf/0.1/nick
http://purl.uniprot.org/core/Sequence
http://xmlns.com/foaf/0.1/weblog
http://purl.uniprot.org/core/Domain_Assignment_Statement
http://purl.uniprot.org/core/Resource
http://purl.uniprot.org/core/reviewed
http://purl.uniprot.org/core/identity
http://purl.uniprot.org/core/length
http://purl.uniprot.org/core/obsolete
http://purl.org/dc/elements/1.1/identifier
http://purl.uniprot.org/core/commonName
http://www.w3.org/2003/01/geo/wgs84_pos#long
http://purl.uniprot.org/core/commonTaxon
http://purl.uniprot.org/core/created
http://purl.uniprot.org/core/date
http://purl.uniprot.org/core/representativeFor
http://purl.org/dc/elements/1.1/date
http://purl.uniprot.org/core/database
http://purl.uniprot.org/core/organism
http://purl.uniprot.org/core/seedFor
http://purl.org/dc/elements/1.1/title
http://purl.uniprot.org/core/attribution
http://purl.uniprot.org/core/hits
http://purl.uniprot.org/core/Cluster
Exemple tiré de BNF
@prefix dc: <http://purl.org/dc/terms/> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix rdagroup2elements: <http://RDVocab.info/ElementsGr2/> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
@prefix skos: <http://www.w3.org/2004/02/skos/core#> .
@prefix xfoaf: <http://www.foafrealm.org/xfoaf/0.1/> .
<http://data.bnf.fr/ark:/12148/cb11928016k#foaf:Person> a <http://xmlns.com/foaf/0.1/Person>;
rdagroup2elements:biographicalInformation "Romancier et auteur dramatique";
rdagroup2elements:dateOfBirth "08-02-1828";
rdagroup2elements:dateOfDeath "24-03-1905";
rdagroup2elements:fieldOfActivityOfThePerson "Littératures",
<http://dewey.info/class/800/>;
rdagroup2elements:languageOfThePerson <http://id.loc.gov/vocabulary/iso639-2/fre>;
rdagroup2elements:placeOfBirth "Nantes";
rdagroup2elements:placeOfDeath "Amiens";
dc:date "1828-1905";
dc:title "Jules Verne"@fr;
xfoaf:nationality <http://id.loc.gov/vocabulary/countries/fr>;
= <http://dbpedia.org/resource/Jules_Verne>;
foaf:birthday "02-08";
foaf:familyName "Verne";
foaf:gender "male";
foaf:givenName "Jules";
foaf:name "Jules Verne";
foaf:page <http://data.bnf.fr/11928016/jules_verne/> .
Linked Data
Domaine
biomédical
Plan
Comment lier les BN au LOD?
 Si les méta-données sont déjà formalisées:
 Traduction de vocabulaire
 Alignement d’ontologies
 Sinon:
 Repérage des entités et concepts importants
 Alignement avec les entités du LOD
 Identification des relations entre les entités (utilisation
d’ontologies partagées)
Comment lier les BN au LOD?
 Si les méta-données sont déjà formalisées:
 Traduction de vocabulaire
 Alignement d’ontologies
Annotation
sémantique
 Sinon:
 Repérage des entités et concepts importants
 Alignement avec les entités du LOD
 Identification des relations entre les entités (utilisation
d’ontologies partagées)
Annotation sémantique
 Il faut établir le lien entre le contexte d’une entité dans
un document et une entité dans LOD
 On utilise Wikipedia comme intermédiaire
Annotation sémantique
Mozart
W.A. Mozart
Wolfgang Amadeus
…
compositeur 5,32
musique
2,34
autrichien
4,28
…
http://dbpedia.org/page/Wolfgan
g_Amadeus_Mozart
LDI (Linked Data Interface)
Annotation sémantique
Mozart
Joannes Chrysostomus Wolfgangus
Theophilus Mozart, ou Wolfgang
Amadeus Mozart, est un
compositeur. Mort à trente-cinq ans,
il laisse une œuvre importante (626
œuvres sont répertoriées dans le
Catalogue Köchel), qui embrasse
tous les genres musicaux de son
époque. Selon le témoignage de ses
contemporains, il était, au piano
comme au violon, un virtuose. On
reconnaît généralement qu'il a porté
à un point de perfection le concerto,
la
?
W.A. Mozart
Wolfgang Amadeus
…
compositeur 5,32
musique
2,34
autrichien
4,28
…
dbpedia.org/page/W
olfgang_Amadeus_
Mozart
Mozart
?
Leopold Mozart
…
compositeur 2,32
musique
4,76
autrichien
6,28
http://dbpedia.org/pa
ge/Leopoold_Mozart
Désambiguïsation sémantique
Annotation sémantique
Joannes Chrysostomus Wolfgangus
Theophilus Mozart, ou Wolfgang
Amadeus Mozart, est un
compositeur. Mort à trente-cinq ans,
il laisse une œuvre importante (626
œuvres sont répertoriées dans le
Catalogue Köchel), qui embrasse
tous les genres musicaux de son
époque. Selon le témoignage de ses
contemporains, il était, au piano
comme au violon, un virtuose. On
reconnaît généralement qu'il a porté
à un point de perfection le concerto,
la
?
?
Mozart
W.A. Mozart
Wolfgang Amadeus
…
compositeur 5,32
musique
2,34
autrichien
4,28
…
dbpedia.org/page/W
olfgang_Amadeus_
Mozart
Mozart
Leopold Mozart
…
compositeur 2,32
musique
4,76
autrichien
6,28
http://dbpedia.org/pa
ge/Leopoold_Mozart
Désambiguïsation sémantique
Annotation sémantique
Joannes Chrysostomus Wolfgangus
Theophilus Mozart, ou Wolfgang
Amadeus Mozart, est un
compositeur. Mort à trente-cinq ans,
il laisse une œuvre importante (626
œuvres sont répertoriées dans le
Catalogue Köchel), qui embrasse
tous les genres musicaux de son
époque. Selon le témoignage de ses
contemporains, il était, au piano
comme au violon, un virtuose. On
reconnaît généralement qu'il a porté
à un point de perfection le concerto,
la
Cos = 0,889
Mozart
W.A. Mozart
Wolfgang Amadeus
…
compositeur 5,32
musique
2,34
autrichien
4,28
…
dbpedia.org/page/W
olfgang_Amadeus_
Mozart
Mozart
Leopold Mozart
…
Cos = 0,348
compositeur 2,32
musique
4,76
autrichien
6,28
http://dbpedia.org/pa
ge/Leopoold_Mozart
Désambiguïsation sémantique
Annotation sémantique
Joannes Chrysostomus Wolfgangus
Theophilus Mozart, ou Wolfgang
Amadeus Mozart, est un
compositeur. Mort à trente-cinq ans,
il laisse une œuvre importante (626
œuvres sont répertoriées dans le
Catalogue Köchel), qui embrasse
tous les genres musicaux de son
époque. Selon le témoignage de ses
contemporains, il était, au piano
comme au violon, un virtuose. On
reconnaît généralement qu'il a porté
à un point de perfection le concerto,
la
Désambiguïsation sémantique
Mais on sait aussi que Mozart a composé Don Giovanni.
Mais on sait aussi que Mozart a composé Don Giovanni.
On voudrait donc extraire quelque chose comme ceci:
dbpedia:Mozart rel:composerOf dbpedia:Don_Giovanni .
Extraction des relations
 Méthode purement statistique:
 On cherche les co-occurrences des entités dans les
phrases
 Par apprentissage machine:
 Approche supervisée
 Approche semi-supervisée
 Par règles:
 Patrons syntaxiques
Approche supervisée
 Corpus annoté manuellement qui indique quelles
phrases expriment la relation qu’on veut identifier
 On extrait les caractéristiques intéressantes de ces
phrases (mots autour des entités, catégories des mots,
structure syntaxique, etc.)
 Avec ces attributs, on entraîne un classifieur (réseau
bayesien, réseau de neurone, arbre de décision, SVM,
etc.)
 Exige des données d’entraînement pour chaque
domaine
Approche semi-supervisée
 On part avec quelques exemples de paires d’entités qui sont
liées par la relation cible (ex.: Mozart – Don Giovanni)
 On cherche les phrases contenant ces entités
 On extrait les attributs pertinents de ces phrases
 On cherche de nouvelles phrases qui possèdent ces
attributs
 À partir de ces nouvelles phrases, on extrait de nouvelles
paires d’entités
 On recommence le processus jusqu’à convergence
Approche par règles
 On crée une base de patrons qui correspondent aux
formes utilisées pour exprimer la relation cible
 Pour chaque patron instancié dans un texte, on
construit la représentation RDF qui y correspond
Approche par règles
Approche par règles
Approche par règles
Approche par règles
dailymed_drug:3239 rdfs:label "Restoril" .
crim:T234 crim:drugInvolved dailymed_drug:3239 ;
rdf:type crim:Treatment ;
rdf:type crim:DrugTherapy ;
rdf:type crim:ShortTermTreatment ;
crim:target "insomnia" ;
Et alors?
 Le WS offre un potentiel énorme pour les BN
(enrichissement des données, recoupements,
interopérabilité)
 LOD contient à la fois des méta-données et du contenu
 La mise en œuvre d’applications basées sur LOD est encore
un défi
 Les technologies du traitement automatique de la langue
sont requises pour « immerger » les BN dans le WS
 Le Québec peu présent dans le LOD