A Discussion of Some Intuitions of Defeasible Reasoning

Download Report

Transcript A Discussion of Some Intuitions of Defeasible Reasoning

Chapitre 7 - Ingénierie des
ontologies
Grigoris Antoniou
Frank van Harmelen
1
Chapter 7
A Semantic Web Primer
Sommaire
1.
2.
3.
4.
5.
2
Introduction
Construire manuellement des ontologies
Réutiliser des ontologies existantes
Application de méthodes semiautomatiques
Architecture SW On-To-Knowledge
Chapter 7
A Semantic Web Primer
Questions de méthodologie
comment appliquer le mieux les outils et les
technologies?
– quel langage et quels outils utiliser dans quel
contexte et dans quel ordre?
– qu'en est-il du contrôle de qualité et de la gestion
des ressources?
La plupart de ces questions relatives au web
sémantique ont été étudiées dans d'autres contextes
– par ex., ingénierie des logiciels, conception
orientée objet et ingénierie des connaissances
–

3
Chapter 7
A Semantic Web Primer
Sommaire
1.
2.
3.
4.
5.
4
Introduction
Construire manuellement des ontologies
Réutiliser des ontologies existantes
Application de méthodes semiautomatiques
Architecture SW On-To-Knowledge
Chapter 7
A Semantic Web Primer
Etapes principales du développement
des ontologies
Fixer les objectifs
2.
Envisager la réutilisation
3.
Enoncer les termes
4.
Définir la taxonomie
5.
Définir les propriétés
6.
Définir les facettes
7.
Définir les instances
8.
Vérifier la présence d'anomalies
Il ne s'agit pas d'un processus linéaire
1.
5
Chapter 7
A Semantic Web Primer
Fixer les objectifs

Il n'y a pas d'ontologie correcte propre à un
domaine
–

Ce que comprend cette abstraction doit être
déterminé par:
–
–
6
une ontologie est une abstraction et il y a toujours
des alternatives viables
l'utilisation à laquelle est destinée l'ontologie
les extensions futures déjà prévues
Chapter 7
A Semantic Web Primer
Fixer les objectifs (2)

Questions essentielles à ce stade:
–
–
–
–
7
quel sera le domaine couvert par l'ontologie?
quel sera l'usage de l'ontologie?
à quels genres de questions l'ontologie doit-elle
donner réponse?
qui utilisera et assurera la maintenance de
l'ontologie?
Chapter 7
A Semantic Web Primer
Envisager la réutilisation


L'expansion du web sémantique va entraîner
une disponibilité accrue des ontologies
La définition d’une ontologie part rarement
de rien
–
8
il existe pratiquement toujours une ontologie
élaborée par un tiers offrant au moins un point de
départ pour son ontologie à soi
Chapter 7
A Semantic Web Primer
Enoncer les termes


9
Ecrire sous forme de liste non structurée tous les mots
importants susceptibles de figurer dans l'ontologie
– les substantifs forment la base des noms de classe
– les verbes ou locutions verbales sont la base des noms des
propriétés
La connaissance habituelle des outils techniques (par ex.,
technique de l’échelonnage, analyse en grille) sert à former
– l'ensemble de termes
– une structure initiale de ces termes
Chapter 7
A Semantic Web Primer
Définir la taxonomie

Les termes pertinents doivent être
organisés en hiérarchie taxonomique
–

Vérifier que la hiérarchie forme réellement
une taxonomie:
–
10
les avis divergent quant à l'efficacité/fiabilité
d'opérer en sens descendant ou ascendant
Si A est une sous-classe de B, toute instance de
A doit aussi être une instance de B (compatible
avec la sémantique rdfs:subClassOf)
Chapter 7
A Semantic Web Primer
Définir les propriétés


Souvent imbriquées avec l'étape précédente
La sémantique de subClassOf exige que si
A est une sous-classe de B, chaque
déclaration de propriété qui s'applique aux
instances de B doit aussi s'appliquer aux
instances de A
–
11
il est cohérent d'attribuer les propriétés à la plus
haute classe de la hiérarchie à laquelle elles
s'appliquent
Chapter 7
A Semantic Web Primer
Définir les propriétés (2)


En rattachant des propriétés à des classes, il
est conseillé d'immédiatement faire les
déclarations de domaine et d'étendue de ces
propriétés
On voit ici une contradiction de méthodologie
entre généralité et spécificité:
–
–
12
flexibilité (transfert aux sous-classes)
détection des incohérences et des malentendus
Chapter 7
A Semantic Web Primer
Définir les facettes:
de RDFS à OWL


Restrictions de cardinalité
Valeurs requises
–
–
–

Caractéristiques relationnelles
–
13
owl:hasValue
owl:allValuesFrom
owl:someValuesFrom
symétrie, transitivité, propriétés inverses, valeurs
fonctionnelles
Chapter 7
A Semantic Web Primer
Définir les instances



Compléter les ontologies à l'aide de ces
instances est une opération séparée
Nombre d'instances >> nombre de classes
Remplir une ontologie avec des instances ne
se fait donc pas manuellement
–
–
14
récupérées de sources de données légataires
(DB)
extraites automatiquement d'un corpus de textes
Chapter 7
A Semantic Web Primer
Vérifier la présence d'anomalies

Un des atouts de OWL par rapport à RDFS est la
possibilité de détecter les incohérences
–

Exemples d'incohérences habituelles
–
–
–
15
dans une ontologie ou une ontologie+instances
définitions de domaine et d'étendue incompatibles pour des
propriétés transitives, symétriques ou inverses
propriétés de cardinalité
critères de valeurs des propriétés susceptibles d'être en
conflit avec les restrictions de domaine et d'étendue
Chapter 7
A Semantic Web Primer
Sommaire
1.
2.
3.
4.
5.
16
Introduction
Construire manuellement des ontologies
Réutiliser des ontologies existantes
Application de méthodes semiautomatiques
Architecture SW On-To-Knowledge
Chapter 7
A Semantic Web Primer
Domaine existant –
ontologies spécifiques


Domaine médical: ontologie ‘Cancer’ provenant du
National Cancer Institute aux Etats-Unis
Domaine culturel:
–
–
–

17
Art and Architecture Thesaurus (AAT) possédant 125.000
termes du domaine culturel
Union List of Artist Names (ULAN) offrant 220.000 entrées
sur des artistes
Vocabulaire Iconclass de 28.000 termes de description des
images culturelles
Domaine géographique: Getty Thesaurus of
Geographic Names (TGN), contenant plus d'un
million d'entrées
Chapter 7
A Semantic Web Primer
Vocabulaires intégrés



18
Fusion de vocabulaires développés de manière indépendante
pour en faire une vaste ressource unique
Par ex., Unified Medical Language System intégrant 100
glossaires biomédicaux
– le Metathesaurus UMLS contient 750.000 notions avec
plus de 10 millions de liens entre elles
La sémantique d'une ressource qui intègre de nombreux
vocabulaires développés indépendamment est assez faible
– mais peut être très utile comme base de départ dans de
nombreuses applications
Chapter 7
A Semantic Web Primer
Ontologies de niveau supérieur

Certaines tentatives ont cherché à définir des
ontologies à très large champ d'application
–


19
non spécifiques à un domaine
Cyc, avec 60.000 acceptions de 6.000
notions
Standard Upperlevel Ontology (SUO)
Chapter 7
A Semantic Web Primer
Hiérarchies des sujets




20
Certaines "ontologies" ne méritent pas leur nom:
–
il s'agit de simples ensembles de termes, vaguement
organisés en hiérarchie
Ce genre d'hiérarchie n'a que peu à voir avec une taxonomie
mais mélange plusieurs relations de spécialisation (par ex.,
est-un, partie-de, contenu-dans)
Mais ces ressources peuvent aussi être des points de départ
utiles
Exemple: la hiérarchie d'Open Directory qui contient plus de
400.000 catégories hiérarchisées est disponible au format
RDF
Chapter 7
A Semantic Web Primer
Ressources linguistiques


Certaines ressources ont été construites à
l'origine non comme des abstractions d'un
domaine mais comme ressources linguistiques
Elles se sont révélées utiles comme point de
départ pour développer des ontologies
–
21
Par ex., WordNet, avec plus de 90.000 acceptions de
mots
Chapter 7
A Semantic Web Primer
Bibliothèques d'ontologies

On cherche actuellement à élaborer des bibliothèques
en ligne d'ontologies
–
–
–
–
22
il est rare que des ontologies existantes puissent être réutilisées
sans modifications
les concepts et propriétés existants doivent être redéfinis avec
rdfs:subClassOf et rdfs:subPropertyOf
d'autres noms doivent être introduits qui conviennent mieux au
domaine visé avec owl:equivalentClass et
owl:equivalentProperty
on peut exploiter les possibilités de RDF et OWL d'affiner
personnellement les classes définies dans d'autres ontologies
Chapter 7
A Semantic Web Primer
Sommaire
1.
2.
3.
4.
5.
23
Introduction
Construire manuellement des ontologies
Réutiliser des ontologies existantes
Application de méthodes semiautomatiques
Architecture SW On-To-Knowledge
Chapter 7
A Semantic Web Primer
Le goulet de l'acquisition des
connaissances


L'acquisition manuelle d'ontologies demeure
une tâche longue, chère, très exigeante en
compétences et parfois fastidieuse
L'Apprentissage Machine peut servir à alléger
–
–
24
l'acquisition ou l'extraction de connaissances
la révision ou la maintenance de connaissances
Chapter 7
A Semantic Web Primer
Tâches prises en charge par
l'apprentissage machine





25
Extraction d'ontologies au départ de données trouvées
sur le web
Extraction de données et métadonnées relationnelles au
départ de données trouvées sur le web
La fusion et la cartographie des ontologies par analyse
des extensions de concepts
Maintenance des ontologies par analyse des données
des instances
Amélioration des applications SW grâce aux
observations des utilisateurs
Chapter 7
A Semantic Web Primer
Techniques utiles d'apprentissage
machine pour l'ingénierie d'ontologies





26
Clustering (groupage)
Mises à jour incrémentales des ontologies
Support de l'ingénieur connaissances
Amélioration des grandes ontologies en
langage naturel
Apprentissage d'ontologies pures (domaines)
Chapter 7
A Semantic Web Primer
Techniques d'apprentissage machine
pour les ontologies en langage naturel

Les ontologies en langage naturel (NLO)
–

En l'état actuel, l'apprentissage NLO paraît assez
optimiste:
–
–
27
de grandes dimensions, elles ne nécessitent pas de
fréquentes mises à jour
il existe des NLO stables multi-usages
il existe des techniques de construction automatique ou
semi-automatique et d'enrichissement de NLO spécifiques
Chapter 7
A Semantic Web Primer
Techniques d'apprentissage machine
pour ontologies de domaines



28
Elles fournissent des descriptions détaillées
Habituellement construites manuellement
L'acquisition des ontologies de domaines est toujours
guidée par l'ingénieur connaissances humaines
– les techniques d'apprentissage automatique jouent un
rôle mineur dans l'acquisition des connaissances
– il faut trouver des dépendances statistiquement
valables dans les textes du domaine et les suggérer à
l'ingénieur connaissances
Chapter 7
A Semantic Web Primer
Techniques d'apprentissage machine
pour instances d'une ontologie



29
Les instances d'une ontologie peuvent être générées
automatiquement et fréquemment mises à jour alors
que l'ontologie reste inchangée
S'adapte bien dans le cadre de l'apprentissage machine
Applications ML réussies
– dépendent étroitement de l'ontologie du domaine ou
– remplissent le balisage sans rapport avec aucune
théorie de domaine
– les techniques générales ne sont pas encore
disponibles
Chapter 7
A Semantic Web Primer
Diverses utilisations de
l'apprentissage d'ontologies

Tâches d'acquisition d'ontologies en ingénierie des
connaissances
–
–
–

Tâches de maintenance des ontologies
–
–
–
30
création d'ontologies de toutes pièces par l'ingénieur
connaissances
extraction du schéma d'ontologies au départ de documents web
extraction des instances d'ontologies au départ de documents
web
intégration et consultation des ontologies
mise à jour de certaines parties d'une ontologie
enrichissement ou perfectionnement d'une ontologie
Chapter 7
A Semantic Web Primer
Tâches d'acquisition d'ontologies

Création d'ontologies de toutes pièces par l'ingénieur
connaissances
–

Extraction des schémas d'ontologies à partir de
documents web
–
31
ML assiste l'ingénieur en suggérant les relations
essentielles dans la spécialité et en vérifiant les bases des
connaissances construites
ML utilise les données et métaconnaissances (comme une
méta-ontologie) comme entrée et génère l'ontologie prête à
l'usage en sortie avec l'aide éventuelle de l'ingénieur
connaissances
Chapter 7
A Semantic Web Primer
Tâches d'acquisition des
ontologies (2)

Extraction des instances d'ontologies au
départ de documents web
–
–
32
cette tâche extrait les instances de l'ontologie
présentée dans les documents web et en remplit
les schémas
cette tâche est similaire à l'extraction
d'information et l'annotation de page, elle peut
s'appliquer aux techniques développées dans ces
secteurs
Chapter 7
A Semantic Web Primer
Tâches de maintenance des
ontologies



33
Intégration et consultation des ontologies
– vise la reconstruction et la navigation dans les
grandes bases de connaissances éventuellement
acquises par apprentissage machine
Mise à jour de certaines parties d'une ontologie
prévues pour être mises à jour
Enrichissement ou perfectionnement d'une ontologie
– ceci ne change pas les structures et concepts
principaux mais rend une ontologie plus précise
Chapter 7
A Semantic Web Primer
Algorithmes d'apprentissage machine
potentiellement applicables




34
Proposition d'algorithmes d'apprentissage des règles
Apprentissage bayesien
– génère des règles probabilistes valeurs-attributs
Apprentissage des règles logiques du premier ordre
Algorithmes de groupage
– groupent les instances sur la base de la similarité
ou des dissemblances entre paires d'instances
définies par les valeurs de leurs attributs
Chapter 7
A Semantic Web Primer
Sommaire
1.
2.
3.
4.
5.
35
Introduction
Construire manuellement des ontologies
Réutiliser des ontologies existantes
Application de méthodes semiautomatiques
Architecture SW On-To-Knowledge
Chapter 7
A Semantic Web Primer
Architecture On-To-Knowledge

Contruire le web sémantique suppose l'utilisation:
–
–
–

36
des nouveaux langages décrits dans ce cours
un style assez différent d'ingénierie
une approche assez différente de l'intégration des
applications
On décrit comment plusieurs outils du web
sémantique peuvent être intégrés en une
architecture légère et unique utilisant les standard du
web sémantique pour arriver à l'interopérabilité entre
les outils
Chapter 7
A Semantic Web Primer
Acquisition des connaissances

Il faut tout d'abord qu'existent les outils
utilisant les techniques d'analyse de surface
pour obtenir le contenu des documents
–
Documents non structurés en langage naturel:
techniques statistiques et technologie des langages
naturels peu profonds
–
documents structurés et semi-structurés: induction
de wrappers, reconnaissance de modèles
37
Chapter 7
A Semantic Web Primer
Stockage des connaissances


Les résultats donnés par les outils d'analyse
représentent un ensemble de concepts organisés en
hiérarchie peu profonde avec, au mieux, très peu de
relations taxonomiques croisées
RDF/RDFS sont suffisamment expressifs pour
représenter l'information extraite
–
–
38
stocker les connaissances produites par les outils
d'extraction
récupérer ces connaissances, de préférence à l'aide d'un
langage de requête structuré (par ex., RQL)
Chapter 7
A Semantic Web Primer
Maintenance et utilisation des
connaissances

Un répertoire pratique du web sémantique doit avoir
les fonctionnalités nécessaires à la gestion et à la
maintenance de l'ontologie:
–
–
–

Il doit y avoir un support à la fois pour:
–
–
39
gestion des changements
droits d'accès et de propriété
gestion des transactions
les ontologies légères automatiquement générées à partir
de données non structurées et semi-structurées
l'ingénierie humaine de beaucoup plus nombreuses
ontologies fortement chargées en connaissances
Chapter 7
A Semantic Web Primer
Maintenance et utilisation des
connaissances (2)

Les environnements sophistiqués d'édition doivent
être en mesure de:
–
–
–

Les ontologies et les données du répertoire doivent
pouvoir servir à des applications d'utilisateurs finaux
–
40
récupérer les ontologies dans les répertoires
permettre à l'ingénieur connaissances de les manipuler
et de les remettre dans le répertoire
on a déjà vu plusieurs de ces applications
Chapter 7
A Semantic Web Primer
Interopérabilité technique



41
l'interopérabilité syntaxique est atteinte parce que
tous les composants communiquent en RDF
l'interopérabilité sémantique est atteinte parce que
toute la sémantique est exprimée en RDFS
L'interopérabilité physique est atteinte parce que
toutes les communications entre composants sont
établies à l'aide de simples connexions HTTP
Chapter 7
A Semantic Web Primer
Architecture du système On-ToKnowledge
42
Chapter 7
A Semantic Web Primer