Formalisation des connaissances documentaires et des connaissances conceptuelles à l'aide des ontologies : application à la description de documents audiovisuels Raphaël Troncy 5 Mars 2004 Université Joseph.

Download Report

Transcript Formalisation des connaissances documentaires et des connaissances conceptuelles à l'aide des ontologies : application à la description de documents audiovisuels Raphaël Troncy 5 Mars 2004 Université Joseph.

Formalisation des connaissances
documentaires et des
connaissances conceptuelles à
l'aide des ontologies :
application à la description de documents audiovisuels
Raphaël Troncy
5 Mars 2004
Université Joseph Fourier - Doctorat en Informatique
Contexte
• Le document audiovisuel :
– structuré
– spatio-temporel
– non symbolique
recours à la
description textuelle
• Le document audiovisuel numérique :
– offre de nouvelles possibilités :
• recherche « intelligente »
• structuration de fonds
• publication et diffusion
– nécessite une instrumentation de la description : lier
le contenu à la description
05/03/2004
Raphaël Troncy
1
Plan suivi
1. Problématique
2. Ingénierie documentaire ET ingénierie des
connaissances
3. Notre proposition : une architecture pour
raisonner dans les descriptions documentaires
4. Expérimentations
5. Conclusion et perspectives
05/03/2004
Raphaël Troncy
2
La description du contenu AV
1. Problématique
2. Ingénierie documentaire et IC
3. Notre architecture
4. Expérimentations
5. Conclusion et perspectives
• Un processus en 3 étapes :
– identification ou catalogage du document : utilisation
de méta données classiques
– localisation d’entités spatio-temporelles pertinentes
pour une application donnée : utilisation de dates ou de
coordonnées cartésiennes
– caractérisation sémantique et symbolique de ces
entités : utilisation de listes d’autorités, de thésaurus ou du
texte libre
05/03/2004
Raphaël Troncy
3
La description du contenu AV
1. Problématique
2. Ingénierie documentaire et IC
3. Notre architecture
4. Expérimentations
5. Conclusion et perspectives
rendre compte d’une
structure logique
• Localisation
– repérer et dater des
événements
2'12
• Caractérisation
– typer ces entités selon un
genre AV
– donner une thématique
générale
3'46
5'54 7'03
temps t du
document
interview
– décrire la scène (qui, quand,
où, quoi, …)
football
Zidane marque de la tête sur
corner à la 40ème minute
décrire la sémantique du contenu
05/03/2004
Raphaël Troncy
4
1. Problématique
2. Ingénierie documentaire et IC
3. Notre architecture
4. Expérimentations
5. Conclusion et perspectives
Exemple
13 [Plateau : 6ème partie]
à 18:43:56:00 - 00:09:06:00. - Eurosport
Plateau composé de la suite de l'interview en direct de Nice de Sandy CASAR
par Jean René GODART au sujet de la course cycliste Paris-Nice et d'une
succession de brèves en images commentées par Alexandre BOYON et
Laurent PUYAT.
Q : Retrouver toutes les séquences AV dialogue
où Sandyd'un
Casar
coureur
cycliste dans
étapes
donne
une interview
dans le
le cadre
cadre d'une
d'une course
course àcycliste
– réponse bruitée : il y a des brèves dans la séquence
– réponse incomplète : l’interview a commencé dans
une séquence précédente
– requête non généralisable
05/03/2004
Raphaël Troncy
5
1. Problématique
2. Ingénierie documentaire et IC
3. Notre architecture
4. Expérimentations
5. Conclusion et perspectives
Problèmes
• Faible utilisation des structures documentaires
• Un cadre qui se prête mal au raisonnement
 rendre les descriptions
intelligibles pour les machines
• Besoins :
– contraindre la structure logique des descriptions

faut-il qui
utiliser
pourdes
• unQuel(s)
magazine langage(s)
contient des reportages
contiennent
interview
satisfaire
tous ces besoins ?
– représenter le sens porté par la structure

De quelle(s) structure(s) de connaissance(s)
• un dessin animé est une fiction sans personnage réel
a-t-on besoin ?
– représenter le sens du contenu des documents
• le prologue est toujours le 1er contre la montre individuel
05/03/2004
Raphaël Troncy
6
L'ingénierie documentaire
1. Problématique
2.2.1.
Ingénierie
documentaire
Ingénierie
documentaireet IC
3.2.2.
Notre
architecture
Ingénierie
des connaissances
4. Expérimentations
5. Conclusion et perspectives
• Fournir des modèles, des langages et des outils
pour traiter des collections de documents
• Encoder des documents et des données
structurées : XML [W3C, 1998] & XML Schema [W3C, 2001]
• Distinguer le contenu de sa présentation
– Des langages pour présenter du multimédia : SMIL
– Des modèles pour décrire le multimédia
• de HyTime [ISO, 1997] à MPEG-7 [ISO, 2001]
05/03/2004
Raphaël Troncy
7
2. Ingénierie documentaire et IC
2.1. Ingénierie documentaire
2.2. Ingénierie des connaissances
MPEG-7, le nouveau langage
de description multimédia ?
• Standard ISO depuis
décembre 2001
• Éléments principaux :
– Descripteurs (Ds)
et Schémas de
Description (DSs)
– DDL (XML
Schema +
extensions)
• Concerne tous types
de média
05/03/2004
Collections
Content organization
Models
Navigation &
Access
Creation &
Production
User
interaction
User
Preferences
Summaries
Media
Usage
Content management
Views
User
History
Content description
Structural
aspects
Semantic
aspects
Variations
Basic elements
Schema
Tools
Basic
datatypes
Links & media
localization
Basic
Tools
Part 5 - MDS
Raphaël Troncy
8
Structure et sémantique
2. Ingénierie documentaire et IC
2.1. Ingénierie documentaire
2.2. Ingénierie des connaissances
• Structure
• Unité de base : le segment
- bornes temporelles ou masque
• Décomposition possible
05/03/2004
Raphaël Troncy
9
2. Ingénierie documentaire et IC
2.1. Ingénierie documentaire
2.2. Ingénierie des connaissances
Structure et sémantique
• Sémantique
– entités
– attributs
– relations
No AbstractionLevel
Object
Properties
Event
Object
Object
• Classification
Schemes (CS)
Properties
Event
AbstrationLevel = 0
– relations
thésaurales
05/03/2004
Media
abstraction
Object
Raphaël Troncy
10
Des modèles alternatifs
2. Ingénierie documentaire et IC
2.1. Ingénierie documentaire
2.2. Ingénierie des connaissances
• MPEG-7 = un ensemble de descripteurs, riche mais
insuffisant pour couvrir tous les besoins de description
• Extension de MPEG-7 avec XML Schema :
– Exemple : TV Anytime, Mdéfi [Tran Thuong, 2003]
– Problème : ajout de structure sans sémantique
• Extension de MPEG-7 avec des CS :
– Exemple : le système COALA [Fatemi, 2003]
– Problème : expressivité très pauvre
• Annotation libre orientée « connaissance »
– Strates-IA [Prié, 1999] : pas de contrôle de structure
– E-SIA [Egyed-Zs, 2003] : perte de la base des connaissances
 MPEG-7+XML Schema sont insuffisants !
… mais la RC apporte des solutions
05/03/2004
Raphaël Troncy
11
Les ontologies en IC
2. Ingénierie documentaire et IC
2.1. Ingénierie documentaire
2.2. Ingénierie des connaissances
• La spécification formelle d'un modèle conceptuel
d'un domaine
– Un ensemble de concepts, de relations et d'axiomes
– Langages de représentation des connaissances
• Méthodologies de construction :
– Adaptation de principes de génie logiciel : Methontology
[Gomez-Perez]
– Acquisition terminologique : [Bachimont], [Aussenac Gilles]
– Correction à l'aide de propriétés formelles : [Guarino]
• Outils :
– Protégé, WebODE, OilEd, OntoEdit, Terminae, DOE
05/03/2004
Raphaël Troncy
12
Langages de RC pour le Web
2. Ingénierie documentaire et IC
2.1. Ingénierie documentaire
2.2. Ingénierie des connaissances
• RDF : [W3C, 1999 & W3C, 2004]
– un modèle de données pour annoter des ressources
du Web
– triplets : ressource → propriété → valeur
• <rdf:RDF>
RDFS : [W3C, 2004]
•
<ina:MagazineSportif rdf:about="Stade 2">
– définition
du vocabulaire
utilisé
<ina:chaineDiff
rdf:resource="France2"/>
<ina:dateDiff>17-03-2002</ina:dateDiff>
OWL
: [W3C, 2004]
</ina:MagazineSportif>
</rdf:RDF>
– hiérarchie de classes et de relations
– axiomes
propriétésina:MagazineSportif)
algébriques, définition de concepts,
(:"Stade
2" :rdf:type
(:"Stade
2" ina:chaineDiff
"France2")
opérations
ensemblistes, cardinalités
(:"Stade 2" ina:dateDiff 17-03-2002)
05/03/2004
Raphaël Troncy
13
Utilisation de OWL+RDF pour
décrire des documents AV
2. Ingénierie documentaire et IC
2.1. Ingénierie documentaire
2.2. Ingénierie des connaissances
<owl:Class rdf:ID="EmissionTV"/>
• Définition
de concepts et de relations
•
•
<owl:Class rdf:ID="EmissionPlateau">
EmPlateau  and
( EmSimple
<rdfs:subClassOf
rdf:resource="#EmissionTV"/>
<rdfs:subClassOf>
(all hasPart SeqPlateau ) )
<owl:Restriction>
Définition
d’axiomes
<owl:onProperty rdf:resource="#contientSequence"/>
<owl:allValuesFrom
rdf:resource="#SequencePlateau"/>
EmissionSimple
 EmissionComposite
=
</owl:Restriction>
</rdfs:subClassOf>
Inférences
<owl:Class>
si ONPP isA EmPlateau alors  seq  ONPP, seq isA SeqPlateau
<owl:ObjectProperty rdf:ID="contientSequence">
<rdf:type rdf:resource="&owl;TransitiveProperty"/>
<rdfs:domain rdf:resource="#EmissionTV"/>
<rdfs:range rdf:resource="#SequenceTV"/>
</owl:ObjectProperty>
 Problème : comment contrôler la
structure des descriptions ?
05/03/2004
Raphaël Troncy
14
Notre proposition
1. Problématique
2.3.1.
Ingénierie
documentaire
et IC
Ontologie
de l'AV
3.3.2.
Notre
architecture
Schémas
de description
4.3.3.
Expérimentations
Instancier un modèle
5.3.4.
Conclusion
perspectives
Enrichir laetBC
• Utiliser conjointement ces deux types d'approche
pour exprimer les descriptions
– les langages documentaires pour décrire et contrôler la
structure des émissions
– l'ontologie et la RC pour décrire formellement la
sémantique véhiculée par leur structure et leur contenu
• Automatiser le plus possible les passages entre
ces deux représentations
• Elaborer une architecture pour raisonner dans les
descriptions documentaires
05/03/2004
Raphaël Troncy
15
Architecture générale
MPEG-7 /
XML Schema
OWL / RDF
transformation
utilisateurs
requête
Ontologie de l’AV
base de
faits
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
Modèles de
document
valide
transformation
documentalistes
Document
instances
Ontologie de domaine
05/03/2004
Raphaël Troncy
16
Ontologie de l’Audiovisuel
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
• Méthodologie de construction : ARCHONTE [Bachimont]
– Conceptualisation : principes différentielles
– Formalisation : définitions formelles, ajout d’axiomes
– Opérationnalisation : traduction dans un langage de RC
• Contenu
:
normalisation
opérationalisation
formalisation
– Objets de production (émission, séquence, genres AV), Propriétés
(thèmes), Personnes, Procédés techniques (montage, tournage,
post-production), Descripteurs du signal (audio, vidéo), etc.
équipe
du utilisés :
• Termes
Outils
domaine
sprinter
– Conceptualisation : DOE [Troncy & Isaac, IC’02]
– Formalisation : OilEd [Bechhofer, KI’01]
– Langages : OWL
coureur
cycliste
SWP : ...
SWS : ...
DWS : ...
DWP : ...
SWP : ...
SWS : ...
DWS : ...
DWP : ...
...
x Personne(x)  PersonnelTour(x)
È PersonnelEquipe(x)
È Spectateur(x)
...
• Ontologies disponibles sur le Web :
....
class-def PersonnelEquipe
subclass-of Personne
class-def PersonnelTour
subclass-of Personne
class-def Spectateur
subclass-of Personne
....
covered Personne by
PersonnelTour
PersonnelEquipe
Spectateur
....
spécification en
langage opérationnel
axiomes
ontologie computationnelle
ontologie référentielle
ontologie différentielle
http://opales.ina.fr/public/ontologies/
05/03/2004
Raphaël Troncy
17
L'éditeur d'ontologies DOE
05/03/2004
Raphaël Troncy
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
18
Formalisation en OWL
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
rdf:ID="EmissionTV"/>
•<owl:Class
Basée sur
des pratiques professionnelles
<owl:Class
rdf:ID="EmissionPlateau">
établies
<rdfs:subClassOf rdf:resource="#EmissionTV"/>
• <rdfs:subClassOf>
Traduction de l'ontologie dans le langage OWL
<owl:Restriction>
<owl:onProperty
rdf:resource="#contientSequence"/>
• Résultats
:
<owl:allValuesFrom rdf:resource="#SequencePlateau"/>
–</owl:Restriction>
Temps de construction : 4 semaines
</rdfs:subClassOf>
– Ontologie de taille importante :
<owl:Class>
• 400 concepts
<owl:ObjectProperty rdf:ID="contientSequence">
<rdf:type rdf:resource="&owl;TransitiveProperty"/>
<rdfs:domain rdf:resource="#EmissionTV"/>
<rdfs:range rdf:resource="#SequenceTV"/>
</owl:ObjectProperty>
05/03/2004
Raphaël Troncy
19
Architecture générale
MPEG-7 /
XML Schema
OWL / RDF
transformation
utilisateurs
requête
Ontologie de l’AV
base de
faits
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
Modèles de
document
valide
transformation
documentalistes
Document
instances
Ontologie de domaine
05/03/2004
Raphaël Troncy
20
Génération de types
XML Schema
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
Certains concepts (émission, séquence) renvoient à des
types de segment audiovisuels
OWL
• Classe
• Sous-classe
• Restriction de
propriété
• Union de classes
•
•
•
•
XML Schema
Type complexe
Extension
Elément du modèle
de contenu
Choix du modèle de
contenu
transformation
05/03/2004
Raphaël Troncy
21
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
Extension de MPEG-7
• Lier ces types aux types MPEG-7 existants
Segment
(abstract)
Audio
Segment
...
Video
Segment
Légende
...
...
AudioVisual
Segment
dérivation par extension
...
dérivation par restriction
élément de contenu
Genre
(abstract)
Sequence
(abstract)
Segment
Decomposition
(abstract)
...
Fiction
Segment
Decomposition
(abstract)
Magazine
Composite
Journal
Televise
...
Sequence
Plateau
Reportage
GeneralDecomposition
(abstract)
...
GeneralDecomposition
(abstract)
MagazineComposite
Decomposition
05/03/2004
Interview
Reportage
Decomposition
Raphaël Troncy
22
Construire des modèles
de document
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
• Visionnage de quelques émissions Stade2
– construction d’un schéma simple à base de
SéquencePlateau, de Reportage et d’Interview
– le Reportage contient des Extraits de
RetransmissionSportive
• Applicabilité du schéma construit
– reste valable pour Téléfoot
– reste valable pour 3 Partout, pour VéloClub
– n’est PLUS valable pour EddyTime
05/03/2004
Raphaël Troncy
23
Architecture générale
MPEG-7 /
XML Schema
OWL / RDF
transformation
utilisateurs
requête
Ontologie de l’AV
base de
faits
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
Modèles de
document
valide
transformation
documentalistes
Document
instances
Ontologie de domaine
05/03/2004
Raphaël Troncy
24
SegmenTool [Projet PRIAMM CHAPERON]
05/03/2004
Raphaël Troncy
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
25
Instancier le modèle de
document
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
<ina:Reportage id="aa23c647c-6517-4aee-8bce-870ae52a01af">
...
<ina:ReportageDecompositionTemporelle>
<ina:Interview id="adb23ab65-f8e7-4b2a-8c98-807197da600a">
<mp7:Semantic>...</mp7:Semantic>
Interview
<mp7:MediaTime>
aCommeDébut
<mp7:MediaTimePoint>T00:24:19</mp7:MediaTimePoint>
aComme
aCommeThématique
Durée
<mp7:MediaDuration>PT00H00M07S</mp7:MediaDuration>
</mp7:MediaTime>
Cyclisme
7s
24m19s
<ina:Thematique value="Cyclisme"/>
</ina:Interview>
</ina:ReportageDecompositionTemporelle>
...
</ina:Reportage>
BC
triplets RDF
05/03/2004
Raphaël Troncy
26
Architecture générale
MPEG-7 /
XML Schema
OWL / RDF
transformation
utilisateurs
requête
Ontologie de l’AV
base de
faits
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
Modèles de
document
valide
transformation
documentalistes
Document
instances
Ontologie de domaine
05/03/2004
Raphaël Troncy
27
Ontologie du Cyclisme
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
• Méthodologie de construction :
– Acquisition terminologique
• Corpus textuel de 550 000 mots [LeRoux, 2003]
• Outil d'extraction de candidats termes : Lexter
– Conceptualisation et formalisation
• DOE + OilEd
• Résultats :
– Temps de construction : 3 semaines
• conceptualisation, haut niveau, formalisation
– Ontologie de taille moyenne :
• 97 concepts, 61 relations
05/03/2004
Raphaël Troncy
28
Ontologie du Cyclisme
05/03/2004
Raphaël Troncy
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
29
3. Notre architecture
3.1. Ontologie de l'AV
3.2. Schémas de description
3.3. Instancier un modèle
3.4. Enrichir la BC
Enrichissement de la BC
Domaine du
Cyclisme
Base de
Faits
text
e
text
e
text
e
SEIGO
+
[Le Roux, 2003]
<rdf:Description
rdf:about="http://../Stade2-17_03_2002.xml#ina:Interview[@id=interview3]">
.....
</rdf:Description>
CoureurCycliste
aCommeNom
<rdf about="{URI}/MagazineSportif5/Report3/Interview4">
estClasséGénéral
Sandy
Casar
<!-- assertions
formalisées
provenant de la base de faits -->
position
épreuveConsidérée
</rdf>
2
05/03/2004
CourseAEtapes
aCommeNom
Raphaël Troncy
ParisNice
30
Architecture générale
MPEG-7 /
XML Schema
OWL / RDF
transformation
utilisateurs
requête
Ontologie de l’AV
base de
faits
1. Problématique
2. Ingénierie documentaire et IC
3. Notre architecture
4. Expérimentations
5. Conclusion et perspectives
Modèles de
document
valide
transformation
documentalistes
Document
instances
Ontologie de domaine
05/03/2004
Raphaël Troncy
31
Expérimentations
1. Problématique
2. Ingénierie documentaire et IC
3. Notre architecture
4. Expérimentations
5. Conclusion et perspectives
1. 1ère expérimentation
–
Sesame : architecture de stockage de triplets RDF
[Broekstra, 2002]
• Implémente les langages de requêtes RQL et RDQL
• Implémente la sémantique de RDF Schema (moteur RDF-MT)
–
–
BOR : raisonneur implémentant la sémantique de
DAML+OIL [Simov & Jordanov, 2002]
SeBOR : intégration de ces deux systèmes dans le
cadre du projet On-To-Knowledge
2. 2ème expérimentation
–
–
Racer : raisonneur OWL DL [Haarslev & Möller, 2001]
Rice : interface de visualisation [Möller et al., 2003]
05/03/2004
Raphaël Troncy
32
1. Problématique
2. Ingénierie documentaire et IC
3. Notre architecture
4. Expérimentations
5. Conclusion et perspectives
Conclusion
• Architecture générale permettant le raisonnement
dans les descriptions documentaires :
– Contrôle de la structure : création de modèles de documents
– Représentation formelle de la sémantique : ontologie de
l'audiovisuel et ontologie de domaine
– Basée sur des langages standards (MPEG-7, OWL, RDF)
et sur l'utilisation de transformations
• Implémentation et expérimentations
– Extension générique de MPEG-7
– Développement de 2 ontologies à l'aide de DOE
– Création d’une Base de Connaissances sur des faits relatifs aux
épreuves cyclistes et utilisation d’un raisonneur approprié sur les
descriptions
05/03/2004
Raphaël Troncy
33
Perspectives
1. Problématique
2. Ingénierie documentaire et IC
3. Notre architecture
4. Expérimentations
5. Conclusion et perspectives
• Développements en cours
– Meilleure intégration des outils utilisés
• Expérimentations envisagées
– Disposer d’une base conséquente de vidéos annotées et tester le
système avec un panel d’utilisateurs
– Appliquer cette architecture à un autre domaine que le cyclisme
– Mesurer l'apport de l'ontologie de l'audiovisuel dans un grand fonds
documentaire sans modifier les descriptions
• Perspectives à plus long terme
– Le langage de description idéal pour l'AV est toujours à rechercher
– La description pourrait être liée à :
• une analyse rhétorique des documents
• une analyse sémiotique des documents
05/03/2004
Raphaël Troncy
34
Questions ?
1. Problématique
2. Ingénierie documentaire ET ingénierie des
connaissances
3. Notre proposition : une architecture pour
raisonner dans les descriptions documentaires
4. Expérimentations
5. Conclusion et perspectives
05/03/2004
Raphaël Troncy
35
05/03/2004
Raphaël Troncy
36
05/03/2004
Raphaël Troncy
37
05/03/2004
Raphaël Troncy
38
05/03/2004
Raphaël Troncy
39
05/03/2004
Raphaël Troncy
40
05/03/2004
Raphaël Troncy
41