Le raisonnement dans les descriptions documentaires l’apport de la représentation des connaissances Raphaël Troncy 02 juillet 2003

Download Report

Transcript Le raisonnement dans les descriptions documentaires l’apport de la représentation des connaissances Raphaël Troncy 02 juillet 2003

Le raisonnement dans les
descriptions documentaires
l’apport de la représentation des
connaissances
Raphaël Troncy
02 juillet 2003
La description du contenu AV
• Un processus en 3 étapes :
– identification ou catalogage du document :
utilisation de méta données classiques
– localisation d’entités spatio-temporelles
pertinentes pour une application donnée :
utilisation de dates ou de coordonnées cartésiennes
– caractérisation sémantique et symbolique
de ces entités : utilisation de listes d’autorités, de
thésaurus ou du texte libre
02/07/2003
Raphaël Troncy - IC'2003
1
La description du contenu AV
rendre compte d’une
structure logique
• Localisation
– repérer et dater des
événements
temps t
• Caractérisation
– typer ces entités selon un
genre AV
– donner une thématique
générale
extrait
– décrire la scène (qui, quand,
où, quoi, …)
football
Zidane marque de la tête sur
corner à la 40ème minute
décrire la sémantique du contenu
02/07/2003
Raphaël Troncy - IC'2003
2
Exemple
13 [Plateau : 6ème partie]
à 18:43:56:00 - 00:09:06:00. - Eurosport
Plateau composé de la suite de l'interview en direct de Nice de Sandy CASAR
par Jean René GODART au sujet de la course cycliste Paris-Nice et d'une
succession de brèves en images commentées par Alexandre BOYON et
Laurent PUYAT.
Q : Retrouver toutes les séquences AV où Sandy
Casar
un coureur
cycliste
donne une interview dans le cadre d'une course cycliste
à étapes
– réponse bruitée : il y a des brèves dans la séquence
– réponse incomplète : l’interview a commencé dans une
séquence précédente
– requête non généralisable
02/07/2003
Raphaël Troncy - IC'2003
3
Problèmes
• Faible utilisation des structures documentaires
• Un cadre qui se prête mal au raisonnement
 rendre les descriptions
intelligibles pour les machines
• Besoins :
– contraindre la structure logique des descriptions
 Quel(s)
langage(s)
faut-il
utiliser
pour
remplir
• localiser une interview dans un reportage d’un magazine
tous ces besoins ?
– représenter la sémantique contenue dans la structure
• un dessin animé est une fiction sans personnage réel
– représenter la sémantique contenue dans le contenu
• le prologue est toujours le 1er contre la montre individuel
02/07/2003
Raphaël Troncy - IC'2003
4
MPEG-7, le nouveau langage de
description multimédia ?
• Standard ISO depuis
décembre 2001
• Eléménts principaux :
– Descripteurs (Ds) et
Schémas de
Description (DSs)
– DDL (XML Schema +
extensions)
• Concerne tous types
de média
02/07/2003
Collections
Content organization
Models
Navigation &
Access
Creation &
Production
User
interaction
User
Preferences
Summaries
Media
Usage
Content management
Views
User
History
Content description
Structural
aspects
Semantic
aspects
Variations
Basic elements
Schema
Tools
Basic
datatypes
Links & media
localization
Basic
Tools
Part 5 - MDS
Raphaël Troncy - IC'2003
5
Structure et sémantique (1/2)
• Structure
-Unité de base : le segment
• bornes temporelles ou masque
- Décomposition possible
02/07/2003
Raphaël Troncy - IC'2003
6
Structure et sémantique (2/2)
• Sémantique
– entités
– attributs
– relations
No AbstractionLevel
Object
Properties
Event
Object
Object
• Classification
Schemes (CS)
Media
abstraction
Event
AbstrationLevel = 0
Object
– relations
thésauriques
02/07/2003
Properties
Raphaël Troncy - IC'2003
7
Extensibilité
• Un ensemble de descripteurs riche, mais insuffisant pour couvrir tous les besoins de description
• Utiliser les mécanismes d’extension de XML
Schema :
– Exemple : TV Anytime
– Problème : ajout de structure sans sémantique
• Utiliser les mécanismes d’extension des CS :
– Exemple : le système COALA
– Problème : expressivité très pauvre
 MPEG-7+XML Schema sont insuffisants !
… mais les langages de RC sont de bons candidats
02/07/2003
Raphaël Troncy - IC'2003
8
Un langage de RC : OWL+RDF
• Définition de concepts et de relations
EmPlateau  and ( EmSimple
(all hasPart SeqPlateau ) )
• Définition d’axiomes
EmissionSimple  EmissionComposite = 
 Problème : la structure du document
(i.e. son contexte) est perdue !
 mais si on mélangeait les 2 ?
02/07/2003
Raphaël Troncy - IC'2003
9
Architecture générale
MPEG-7 /
XML Schema
OWL / RDF
XSLT
Ontologie de l’AV
utilisateurs
Modèles de
document
valide
documentalistes
requête
base de
faits
Document
instances
Ontologie de domaine
02/07/2003
Raphaël Troncy - IC'2003
10
Ontologie de l’Audiovisuel
• Méthodologie de construction : [Bachimont, IC’00]
– Conceptualisation : principes différentielles
– Formalisation : définitions formelles, ajout d’axiomes
– Opérationnalisation : traduction dans un langage de RC
• Contenu :
– Objets de production (émission, séquence, genres AV), Propriétés
(thèmes), Personnes, Procédés techniques (montage, tournage,
post-production), Descripteurs du signal (audio, vidéo), etc.
• Outils utilisés :
– Conceptualisation : DOE [Troncy & Isaac, IC’02]
– Formalisation : OilEd [Bechhofer, KI’01]
– Langages : DAML+OIL … OWL
• Ontologies disponibles sur le Web :
http://opales.ina.fr/public/ontologies/
02/07/2003
Raphaël Troncy - IC'2003
11
Ontologie de l’Audiovisuel
02/07/2003
Raphaël Troncy - IC'2003
12
Formalisation
• Objet de production :
– attributs : titre, durée …
– définition : EmPlateau  and ( EmSimple
(all hasPart SeqPlateau ) )
– règles : EmissionSimple  EmissionComposite = 
• Objet de diffusion :
– attributs : titre, heure théorique de début et de fin …
– définition : CComposite  and (CHoraire
atleast 2 composedOf Emission)
– règles :  ODiffusion , ODiffusion .channel  GrilleProg .channel
02/07/2003
Raphaël Troncy - IC'2003
13
Architecture générale
MPEG-7 /
XML Schema
OWL / RDF
XSLT
Ontologie de l’AV
utilisateurs
Modèles de
document
valide
documentalistes
requête
base de
faits
Document
instances
Ontologie de domaine
02/07/2003
Raphaël Troncy - IC'2003
14
Génération de types XML Schema
Certains concepts (émission, séquence) étendent le type
VideoSegment de MPEG-7
OWL
•
•
•
• Classe
• Sous-classe
• Restriction de
propriété
• Union de classes
•
XML Schema
Type complexe
Extension
Elément du modèle
de contenu
Choix du modèle de
contenu
XSLT ?
02/07/2003
Raphaël Troncy - IC'2003
15
Construire des modèles de
document
• Visionnage de quelques émission Stade2
– construction d’un schéma simple à base de
SéquencePlateau, de Reportage et d’Interview
– le Reportage contient des Extraits de
RetransmissionSportive
• Applicabilité du schéma construit
– reste valable pour Téléfoot
– reste valable pour 3 Partout, pour VéloClub
– n’est PLUS valable pour EddyTime
02/07/2003
Raphaël Troncy - IC'2003
16
Architecture générale
MPEG-7 /
XML Schema
OWL / RDF
XSLT
Ontologie de l’AV
utilisateurs
Modèles de
document
valide
documentalistes
requête
base de
faits
Document
instances
Ontologie de domaine
02/07/2003
Raphaël Troncy - IC'2003
17
SegmenTool
02/07/2003
[Projet PRIAMM CHAPERON]
Raphaël Troncy - IC'2003
18
Instancier le modèle de document
<ina:Reportage id="aa23c647c-6517-4aee-8bce-870ae52a01af">
...
<mp7:TemporalDecomposition>
<ina:Interview id="adb23ab65-f8e7-4b2a-8c98-807197da600a">
<mp7:Semantic>...</mp7:Semantic>
Interview
<mp7:MediaTime>
aCommeDébut
<mp7:MediaTimePoint>T00:24:19</mp7:MediaTimePoint>
aComme
aCommeThématique
Durée
<mp7:MediaDuration>PT00H00M07S</mp7:MediaDuration>
</mp7:MediaTime>
Cyclisme
7s
24m19s
<ina:Thematique value="Cyclisme"/>
</ina:Interview>
</mp7:TemporalDecomposition>
...
</ina:Reportage>
BC
triplets RDF
02/07/2003
Raphaël Troncy - IC'2003
19
Architecture générale
MPEG-7 /
XML Schema
OWL / RDF
XSLT
Ontologie de l’AV
utilisateurs
Modèles de
document
valide
documentalistes
requête
base de
faits
Document
instances
Ontologie de domaine
02/07/2003
Raphaël Troncy - IC'2003
20
Ontologie du Cyclisme
02/07/2003
Raphaël Troncy - IC'2003
21
Enrichissement de la BC
Domaine du
Cyclisme
text
e
Base de
Faits
text
e
text
e
+
<rdf:Description
rdf:about="http://../Stade2-17_03_2002.xml#ina:Interview[@id=interview4]">
.....
</rdf:Description>
CoureurCycliste
<rdf about="{URI}/MagazineSportif5/Report3/Interview4">
estClasséGénéral
aCommeNom
<!-- assertions formalisées provenant de la base de faits} -->
Sandy Casar
position
</rdf>
02/07/2003
2
épreuveConsidérée
CourseAEtapes
aCommeNom
Paris-Nice
Raphaël Troncy - IC'2003
22
Implémentation de la BC
• Sesame : architecture de stockage de triplets RDF
[Broekstra, 2002]
– Implémente les langages de requêtes RQL et RDQL
– Implémente la sémantique de RDF Schema (moteur RDF-MT)
• BOR : raisonneur implémentant la sémantique de
DAML+OIL [Simov & Jordanov, 2002]
• SeBOR : intégration de ces deux systèmes dans le
cadre du projet On-To-Knowledge
02/07/2003
Raphaël Troncy - IC'2003
23
Interface Sésame+BOR
Démonstration
02/07/2003
Raphaël Troncy - IC'2003
24
Conclusion
• Architecture générale permettant le raisonnement
dans les descriptions documentaires :
–
–
–
–
Modélisation de 2 ontologies (méthodologie + DOE)
Formalisation des ontologies (OilEd, OWL)
Création de modèle de documents (MPEG-7 étendu)
Création d’instance de ces modèles : la structure
documentaire (SegmenTool + transformation XSLT pour la
création d’une base de triplets RDF)
– Création d’une Base de Connaissances sur des faits
relatifs aux épreuves cyclistes et utilisation d’un
raisonneur approprié (Sésame + BOR, ©AIdministrator-NL &
©OntoText-BG)
02/07/2003
Raphaël Troncy - IC'2003
25
Perspectives
• Petits développements
– fournir un langage de requêtes simples permettant d’interroger tant
sur la structure que sur le contenu
– proposer la lecture des séquences correspondant aux triplets RDF
retournés par SeBOR
• Moyen terme
– disposer d’une base conséquente de vidéos annotées et tester le
système avec un panel d’utilisateurs
– utiliser les futurs raisonneurs OWL
• Long terme
– appliquer cette architecture à un autre domaine que le cyclisme
– s’agit-il seulement de construire une autre ontologie de domaine ?
que faut-il adapter ?
02/07/2003
Raphaël Troncy - IC'2003
26