La documentation audiovisuelle à l’heure du numérique Raphaël Troncy 27 juin 2003 Institut National de l’Audiovisuel Direction Recherche et Expérimentation Tel : 01-49-80-20-93 E-mail : [email protected].

Download Report

Transcript La documentation audiovisuelle à l’heure du numérique Raphaël Troncy 27 juin 2003 Institut National de l’Audiovisuel Direction Recherche et Expérimentation Tel : 01-49-80-20-93 E-mail : [email protected].

La documentation
audiovisuelle à l’heure
du numérique
Raphaël Troncy
27 juin 2003
Institut National de l’Audiovisuel
Direction Recherche et Expérimentation
Tel : 01-49-80-20-93
E-mail : [email protected]
Objectifs de l’exposé
• Prendre la mesure de l’apport du numérique
pour la documentation audiovisuelle (ce que ça
change !)
• Situer l’apport des nouvelles technologies dans
les pratiques concrètes de la documentation
• Amorcer une réflexion sur l’évolution du rôle des
documentalistes
Raphaël Troncy
09/04/2004
1
Plan de l’exposé
• De l’analogique au numérique : de
nouvelles possibilités
• La création de descriptions de documents
audiovisuels : automatique ou manuelle ?
• La représentation et la manipulation de
ces descriptions : l’apport XML
• Et demain … ?
Raphaël Troncy
09/04/2004
2
Le document AV analogique
• Un support d’enregistrement
Dispositif de reconstruction
de la lecture
• Un support de restitution
• Un média hautement temporel
Raphaël Troncy
09/04/2004
3
Le document AV analogique (suite)
• Documents temporels :
– Regarder 10 min prend 10 min
– Pour trouver une information située à la 10ème
minute, il faut regarder les 9 premières
⇒ pas d’accès direct à l’information
• Pour retrouver une information :
– Localiser explicitement le contenu
– Caractériser ce contenu
⇒ nécessité d’une description (ou indexation)
Raphaël Troncy
09/04/2004
4
Utiliser l’AV analogique:
regarder, retrouver
documents
index
requête
utilisateur
cassettes
K7-023
projection
Notice
documentaire
Doc: n001
Support : K7-023
Segment montrant
une élégante à
Paris
Auteur
Description: …..
Support magnétique / photo
indexation
Raphaël Troncy
Support numérique
recherche
09/04/2004
Support humain
formulation
5
La convergence numérique
• Convergence actuelle des industries de contenu
AV, de télécommunication et d’informatique
• Numérisation de la chaîne de production AV, de
la création à la distribution
• Nouveaux outils « grand public » pour
l’enregistrement, le montage, la manipulation et
la visualisation des données AV numériques
Raphaël Troncy
09/04/2004
6
La numérisation : qu’est-ce que
c’est ?
• Numériser les contenus audiovisuels = les
transformer en données informatiques
• Offre de nouvelles possibilités :
– on peut stocker ces contenus dans des bases
de données
– on peut les échanger sur des réseaux
– on peut automatiser l’accès aux contenus
Raphaël Troncy
09/04/2004
7
Automatisation de l’accès (1)
• Exemple: Description de Journal Télévisé
en analogique
- 00:25:32: TRAv public le long de la route du tour.
Famille avec table, tente et enfant. Jeune femme:
"Mon mari est un vrai passionné de vélo."
- 00:27:14: Buffet campagnard et barbecue : "On
s'est réuni tout le village"
- 00:29:25: Homme néerlandais attablé au bord de
la route, derrière lui une banderole "ALLEE le tour"
Raphaël Troncy
09/04/2004
8
Automatisation de l’accès (2)
• Exemple: Description de Journal Télévisé
en numérique
- Sujet 33 (durée 00:02:23) : TRAv public le long de
la route du tour. Famille avec table, tente et enfant.
Jeune femme: « Mon mari est un vrai passionné
de vélo »
Voir le passage
- Sujet 34 (durée 00:01:58) : Buffet campagnard et
barbecue : « On s'est réuni tout le village »
Voir le passage
Raphaël Troncy
09/04/2004
9
De l’analogique au numérique
• Situation analogique :
– les index ne sont pas exploités par le dispositif de
lecture (index et contenu sont sur des supports
différents)
– ils ne servent qu’à la recherche d’information
– impossibilité, en pratique, de naviguer dans un
document audiovisuel
• Situation numérique :
– on assiste à une destruction (uniformisation) du
support
– le programme de lecture peut utiliser les descriptions
des contenus pour proposer différentes exploitations
du contenu audiovisuel
Raphaël Troncy
09/04/2004
10
Utiliser l’AV numérique:
naviguer
documents AV
descriptions
composer
rechercher
Raphaël Troncy
….
09/04/2004
11
Naviguer grâce aux descriptions
descriptions
Texteloc = 153 char
Imageloc = 12:01 mn
Raphaël Troncy
09/04/2004
12
Composer grâce aux descriptions
Structure des
magazines
Magazines disponibles
Mag 1
people
interview
politique
Mag 2
Mag 3
{
{
{
Raphaël Troncy
Best of
Compile
people
people
people
politique
politique
politique
09/04/2004
Best-of
Structure
}
}
1er
people de
chaque
1er
politique
de
chaque
13
Chaîne de traitement
documentaire dans un contexte
massivement analogique
Indexation
Notices
Archivage des supports
Base
documentaire
Magasin
Phase amont : alimentation de la base documentaire
Raphaël Troncy
09/04/2004
14
Chaîne de traitement
documentaire dans un contexte
massivement analogique
Traduction
Requête
Base
documentaire
Résultat
Exploitation
Magasin
Phase aval: interrogation de la base documentaire
Raphaël Troncy
09/04/2004
15
Chaîne documentaire
numérique
Interrogation
Traitement
initial
Base
Base
documentaire
documentaire
Exploitation
Indexations
supplémentaires
Raphaël Troncy
09/04/2004
16
De l’indexation à la description
• Index :
– Pointer vers, montrer où se trouve un contenu
– Les index ne servent qu’à la recherche
d’information
• Description :
– Souvent structurée
– Les descriptions servent à rendre possible
des usages de l’AV (recherche structurée plus
fine, composition de nouveaux documents,
parcours de navigation …)
Raphaël Troncy
09/04/2004
17
Descriptions : les problèmes clefs
• Créer les descriptions
– Automatique ? Manuelle ?
• Représenter ces descriptions
– Quel format documentaire ?
• Manipuler ces descriptions
– Génie documentaire
Raphaël Troncy
09/04/2004
18
Plan de l’exposé
• De l’analogique au numérique : de nouvelles
possibilités
• La création de descriptions de documents
audiovisuels (exemple concret : l’INA)
• La représentation et la manipulation de ces
descriptions
• Et demain … ?
Raphaël Troncy
09/04/2004
19
Créer des descriptions :
différents modes d’obtention
• Indexation automatique :
– Permet le traitement de grands volumes de données
• Annotation manuelle :
– Permet l’interprétation des éléments abstraits proches
de l’usage visé
• Environnement de travail :
– Permet de concilier la valeur ajoutée de l’annotation
aux outils automatiques
Raphaël Troncy
09/04/2004
20
Créer des descriptions : le
problème fondamental
• Objectif :
– Déterminer des descripteurs représentant le contenu
• Problème fondamental :
– Les documents audiovisuels ne sont pas alphabétiques
• Le flux AV ne se construit pas à partir d’unités discrètes
dénombrables dont la combinatoire détermine les possibilités de
formulation
Les descripteurs ne sont pas donnés avec le document, il faut
les extraire ou les interpréter
Raphaël Troncy
09/04/2004
21
Indexation automatique
• Objectif :
– Extraire automatiquement des descripteurs du contenu
• Problème :
– La détermination d’un descripteur pertinent dépend du
contexte d’utilisation du document
– Les algorithmes d’extraction restent trop près de la
nature physique des documents pour être exploitables
• Enjeu :
– Mapper les résultats d’analyse sur des descripteurs
utiles
Raphaël Troncy
09/04/2004
22
Indexation automatique
• Segmentation temporelle : plans, scènes ;
• Segmentation spatiale: détection de
visage, reconnaissance de visage ;
• Transcription automatique de la parole ;
• Alignement AV/ transcription ;
• Reconnaissances d’incrustation ;
• Etc.
Raphaël Troncy
09/04/2004
23
Segmentation de la vidéo
• Permet un accès non linéaire à la vidéo
• Détection des « cut »
– Basée sur le calcul de similarités entre
images successives utilisant :
• la couleur
• le mouvement
• les résultats des algorithmes de compression
(MPEG)
Raphaël Troncy
09/04/2004
24
Segmentation de la vidéo (suite)
• Détection des transitions progressives
– Fondus, volets, etc.
– Basées sur des modèles statistiques
d’occurrence des différents types de
transition
Raphaël Troncy
09/04/2004
25
Exemple de segmentation en plan
Raphaël Troncy
09/04/2004
26
Conclusion sur la segmentation
de la vidéo
• L ’évaluation et la comparaison des résultats nécessite
une vérité terrain
• Les performances des algorithmes sont « bonnes » pour
les « cut » typiquement :
– 5% d ’oublis
– 15% de fausse détection
• Résultats moins bon pour les transitions progressives,
particulièrement les fondus
Raphaël Troncy
09/04/2004
27
Reconnaissance d’événements
• Caractérisation des plans par :
– Détection des visages
– Extraction des textes incrustés
– Détection des flashs
• Permet d’améliorer la segmentation en plan
• Indication sur l’apparition d’un personnage
important à l’écran
Raphaël Troncy
09/04/2004
28
Détection des visages
• Permet de :
– Caractériser les plans en gros plan, plan moyen, etc.
– Donner des indications pour l’annotation
• Algorithmes basés sur :
– Des analyses de l’image à différentes résolutions
– La couleur
– Un modèle de la forme du visage
Raphaël Troncy
09/04/2004
29
Détection des visages (suite)
• Reconnaissance des visages : mettre un nom
sur le visage
– Base de connaissance contenant tous les visages !
– Mise en correspondance probabiliste
• Conclusion:
– Méthode efficace avec des visages vus de face
• 20% d ’oublis
• 3% de fausse détection
– Algorithmes devant être améliorés en utilisant la
redondance d’apparition des visages dans la vidéo
Raphaël Troncy
09/04/2004
30
Exemple de détection de visages
Raphaël Troncy
09/04/2004
31
Extraction de textes
• Informations complémentaires dans les
J.T., les émissions sportives, etc.
• Localisation basée sur l’apparition et la
disparition brutale du texte au milieu d’un
plan.
• Lecture par des techniques d’OCR après
séparation du fond
Raphaël Troncy
09/04/2004
32
Exemple de détection de textes
Raphaël Troncy
09/04/2004
33
Analyse du mouvement
• Segmentation spatio-temporelle
– Identification de régions en translation, rotation, etc. dans
l’image
• Analyse des mouvements de caméra
– Panoramique, zoom, travelling, etc.
• Indices de mouvement
– Permet de caractériser les plans par la direction et la vitesse du
mouvement principal
• Création de mosaïque
– Résumé du mouvement de la caméra, d’un objet
Raphaël Troncy
09/04/2004
34
Exemple de détection de
régions en mouvement
Raphaël Troncy
09/04/2004
35
Exemple de mosaïque
(mouvement de caméra)
Raphaël Troncy
09/04/2004
36
Extraction d’images clés
• Permet d’obtenir la représentation du
contenu d’un plan avec un nombre limité
d’images.
• Basée sur les changements de couleurs
ou de mouvements dominants dans les
images d’un même plan.
Raphaël Troncy
09/04/2004
37
Extraction d’images clés (suite)
• Exemple de 9 plans résumés par 12
images clés
Raphaël Troncy
09/04/2004
38
Structuration de la vidéo
• Environ 1000 plans par heure de vidéo :
– Difficile de naviguer rapidement dans 1000
images clés !
nécessité de retrouver (ou définir) une
structure moins fine de la vidéo (scène,
séquence, unité narrative, etc.)
• Permet de retrouver plus facilement des
événements importants ou de saisir
l’essence du contenu du document
Raphaël Troncy
09/04/2004
39
Structuration de la vidéo (suite)
• « Structuration » obtenue en créant :
– des résumés de vidéo : montage de différents plans
représentatifs, i.e. contenant :
• beaucoup de mouvement et de contraste,
• fortement colorés, etc.
– des classes de plans similaires contraintes par le
temps
• classification basée sur la colorimétrie
• permet par exemple de regrouper les champs, contrechamps.
Raphaël Troncy
09/04/2004
40
Structuration de la vidéo (suite)
• « Structuration » obtenue en créant :
– des séquences en utilisant un modèle de structure de
documents basé sur des règles de montage connues :
• transitions (fondus, etc.),
• rythme des changement de plan,
• musique
– ou en utilisant un modèle de la structure du document :
• exemple : J.T. composé de séquences plateau et de reportages
en alternance
Raphaël Troncy
09/04/2004
41
Analyse de l’Audio
• Analyse du son
– Segmentation en zones de silence, parole ou
musique
– Permet de :
• caractériser le contexte audio d’un ensemble
d’images
• détecter des changement de scènes
• améliorer les performances de la transcription
automatique
Raphaël Troncy
09/04/2004
42
Analyse de l ’Audio (suite)
• Analyse de la parole
– Techniques éprouvées
• basées sur les modèles de Markov cachés et un
apprentissage
• capable de reconnaître des milliers de mots
– Permet :
• d’obtenir une transcription avec de bons résultats
• de retrouver les mots importants (issus d’un dictionnaire)
dans la bande son « word spotting »
• de localiser les changements de locuteur
Raphaël Troncy
09/04/2004
43
Analyse de l’Audio (suite)
Segmentation
Détection de
locuteur
Transcription
Raphaël Troncy
how are you
09/04/2004
i’m fine
let’s start
44
Solutions industrielles
• MediaSite (Informedia) http://www.mediasite.net/info/fprod.htm
Raphaël Troncy
09/04/2004
45
Indexation automatique
• Segmentation temporelle : plans, scènes ;
• Segmentation spatiale: détection de
visage, reconnaissance de visage ;
• Transcription automatique de la parole ;
• Alignement AV/ transcription ;
• Reconnaissances d’incrustation ;
• Etc.
Raphaël Troncy
09/04/2004
46
Le contexte numérique à l’INA
Captation 24/24,
365j/an
19 chaînes de TV
Gravure
3 DVD/Jour/Chaîne
17 chaînes de Radio
Traitement
documentaire
Banque de
DVD-roms
Base de
données
grilles de
programmes
Raphaël Troncy
Station de Lecture AudioVisuelle
09/04/2004
47
Documenter un flux audiovisuel
• Le flux capté est découpé en émission
• Un traitement différencié : selon le genre AV
• Les documents AV peuvent se regrouper en
collection si chacun des numéros est diffusable
isolément mais partage une thématique et une
mise en forme commune
• Intérêt : factoriser les connaissances à inclure
dans les descriptions
⇒ fabriquer de véritables modèles décrivant une
classe de documents
Raphaël Troncy
09/04/2004
48
La description du contenu AV
• Un processus en 3 étapes :
– identification ou catalogage du document :
utilisation de méta-données classiques
– localisation d’entités spatio-temporelles
pertinentes pour une application donnée :
utilisation de dates ou de coordonnées cartésiennes
– caractérisation sémantique et symbolique
de ces entités : utilisation de listes d’autorités, de
thésaurus ou du texte libre
Raphaël Troncy
09/04/2004
49
La description du contenu AV
rendre compte d’une
structure logique
• Localisation
– repérer et dater des
événements
temps t
• Caractérisation
– typer ces entités selon un
genre AV
– donner une thématique
générale
extrait
football
– décrire la scène (qui, quand,
où, quoi, …)
Zidane marque de la tête sur
corner à la 40ème minute
décrire la sémantique du contenu
Raphaël Troncy
09/04/2004
50
Annotation manuelle : les
mots pour le dire...
• Objectif :
– déterminer ce qui fait sens dans le document (zone
spatio/temporelle) et expliciter ce sens
• Problème :
– Un contenu AV ne prescrit pas de signification : l ’AV est une
analogie du réel
– Paraphraser le contenu AV dans une langue/langage pour
spécifier une signification : mais les mots spécifient un sens
possible, mais jamais exactement le même
• Enjeu :
– Développer les terminologies permettant de spécifier des
significations associées au contenu AV
Raphaël Troncy
09/04/2004
51
La description documentaire,
aujourd’hui à l’INA
• Notices contenant de nombreux champs
contrôlés
• Utilisation de listes d’autorités pour typer la
structure documentaire
• Utilisation de mots-clés issus d’un thésaurus et
du texte libre pour décrire le contenu
• Utilisation d’imagettes représentatives des
séquences
Raphaël Troncy
09/04/2004
52
Typologie INA 1/3
Les 45 genres possibles dans la typologie INA (+3 qui ne sont plus
utilisés)  mais tous ne sont pas de même niveau !
Raphaël Troncy
09/04/2004
53
Typologie INA 2/3
Les 43 thèmes possibles dans la typologie INA
(+4 qui ne sont plus utilisés)
Raphaël Troncy
09/04/2004
54
Typologie INA 3/3
• Un système à facettes composé de genres et
de thèmes
• Les documents sont caractérisés par des
combinaisons de valeurs :
– Documentaire + Théâtre  émission sur le théâtre
– Retransmission + Théâtre  diffusion d'une pièce
• Combinaisons impossibles :
– Documentaire et Reportage
– Retransmission et Téléfilm
• Usages :
– 0 à 4 genres + 1 ou plusieurs thématiques
Raphaël Troncy
09/04/2004
55
D’autres informations
• Des publics :
• Des rôles pour les personnes :
• journaliste, monteur, présentateur, interprète, chef d'orchestre
• Des descripteurs du signal :
• signal audio : ambiance, spectre auditif
• signal vidéo : texture, couleur
• Des descripteurs liés à la production :
• montage : vidéo (fondu, insert) et audio (parole, musique, bruit)
• tournage : prise de son, prise de vue (angle caméra, cadrage)
• post-production : incrustation, effets spéciaux
Raphaël Troncy
09/04/2004
56
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
•
Un exemple
de notice
Titre propre
FACTUEL ETAPE DU JOUR
Titre collection
STADE 2
Canal de diffusion
• 2 •
Date de diffusion
• 11.07.1999 •
Heure de diffusion
19.04.00
Durée
00:01:30
Thématique
SPORTS
Genre
MAGAZINES
Auteurs
JOU, FERNANDEZ MARTIAL
Descripteurs
FRANCE; MOSELLE; METZ; CYCLISME; COURSE CYCLISTE (TOUR DE
FRANCE); COUREUR CYCLISTE; ETAPE (8EME); COURSE CONTRE LA MONTRE
Résumé
Résumé de la 8ème étape du Tour de France, un contre la montre individuel autour de Metz
(56,5 km). LANCE ARMSTRONG (US Postal) l'a remporté et a ainsi revêtu le maillot jaune.
2ème : ALEX ZULLE (Banesto) ; 3ème : CHRISTOPHE MOREAU (Festina).
Séquences
Départ de LAURENT DUFAUX (Saeco).
Sur la route, JAAN KIRSIPUU (Casino) avec le maillot jaune.
LANCE ARMSTRONG en course + RAL. Il rejoint ABRAHAM OLANO (Once) parti 2 minutes avant lui
et le dépasse. L'Espagnol est de plus en plus distancé par l'Américain.
RAL visage ARMSTRONG en plein effort.
ALEX ZULLE (Banesto) en route.
Arrivée de CHRISTOPHE MOREAU.
RAL RICHARD VIRENQUE qui essaie d'écarter les voitures qui le gêne. Il tape sur le côté
d'une voiture qui s'arrête mais une autre voiture accélère au lieu de s'arrêter.
BOBBY JULICH (Cofidis) à terre après une chute / personnes autour de lui. Il abandonne le
Tour.
Sur le podium, LANCE ARMSTRONG revêt le maillot jaune.
Société de programmes
Nature de production
Producteurs
Type de date
Type notice (code)
Thèque
Raphaël Troncy
A2
PRODUCTION PROPRE
PRD, PARIS: FRANCE 2 (F2)
D
23
CA
09/04/2004
(1999)
57
Indexation automatique et
manuelle
• Développer une coopération :
– Conjuguer les différentes extractions automatiques
– Paramétrer les algorithmes d’extraction par les
connaissances contextuelles et l’objectif visé
– Préparer l’annotation manuelle par l’indexation
automatique
« fournir des fonctionnalités de navigation et de
parcours du document pour aller plus vite à
l’interprétation utile »
Raphaël Troncy
09/04/2004
58
Les apports mutuels
• Problème audiovisuel :
– Pas d’appréhension globale : pas de
possibilité de « feuilleter » le document
• Apport de l’indexation automatique :
– Des outils pour feuilleter le document AV
• Apport de l’annotation manuelle :
– Une signification associée au contenu
Raphaël Troncy
09/04/2004
59
Plan de l’exposé
• De l’analogique au numérique : de
nouvelles possibilités
• La création de descriptions de documents
audiovisuels
• La représentation et la manipulation de
ces descriptions : l’apport XML !
• Et demain … ?
Raphaël Troncy
09/04/2004
60
Génie documentaire
• Enjeux :
– Décrire la structure des documents et les
informations qu’ils contiennent
– Manipuler le contenu des documents à partir
des descriptions
Raphaël Troncy
09/04/2004
61
Génie documentaire
• Documents textuels
• Documents audiovisuels
– Enrichir le document
d’éléments
documentaires ajoutés
au sein même du
document
– Manipuler le document
décrit à travers sa
description
– Constituer une description,
séparée techniquement du
document décrit
– Manipuler la description et
le document décrit
séparément
SGML : la genèse
XML : un standard largement adopté
Raphaël Troncy
09/04/2004
62
XML : langage extensible de
marquage
• Un ensemble de balises nommées
• Chaque balise ouvrante a sa correspondante
fermante
• Un ensemble d’attributs / valeurs pour chaque
balise
• Des règles prescrivent l’ordre et l’emboîtement
des balises
 Les documents deviennent structurés
Raphaël Troncy
09/04/2004
63
Structure des balises
<T1>
du texte
<T2>
encore du texte
<\T2>
encore et toujours du
texte
<\T1>
Raphaël Troncy
• La structure prescrit
comment organiser les
balises entre elles :
celles-ci forment un arbre
• La structure est une
grammaire du document
• Le contrôle de cette
structure s’effectue avec
les DTDs (et maintenant
avec les schémas XML !)
09/04/2004
64
Terminologie des balises
<entête>
<titre> un titre <\titre>
<auteur> un auteur
<\auteur>
<\entête>
<corps>
<chapitre>
<section>
<paragraphe
contenu= "péroraison"
type = "pastiche">
du texte
<\paragraphe>
<\section>
<\chapitre>
Raphaël Troncy
• La grammaire du document
prescrit comment ordonner les
balises, mais pas ce qu ’elles
signifient
• Les balises sont des entités
linguistiques renvoyant à des
significations prescrites par la
langue :
– Recourir à la terminologie
pour fixer le choix et le sens
des labels
– Plusieurs terminologies sont
simultanément possibles
09/04/2004
65
L’audiovisuel
<titre> le titre </titre>
image
<morceau-anthologie>
<loctime> 14:00 -- 18:00 </loctime>
<titre> scène de la douche </titre>
</morceau-anthologie>
<auteur> toto </auteur>
<scène> c’est une scène
<loctime> 12: 43 -- 13:50 </loctime>
<objet-saillant> un objet
<locspace> x+d1:y+d2 </locspace>
</objet-saillant>
</scène>
Raphaël Troncy
09/04/2004
66
XML pour l’audiovisuel
• XML : un méta langage pour produire
d’autres langages
– Utiliser les DTD de XML pour proposer les
structures de description :
• Profiter des outils XML documentaires
– Utiliser XML pour définir un nouveau langage
documentaire permettant de déclarer les
structures que l’on veut
Raphaël Troncy
09/04/2004
67
La saga MPEG
• MPEG-1 et 2 :
– Normes de codage et compression du flux
• MPEG-4 :
– Norme permettant l’interactivité et le débit variable
• MPEG-7 :
– Norme portant sur la description du contenu
audiovisuel et multimédia
• MPEG-21 :
– Norme portant sur la description des données
juridiques
Raphaël Troncy
09/04/2004
68
MPEG-1 & 2
• Normes définissant un encodage correspondant
à une compression du signal
• L’unité de manipulation définie sur l’image est le
pixel :
– L’unité est asémantique : la nature physique du pixel
est arbitraire par rapport à une signification associée
à l’image et au flux
– Le codage fait appel à des vecteurs « mouvements »
qui ne correspondent pas à un mouvement
« sémantique » sur l’image
Raphaël Troncy
09/04/2004
69
MPEG-4
• Norme finalisée récemment :
– Mobilisation du monde industriel
• Concept de base: objet audiovisuel
– Le flux est composé d’objets audiovisuels dont on spécifie les
relations spatio-temporelles
– On peut mélanger des objets de codage et d’origine différente :
• Images naturelles et images de synthèse
• Associer des actions possibles à un objet
• Associer des descriptions à un objet
– L’objet possède un sens correspondant aux relations qu’il
entretient avec les autres objets et aux actions et descriptions qui
lui sont associées
• L’objet peut avoir un sens ou un contenu sémantique : il ne l’a pas
forcément, mais ce n’est pas exclu comme pour le pixel
Raphaël Troncy
09/04/2004
70
MPEG-7: Multimedia Content
Description Interface
• Contenu audiovisuel : photos, vidéos, paroles, audio,
graphiques, modèles 3D, audio synthétique.
• MPEG-7 est destiné à l’identification des contenus, plutôt
qu’à la reproduction (MPEG-1,2,4) :
– Une description MPEG-7 peut vivre indépendamment du contenu décrit
– La description MPEG-7 est indépendante du codage/format du contenu
• MPEG-7 veut enrichir la description textuelle des
contenus par:
– Des approches permettant l’indexation automatique
– Des approches permettant d’enrichir une description textuelle
d’éléments perceptifs liés au « contenu »
Raphaël Troncy
09/04/2004
71
MPEG-7, le nouveau langage de
description multimédia ?
• Standard ISO depuis
décembre 2001
• Éléments principaux :
– Descripteurs (Ds)
et Schémas de
Description (DSs)
– DDL (XML
Schema +
extensions)
• Concerne tous types
de média
Raphaël Troncy
Collections
Content organization
Models
Navigation &
Access
Creation &
Production
User
interaction
User
Preferences
Summaries
Media
Usage
Content management
Views
User
History
Content description
Structural
aspects
Semantic
aspects
Variations
Basic elements
Schema
Tools
Basic
datatypes
Links & media
localization
Basic
Tools
Part 5 - MDS
09/04/2004
72
Structure et sémantique (1/2)
• Structure
• Unité de base : le segment
- bornes temporelles ou masque
• Décomposition possible
Raphaël Troncy
09/04/2004
73
Structure et sémantique (2/2)
• Sémantique
– entités
– attributs
– relations
No AbstractionLevel
Object
Properties
Event
Object
Object
• Classification
Schemes (CS)
Properties
Event
AbstrationLevel = 0
Object
– relations
thésauriques
Raphaël Troncy
Media
abstraction
09/04/2004
74
Exemple (1/3)
Bleu
Cut
T. L’hermitte
Cut Tour Eiffel Cut Contraste
Mouvement
« indien dans la ville »
Raphaël Troncy
09/04/2004
75
Exemple (2/3)
T. L’hermitte
<Person>
<Name xml:lang="en">
<GivenName>Thierry</GivenName>
<FamilyName>L’hermitte</FamilyName>
</Name>
<Affiliation>
<Organization>
<Name>Independent cinema company</Name>
</Organization>
</Affiliation>
</Person>
Raphaël Troncy
09/04/2004
76
Exemple (3/3)
Motion
<Segment xsi:type="MovingRegionType">
<TextAnnotation>
<FreeTextAnnotation xml:lang="en">Person</FreeTextAnnotation>
</TextAnnotation>
<MediaTime>
<MediaTimePoint> 00:00:15 </MediaTimePoint>
<MediaDuration> 00:00:30 </MediaDuration>
</MediaTime>
<ParametricObjectMotion model="Translational">
…
</ParametricObjectMotion>
</Segment>
Raphaël Troncy
09/04/2004
77
Description sémantique
“Piano’s weight: 100 kg”
“Carnegie Hall”
“7-8pm, Oct. 14, 1998”
SemanticState DS
SemanticTime DS
SemanticPlace DS
time
location
state
state change
Event DS
Object DS
PersonObject DS
describes
describes
Concept DS
describes
describes
“Tom Daniels”
“Tom’s tutor”
“piano”
“play”
musician
harmony
abstraction,
non-perceivable
Raphaël Troncy
interpretation,
perceivable
interpretation,
non-perceivable
09/04/2004
Narrative World
78
Découpage d’un JT
Raphaël Troncy
09/04/2004
79
Plan de l’exposé
• De l’analogique au numérique : de
nouvelles possibilités
• La création de descriptions de documents
audiovisuels
• La représentation et la manipulation de
ces descriptions
• Et demain … ?
Raphaël Troncy
09/04/2004
80
Enjeux technologiques
• Possibilité d’analyse automatique, ou semiautomatique
• Outil de maintien de la cohérence sémantique,
la machine a accès au sens des descriptions
• Possibilité de raisonnement « intelligent » sur
les descriptions
• Mise au point d’une chaîne d’indexation et de
manipulation des contenus prenant en compte
tous ces éléments !
Raphaël Troncy
09/04/2004
81
Enjeux professionnels
• La chaîne d’indexation et d’exploitation des
contenus AV change
• Renforcement du rôle des documentalistes :
– Moins d’indexation automatique
– Plus de travail documentaire relié à une exploitation
– Exemple : offrir des corpus thématiques
• Rôle des documentalistes vis-à-vis des autres
métiers impliqués …
Raphaël Troncy
09/04/2004
82