Transcript LOGIQUE FLOUE
Transcription, annotation et indexation de manuscrits anciens
Sylvie Calabretto [email protected]
LIRIS - INSA DE LYON
Journée Connaissances et Document - 6 octobre 2003
Le projet européen BAMBI
BAMBI : Better Access to Manuscripts and Browsing of Images (Programme Libraries) Composition du consortium : » » » ACTA S.p.A (Italie) Biblioteca Nazionale Centrale di Roma (Italie) Comitato Nazionale delle Ricerche - Istituto di Linguistica Computazionale di Pisa (Italie) » » » Consorzio Pisa Ricerche (Italie) Max Planck Institut für Rechtsgeschichte (Allemagne) LISI (France)
Objectifs
Consultation de manuscrits par un plus large public Préservation des manuscrits Meilleure lisibilité des textes Informations précises et outils de recherche pour les chercheurs en Histoire des Textes Possibilité de partager des annotations
La station philologique
La station permet de :
Visualiser une haute l’image d’un document source (un manuscrit) avec résolution, transcrire, annoter et indexer le texte contenu dans les images, visualiser la transcription et adjacente l’index dans une fenêtre à celle du document source, faire correspondre automatiquement chaque mot de la transcription avec la portion de l’image source dans lequel le mot est trouvé, » exporter des information sur les manuscrits au format SGML/HyTime
La station BAMBI
Città Segnatura ms Supporto Data Consistenza Tipologia Scrittura Intestazione: Autore Titolo Incipit
Méta-données
Segnatura microfilm Marca pellicola Passo N °fotogrammi Data riproduzione Note Fotogrammi globali Cod. MS
Session de Recherche
Recherche multi critères » par métadonnées • auteur, date, bibliothèque, ...
» par mots clés
Aide à la transcription
Transcription = processus visant à noter la prononciation d’une langue donnée à l’aide d’un système de signes d’une langue de conversion » abréviations syllabiques (« It » pour Item) » abréviations par suspension (« ac. » pour Accurcius) » utilisation de signes spéciaux ( pour « et »)
Indexation : Index verborum et Index locorum
Annotations
Deux types d’annotation : » les commentaires libres (fond), » les variantes de textes (synonymes ou corrections de syntaxe) (forme).
Correspondance mot/image
Correction manuelle
Le filtre SGML/HyTime
Exporter les informations relatives à une page de manuscrit au format SGML.
» SGML est une Norme Internationale » elle assure la pérennité de l’information » elle assure l’indépendance des informations par rapport aux logiciels et aux matériels » elle permet la génération d ’une application BAMBI Web (information exchange through INTERNET)
La DTD BAMBI
Les informations à modéliser : » Description du manuscrit (titre, auteur, bibliothèque, ...) » Les bookmarks » Liens entre chaque mot de la transcription et le mot correspondant dans l’image
La DTD BAMBI (1/3)
ELEMENTS
MIN
Languages,Handwriting,Bookmark*)
>
(#PCDATA) (#PCDATA) (#PCDATA) (#PCDATA) (#PCDATA) (#PCDATA)
(#PCDATA) >
> > > > > > > > > > > >
La DTD BAMBI (2/3)
> >
>
(#PCDATA) - (#PCDATA) CDATA #REQUIRED NumLine - (#PCDATA) CDATA #REQUIRED Police - (#PCDATA|Mots*) CDATA #IMPLIED
>
> > > > > > > >
La DTD BAMBI (3/3)
MAP1 MAP2 MAP3 MAP4 MAP5 "
Description de manuscrit
(Instanciation de DTD)
Liens entre parties d’image et partie de texte
I(tem)
...............
Architecture BAMBI
SGML and Hytime Documents
BAMBI Application SGML Parser
Hyperdocument
BAMBI DTD
BAMBI Database HyTime Engine HyTime Application
Application HyTime
L’après BAMBI
» Projet SyDoM (Système Documentaire Multilingue) •
1 thèse (+ 1 en octobre), 2 stagiaires CNAM
» l Projet STEMA (Station de Travail pour ’Etude des Manuscrits Anciens sur le Web) •
Programmes d’Actions Intégrés (P.A.I) MAE-MENRT Galilée 99, projet franco-italien entre le LISI et le CNR Pise
Projet DiPhiloS •
Ministero per i Beni e le Attività Culturali
Le projet SyDoM
Objectif : » Méthode d’indexation sémantique et de recherche de documents multilingues Propositions : » Un nouveau modèle de graphes pour représenter les documents et les requêtes » Définition d'un nouveau thésaurus » Définition d’un nouvel opérateur de projection
Prototype SyDoM
Niveau conceptuel
Ensemble des types de concepts T t c1 t c2 observation permettant de contrôler les données et les conditions étudiées Ensemble des types de relations T 2 t r1 t r2 t c1.1
t c1.2
t c1.2.1
t c2.1
machine qui transforme une forme d’énergie en énergie mécanique Relation de spécialisation
Ensemble des types de concepts
Niveau terminologique
Ensemble des vocabulaires T t c1 t c2 t c1.1
t c1.2
t c2.1
t c1.2.1
Engine Experimentation Expérimentation Moteur Vocabulaire anglais Vocabulaire français
Les Graphes Sémantiques
t c1.1
Personne 2 2 Un type de concept
tr 1
1 tc2.1
1 Un arc
tr 2
2
Un terme label d’un type de concept agent
1 Expérimentation 1
patien t
2 t c1.2
Moteur « Tom réalise une expérimentation sur un moteur »
Prototype SyDoM
Perspectives
BAMBI/DiPhiloS en open source Module de traitement d’image à réécrire Module d’indexation sémantique multilingue à intégrer
Publications
BONNATERRE O., BOZZI A., CALABRETTO S. and al.,
Better Access to Manuscripts and Browsing of Images : Aims and results of an European Research project in the field of digital Libraries BAMBI Lib-3114.
CLUEB (Bologne), 1997, 176 pages, ISBN N ° 88-8091-569-X.
CALABRETTO S., PINON J.M., BOZZI A.
BAMBI : Système de Gestion de Manuscrits Anciens pour Historiens.
Revue Document Numérique
. Ed. HERMES, Volume 2, n ° 3-4, Numéro spécial sur les Bibliothèques Numériques, 1998. pp. 31-50. ISBN 2-86601-738-2, ISSN 1279-5127 CALABRETTO S., BOZZI A.
The Philological Workstation BAMBI (Better Access to Manuscripts and Browsing of Images)
.
International Journal of Digital Libraries. 1998. Volume 1, Issue 3
http://jodi.ecs.soton.ac.uk/Articles/v01/i03/Calabretto/
Publications
BOZZI A., CALABRETTO S.
Digital Library and Computational Philology : the BAMBI (LIB -3114) project.
Proceedings of the First European Conference on Research and Advanced Technology for Digital Libraries. Lecture Notes in Computer Science N °1324 (Springer Verlag).
Eds. C. Peters and C. Thanos. Pisa, Italie. September 1-3, 1997. pp. 269-285. ISBN 3-540 63554-8 CALABRETTO S., PINON J.M.
Modelling of a medieval manuscript database with HyTime.
In:
Proceedings of ICCC/IFIP Conference on Electronic Publishing : EP'97
. New Models and Opportunities. The University of Kent at Canterbury, Great Britain. April 14-16, 1997. Edited by Fytton Rowland and Jack Meadows. ICCC Press, Washington, pp. 336-345. ISBN 1 891365-00-2 PINON J.M., CALABRETTO S., BOZZI A.
Numérisation des manuscrits médiévaux : le projet européen BAMBI.
In :
Colloque du Centre Jacques Cartier
. Vers une nouvelle érudition. Numérisation et recherche en histoire du livre. Lyon, 6 7 décembre 1999