LOGIQUE FLOUE

Download Report

Transcript LOGIQUE FLOUE

Transcription, annotation et indexation de manuscrits anciens

Sylvie Calabretto [email protected]

LIRIS - INSA DE LYON

Journée Connaissances et Document - 6 octobre 2003

Le projet européen BAMBI

   BAMBI : Better Access to Manuscripts and Browsing of Images (Programme Libraries) Composition du consortium : » » » ACTA S.p.A (Italie) Biblioteca Nazionale Centrale di Roma (Italie) Comitato Nazionale delle Ricerche - Istituto di Linguistica Computazionale di Pisa (Italie) » » » Consorzio Pisa Ricerche (Italie) Max Planck Institut für Rechtsgeschichte (Allemagne) LISI (France)

Objectifs

     Consultation de manuscrits par un plus large public Préservation des manuscrits Meilleure lisibilité des textes Informations précises et outils de recherche pour les chercheurs en Histoire des Textes Possibilité de partager des annotations

La station philologique

La station permet de :

 Visualiser une haute l’image d’un document source (un manuscrit) avec résolution,  transcrire, annoter et indexer le texte contenu dans les images,  visualiser la transcription et adjacente l’index dans une fenêtre à celle du document source,  faire correspondre automatiquement chaque mot de la transcription avec la portion de l’image source dans lequel le mot est trouvé, » exporter des information sur les manuscrits au format SGML/HyTime

La station BAMBI

Città Segnatura ms Supporto Data Consistenza Tipologia Scrittura Intestazione: Autore Titolo Incipit

Méta-données

Segnatura microfilm Marca pellicola Passo N °fotogrammi Data riproduzione Note Fotogrammi globali Cod. MS

Session de Recherche

 Recherche multi critères » par métadonnées • auteur, date, bibliothèque, ...

» par mots clés

Aide à la transcription

 Transcription = processus visant à noter la prononciation d’une langue donnée à l’aide d’un système de signes d’une langue de conversion » abréviations syllabiques (« It » pour Item) » abréviations par suspension (« ac. » pour Accurcius) » utilisation de signes spéciaux ( pour « et »)

Indexation : Index verborum et Index locorum

Annotations

 Deux types d’annotation : » les commentaires libres (fond), » les variantes de textes (synonymes ou corrections de syntaxe) (forme).

Correspondance mot/image

Correction manuelle

Le filtre SGML/HyTime

 Exporter les informations relatives à une page de manuscrit au format SGML.

» SGML est une Norme Internationale » elle assure la pérennité de l’information » elle assure l’indépendance des informations par rapport aux logiciels et aux matériels » elle permet la génération d ’une application BAMBI Web (information exchange through INTERNET)

La DTD BAMBI

 Les informations à modéliser : » Description du manuscrit (titre, auteur, bibliothèque, ...) » Les bookmarks » Liens entre chaque mot de la transcription et le mot correspondant dans l’image

La DTD BAMBI (1/3)

ELEMENTS

MIN

Languages,Handwriting,Bookmark*)

>

(#PCDATA) (#PCDATA) (#PCDATA) (#PCDATA) (#PCDATA) (#PCDATA)

(#PCDATA) >

> > > > > > > > > > > >

La DTD BAMBI (2/3)

> >

>

(#PCDATA) - (#PCDATA) CDATA #REQUIRED NumLine - (#PCDATA) CDATA #REQUIRED Police - (#PCDATA|Mots*) CDATA #IMPLIED

>

> > > > > > > >

La DTD BAMBI (3/3)

MAP1 MAP2 MAP3 MAP4 MAP5 " " " " " " " " " " "," "," "," ")" "(" CoorMots MAP2 MAP3 MAP4 MAP5 MAP1 > > > > > > > > > > >

Description de manuscrit

(Instanciation de DTD)

Mario Diario del viaggio in Terra Santa 1559 Luca da Gubbio 1 Unknown Cartaceo Sec. XVI 2° Meta CC 98 8 Diario del viaggio in Terra Santa 1559 : c4r Diario del viaggio in Terra Santa 1559 : c5r

Liens entre parties d’image et partie de texte

c4r

I(tem)

...............

Architecture BAMBI

SGML and Hytime Documents

BAMBI Application SGML Parser

Hyperdocument

BAMBI DTD

BAMBI Database HyTime Engine HyTime Application

Application HyTime

L’après BAMBI

» Projet SyDoM (Système Documentaire Multilingue) •

1 thèse (+ 1 en octobre), 2 stagiaires CNAM

» l Projet STEMA (Station de Travail pour ’Etude des Manuscrits Anciens sur le Web) •

Programmes d’Actions Intégrés (P.A.I) MAE-MENRT Galilée 99, projet franco-italien entre le LISI et le CNR Pise

 Projet DiPhiloS •

Ministero per i Beni e le Attività Culturali

Le projet SyDoM

 Objectif :  » Méthode d’indexation sémantique et de recherche de documents multilingues Propositions : » Un nouveau modèle de graphes pour représenter les documents et les requêtes » Définition d'un nouveau thésaurus » Définition d’un nouvel opérateur de projection

Prototype SyDoM

Niveau conceptuel

Ensemble des types de concepts T t c1 t c2 observation permettant de contrôler les données et les conditions étudiées Ensemble des types de relations T 2 t r1 t r2 t c1.1

t c1.2

t c1.2.1

t c2.1

machine qui transforme une forme d’énergie en énergie mécanique Relation de spécialisation

Ensemble des types de concepts

Niveau terminologique

Ensemble des vocabulaires T t c1 t c2 t c1.1

t c1.2

t c2.1

t c1.2.1

Engine Experimentation Expérimentation Moteur Vocabulaire anglais Vocabulaire français

Les Graphes Sémantiques

t c1.1

Personne 2 2 Un type de concept

tr 1

1 tc2.1

1 Un arc

tr 2

2

Un terme label d’un type de concept agent

1 Expérimentation 1

patien t

2 t c1.2

Moteur « Tom réalise une expérimentation sur un moteur »

Prototype SyDoM

Perspectives

 BAMBI/DiPhiloS en open source  Module de traitement d’image à réécrire  Module d’indexation sémantique multilingue à intégrer

Publications

BONNATERRE O., BOZZI A., CALABRETTO S. and al.,

Better Access to Manuscripts and Browsing of Images : Aims and results of an European Research project in the field of digital Libraries BAMBI Lib-3114.

CLUEB (Bologne), 1997, 176 pages, ISBN N ° 88-8091-569-X.

CALABRETTO S., PINON J.M., BOZZI A.

BAMBI : Système de Gestion de Manuscrits Anciens pour Historiens.

Revue Document Numérique

. Ed. HERMES, Volume 2, n ° 3-4, Numéro spécial sur les Bibliothèques Numériques, 1998. pp. 31-50. ISBN 2-86601-738-2, ISSN 1279-5127 CALABRETTO S., BOZZI A.

The Philological Workstation BAMBI (Better Access to Manuscripts and Browsing of Images)

.

International Journal of Digital Libraries. 1998. Volume 1, Issue 3

http://jodi.ecs.soton.ac.uk/Articles/v01/i03/Calabretto/

Publications

BOZZI A., CALABRETTO S.

Digital Library and Computational Philology : the BAMBI (LIB -3114) project.

Proceedings of the First European Conference on Research and Advanced Technology for Digital Libraries. Lecture Notes in Computer Science N °1324 (Springer Verlag).

Eds. C. Peters and C. Thanos. Pisa, Italie. September 1-3, 1997. pp. 269-285. ISBN 3-540 63554-8 CALABRETTO S., PINON J.M.

Modelling of a medieval manuscript database with HyTime.

In:

Proceedings of ICCC/IFIP Conference on Electronic Publishing : EP'97

. New Models and Opportunities. The University of Kent at Canterbury, Great Britain. April 14-16, 1997. Edited by Fytton Rowland and Jack Meadows. ICCC Press, Washington, pp. 336-345. ISBN 1 891365-00-2 PINON J.M., CALABRETTO S., BOZZI A.

Numérisation des manuscrits médiévaux : le projet européen BAMBI.

In :

Colloque du Centre Jacques Cartier

. Vers une nouvelle érudition. Numérisation et recherche en histoire du livre. Lyon, 6 7 décembre 1999