5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial 24 Janvier 2008 Gautier Poupeau, Unilog Management [email protected].

Download Report

Transcript 5 à 7 ADBS La DTD TEI : principes et fonctionnement pour la création de contenu éditorial 24 Janvier 2008 Gautier Poupeau, Unilog Management [email protected].

5 à 7 ADBS
La DTD TEI : principes et fonctionnement
pour la création de contenu éditorial
24 Janvier 2008
Gautier Poupeau, Unilog Management
[email protected]
Introduction
La DTD TEI :
Le Le
framework
schéma
principes et fonctionnement
pour la création de contenu éditorial
24/01/2008
№2
Introduction : essai de définition
La TEI (Text encoding initiative) est un framework/cadre de description
pour créer des schémas/grammaires utilisés pour encoder des textes de
nature très diverse en vue de leur :
• échange ;
• exploitation, c’est-à-dire :
• les publier
• y effectuer des recherches
• les traiter
24/01/2008
№3
Qu’est-ce-qu’un texte ?
Un texte est la représentation sur un support d’une construction logique de
phrases formant une unité.
Un texte comprend différents éléments plus ou moins implicites que le lecteur prend
compte dans le processus de lecture pour le comprendre et l’appréhender :
• un support
• un contexte
• une présentation
• une structure
24/01/2008
№4
Qu’est-ce-que l’encodage ?
L’encodage ou le balisage consiste à rendre explicite l’ensemble des
caractéristiques et phénomènes d’un texte en vue de leur exploitation par
les machines.
L’encodage permet :
• la caractérisation de parties d’un texte de manière formalisée ;
• la mise en lumière de la structure logique et hiérarchique d’un texte.
L’encodage facilite la réutilisation du texte dans différents contextes par
différents utilisateurs.
24/01/2008
№5
XML : une syntaxe pour encoder les textes
XML (eXtensible Markup Language) est un langages à balises issu de SGML.
Exemple :
<etatcivil id="1">
<nomdefamille>Poupeau</nomdefamille>
<prenom>Gautier</prenom>
<datedenaissance>1980/05/19</datedenaissance>
</etatcivil>
Des éléments ou balises complétés par des attributs s’emboîtent pour mettre en
lumière la structure d’un texte.
Le fichier XML forme un arbre avec une racine et des nœuds.
Chaque élément précise le rôle ou la caractéristique tenu par la portion d’informations
entourée dans le contexte du texte.
24/01/2008
№6
Avantages de XML
 XML est une recommandation du W3C
 XML est indépendant d’un logiciel, d’un éditeur,
d’une plate-forme, d’un système d’exploitation
 XML n’est pas un format binaire, aucun logiciel
particulier n’est requis pour lire du XML
 XML est relativement facile à utiliser
 De plus en plus d’applications supportent le XML
 XML est extensible
 …..Mais XML est extensible !!
24/01/2008
№7
Permettre l’interopérabilité : les schémas XML
Un schéma permet de déterminer le nom des éléments et des
attributs, leurs significations et leurs règles d’utilisation. Un
schéma peut être comparé à une grammaire.
Trois langages pour décrire un schéma :
• DTD (Document type definition) issu pour SGML
• XML schema (XSD), recommandation du W3C
• Relax NG, norme OASIS et ISO
24/01/2008
№8
Les problèmes de XML et des schémas XML
 Les schémas sont majoritairement spécialisés et limités à un type de textes :
• EAD pour les inventaires d’archives
• Docbook pour la documentation technique
• XHTML pour les pages Web
 Les schémas peuvent s’avérer incomplet pour encoder certains besoins
particuliers.
 Les schémas évoluent et peuvent perdre la compatibilité descendante.
 L’utilisation d’un même schéma peut différer d’un utilisateur à un autre ce qui
n’est pas forcément documenté.
 Les schémas sont définis suivant un des trois langages (DTD, XML schema,
Relax NG)
 Construire un schéma est un travail complexe, long et fastidieux et n’a de sens
que dans la mesure où il est partagé par une large communauté.
 Les schémas existants ne permettent pas d’encoder à la fois la structure logique
et la structure physique d’un texte.
 La syntaxe XML est-elle pérenne ? Qu’en est-il de JSON, par exemple ?
24/01/2008
№9
L’approche de la TEI
 Une communauté partageant les mêmes buts et objets
d’études détermine les besoins d’encodage liés à leur
discipline. Elle établit un compromis sur les éléments et leurs
règles d’utilisation.
 La consolidation des éléments déterminés par les
différentes communautés constitue un guide qui s’attache à
repérer, organiser, définir et normaliser les différentes
informations/éléments d’un texte : guidelines for Electronic
Text encoding and interchange (aujourd’hui la 5ème version
dite P5).
 Une application est mise à disposition pour construire son
schéma personnalisée à partir des guidelines.
24/01/2008
№10
Conséquences de l’approche de la TEI
 La syntaxe XML n’est qu’un moyen d’encoder un
texte suivant la TEI (sous-entendu les guidelines).
 La TEI est indépendante du langage de définition
du schéma XML (DTD, XML schema, Relax NG).
Conclusion : le schéma n’est qu’une conséquence
 La du
TEI
ne se limite pas à un type de textes et, de
guidelines.
parUn
satexte
maturité
(20enans),
répond
à l’ensemble
des
encodé
TEI est
validé selon
un schéma
besoins
des chercheurs
humaines et
qui respecte
le guidelinesen
desciences
la TEI.
même plus.
 La TEI comprend 450 éléments !!
 Et la TEI est extensible…
24/01/2008
№11
Le consortium TEI
Pour maintenir, développer et faire connaître la TEI, une fondation à but non lucrative a été
fondée en 1999.
Elle est basée à :
• Oxford University
• Brown University
• University of Virginia
• LORIA/ATILF/INIST (Nancy)
Deux instances composent le TEI Consortium :
• TEI council, chargé des développements du guidelines ;
• TEI board, chargé de gérer le consortium.
Deux éditeurs sont chargés de mettre au point et consolider le guidelines :
• Lou Burnard, Oxford University
• Syd Bauman, Brown University
Toutes les institutions ou personnes peuvent adhérer au consortium pour supporter la TEI. Le
consortium organise une fois par an une réunion rassemblant les membres, occasion pour
présenter les projets, les nouveaux développements et rencontrer les différents acteurs de la
TEI.
24/01/2008
№12
Organisation de la TEI : les modules (1)
Les 450 éléments de la TEI sont réparties en 21 chapitres qui décrivent et définissent
un ensemble cohérent d’éléments, appelé module.
Nom du module
Identification
Exemples
Analysis
Analyse et interprétation
<c>, <w>, <m>
Certainty
Certitude et incertitude
<certainty>
Core
Eléments communs à tous les textes
<bibl>, <hi>, <list>, <item>, <p>, <note>, <l>,
<lb/>, <pb/>
Corpus
Métadonnées pour les corpus linguistiques
<textDesc>
Dictionaries
Dictionnaires imprimés
<entry>, <etym>, <def>
Drama
Texte dramatique
<role>, <castList>, <actor>
Figures
Tableaux, formules et images
<figure>, <table>, <row>, <cell>
Gaiji
Documentation des caractères et des glyphes
<char>, <g>
Header
Métadonnées communes
<teiHeader>, <titleStmt>, <seriesStmt>
iso-fs
Analyse des traits structurelles
Linking
Lien, segmentation et alignement
24/01/2008
<link>, <seg>
№13
Organisation de la TEI : les modules (2)
Nom du module
Identification
Exemples
Msdescription
Description des manuscrits
<msDescription>, <bindingDesc>, <filiation>
Namesdates
Noms, dates, personnes et lieux
<persName>, <date>, <geogName>, <orgName>
Nets
Graphes, réseaux et arbres
<root>, <tree>
Spoken
Transcription de corpus oraux
<incident>, <pause>, <u>
Tagdocs
Documentation des éléments (de la TEI)
Tei
Infrastructure de la TEI
<tei>, <teicorpus>
Textcrit
Apparat critique
<listWit>, <witness>, <app>, <rdg>
Textstructure
Structure par défaut des textes
<text>, <front>, <body>, <back>, <div>
Transcr
Transcription des sources primaires
<damage>, <handShift>, <restore>
Verse
Texte versifié
<rhyme>, <caesura>
En fonction du texte encodé, l’utilisateur choisit les modules qui lui sont utiles pour
construire son schéma. Seul le module tei est obligatoire.
Mais il faut au minimum les modules tei, core, header et textstructure pour encoder
un texte simple.
24/01/2008
№14
Organisation de la TEI : les classes
En plus de l’organisation sous formes de modules, les différentes éléments de la
TEI sont réparties dans des classes. Elles déterminent :
• Les attributs partagés par un ensemble d’éléments ;
• Le comportement de l’élément, c’est-à-dire l’endroit où il peut être placé.
Les éléments héritent des règles attribuées à leur classe ou à leur super-classe.
Un élément peut appartenir à une ou plusieurs classes.
L’utilisation des classes n’est pas requise pour mettre au point un schéma simple.
24/01/2008
№15
Organisation de la TEI : un exemple pour les classes
d’éléments
<body>
<div>
<lem>
model.common
model.inter
<figure>
<table>
<cit>
<sourceDesc>
model.listLike
model.pLike
<listBibl>
<p>
<ab>
model.bibLike
<bibl>
24/01/2008
№16
Organisation de la TEI : un exemple pour les classes
d’attributs
@xml:id
@xml:lang
att.global
@xml:base
@n
@rend
<bibl>
@rendition
att.type
@type
@subtype
att.declarable
24/01/2008
@default
№17
ODD (One document does it all) (1)
Pour définir un schéma XML à partir du guidelines de la TEI, un format, appelé ODD,
a été mis au point.
Un fichier ODD est un document XML dérivé de la TEI qui permet de déterminer :
• les modules utilisés ;
• le comportement d’un élément, c’est-à-dire changer sa ou ses classes
Il offre aussi la possibilité d’aller plus loin dans la personnalisation :
• changer le nom d’un élément ;
• déterminer les éléments utilisés ou non dans un module ;
• ajouter un attribut et le rattacher à une classe ;
• ajouter un nouvel élément en le reliant à une classe, un module et/ou même un
élément ;
• contraindre la valeur d’un élément ou d’un attribut ;
• documenter l’utilisation d’un élément existant ou ajouté, c’est-à-dire son propre
guide de balisage
24/01/2008
№18
ODD (One document does it all) (2)
ODD permet donc de construire son propre schéma issu de la TEI adapté à vos
besoins précis.
Tous les changements par rapport à la « TEI canonique », c'est à dire les éléments
et les attributs, leurs noms, leurs comportements et leurs sémantiques, seront
indiqués dans ce fichier ODD.
24/01/2008
№19
Roma : une interface Web pour construire son schéma
Roma est une interface Web mis au point par le consortium qui permet de construire
son fichier ODD, et donc son schéma suivant le guidelines de la TEI.
http://tei.oucs.ox.ac.uk/Roma/
24/01/2008
№20
Roma : page d’accueil
24/01/2008
№21
Roma : les schémas prédéterminés
24/01/2008
№22
Roma : les métadonnées de la personnalisation
24/01/2008
№23
Roma : interface en français
24/01/2008
№24
Roma : choisir la langue des éléments et de la
documentation
24/01/2008
№25
Roma : choix des modules
24/01/2008
№26
Roma : Module ajouté
24/01/2008
№27
Roma : Description du module
24/01/2008
№28
Roma : ajouter un élément
24/01/2008
№29
Roma : modification des classes d’attributs
24/01/2008
№30
Roma : sanity checker
24/01/2008
№31
Roma : génération de la documentation
24/01/2008
№32
Roma : génération du schéma
24/01/2008
№33
Roma : sauver votre personnalisation sous forme de
fichier ODD
24/01/2008
№34
Un exemple pas à pas d’utilisation de la TEI
Je souhaite encoder des textes simples du type rapport, article, monographies…
24/01/2008
№35
Qu’est-ce-qu’on encode ?
Extensibilité de XML est infinie : d'une partie à une
lettre à l'intérieur d'un mot
• Il est essentiel de faire des choix, car il est impossible de tout encoder.
• Il faut déterminer toutes les informations possibles qu’il est utile,
souhaitable d’encoder
Questions essentielles :
•
•
•
•
•
Pourquoi encoder ce document ?
A quoi va servir l'encodage ?
Quelles informations sont utiles par rapport au but poursuivi ?
Quelle est la nature du document ?
Comment fonctionne-t-il ?
24/01/2008
№36
Les macro-structures
Les éléments de structure générale d’un fichier TEI
• <tei>, <teiHeader>, <text>
 Les éléments qui composent le texte
• <front>, <body>, <back>
 L’élément « magique » de structuration du texte
• <div>
24/01/2008
№37
Les micro-structures
Les éléments d’un texte
•
•
•
•
•
•
•
Les mises en valeur : <hi></hi>
Les images : <figure><figDesc></figDesc><graphic/></figure>
Les citations : <q></q> ou <quote></quote>
Les notes : <note></note>
Les mots étrangers : <foreign></foreign>
Les listes : <list><item></item></list>
Les tableaux : <table><row><cell></cell></row></table>
 Les éléments de la bibliographie
• Une bibliographie : <listBibl>
• La référence bibliographique : <bibl>
• Les éléments de la référence bibliographiques : <author>, <bibl>,
<biblScope>, <publisher>
24/01/2008
№38
Utilisation de Roma pour construire mon schéma
24/01/2008
№39
La structure générale d’un fichier TEI
<TEI>
<teiHeader>
<fileDesc>
<titleStmt><title>Le titre</title></titleStmt>
<publicationStmt><p>Éditeur</p></publicationStmt>
<sourceDesc><p>Source du fichier numérique</p></sourceDesc>
</fileDesc>
</teiHeader>
<text>
<front></front>
<body>
<div></div> (la balise magique !!)
<div type="partie">
<p>
Mon texte avec une <hi rend=“italic”>emphase</hi>.
</p>
</div>
</body>
<back></back>
</text>
</TEI>
18/12/2006
№40
Exemple d’une référence bibliographique
<bibl>
<author>Gautier Poupeau</author>, <title level="a">L'édition électronique de
sources historiques. Nouvelles approches de l'indexation</title>, dans
<title level="m">Indexer les <foreign>exempla</foreign> médiévaux</title>
sous la direction de Marie-Anne Polo de Beaulieu, <title level="j">Cahier du
centre de recherches historiques</title>, n° 35, avril 2005, <biblScope
type="page">pp. 71-78</biblScope>
</bibl>
18/12/2006
№41
Exemples d’utilisation de la TEI
 La plateforme Cyberdocs utilisée pour la mise en ligne des
thèses, par exemple : Université de Lyon 2
 Un exemple d’édition critique accompagné de la
numérisation de l’original : Le cartulaire de Nesle
 Autre exemples d’édition critique : Les comptes des consuls
de Montferrand ou les chroniques latines de Saint-Denis
 Un exemple de numérisation en mode texte : les cartulaires
numérisés d’Ile-de-France
 Un répertoire de manuscrits : le Miroir des classiques
 Une plate-forme de publication et de traitement de textes
encodés en XML : Telma
24/01/2008
№42
Des questions ???
Merci pour votre attention !!
Des questions ?
24/01/2008
№43