TEI Paris Sept 1996

Download Report

Transcript TEI Paris Sept 1996

XML + TEI: un marriage fait
aux cieux?
Comment utiliser aujourd'hui la Text
Encoding Initiative pour structurer les
documents en lettres et sciences
humaines
Lou Burnard
Oxford University
Computing Services
Pourquoi numeriser un texte?
• Pour remplacer ou pour enrichir un texte
écrit?
• Pour aider la recherche, la formation, ou
l'enseignement?
• Pour quel public?
• Pour faire quelque chose de nouveau, ou
des choses anciennes d'une manière plus
efficace?
Lyon, 2001
2
Du point de vue academique, la
numerisation offre…
• L'integration des ressources diverses
– textes, commentaires, sources, variations…
– multimédia, manuscrits, transcriptions, metadata…
• La preservation des ressources
– Les media s'envolent, les données restent
– "multiplication beyond the reach of accident"
• Un vaste élargissement d'accessibilité des
ressources
– quantitative
– qualitatitive
Lyon, 2001
3
De point de vue informatique, la
numerisation offre…
• Toute une gamme de problemes techniques
• une raison d’ être: la conservation du
patrimoine et de la culture contemporaine
• des outils bien compris et pratiques
– la semiotique
– le linguistique
– l'encodage
Lyon, 2001
4
Ressources
encodage
modele
abstraite
ressources
numerises
analyses
Il etait une fois, il
y a longtemps,
dans une galaxie
lointaine….
Lyon, 2001
6
The Text Encoding Initiative
1987: Vassar College Conference
Balisage ou babel?
Loomings
“CALL|chap1
me Ishmael. Some years ago --<C 1>
Loomings
never mind
how
long precisely--- having
little or\chapter
no money in my purse, and nothing
\chapter[1]{Loomings}
particular
to interest me on shore, I thought I
would :h1.1.
sail about aLoomings
little and see the watery
part ofMOBY001001LOOMINGS
the world”
|C1
.chapter Loomings
Bonne nouvelle: on peut trouver un logiciel pour traduire
Mauvaise.cp;.sp
nouvelle: il existe
(au
moins) 400
formats
divers
6entre
a;.ce
.bd
1.
400 formats diverses
Loomings
Lyon, 2001
8
~x
Echange d'informations (1)
A
B
E
C
D
20 traductions requises (n2-n)
Lyon, 2001
9
Echange d'informations (2)
A
standard
commun
d'echange
B
C
E
D
10 traductions requises (2n)
Lyon, 2001
10
Un langage d’encodage sert à...
• specifier les caractères d’un texte
• expliciter la/les structures aperçue/s dans un
texte
• linéariser le texte
• specifier les méta-informations,
renseignements contextuels etc.
... ce qui implique une indépendance totale
d’application, du hard, comme du soft
Qu’est-ce que l’encodage?
• Un format d'echange s'exprime dans un
encodage…
• …qui explicite une théorie concernant un
aspect quelconque d’un document
– tout encodage est donc une interprétation
– aucun langage d’encodage ne peut donc
prétendre être ni complet ni exhaustif
Un encodage TEI
<text n="moby">
<div type=chapter n="ch1">
<head rend=centred>Loomings</head>
<p><s>Call me <name>Ishmael</name>.</s>
<s>Some years ago &mdash; never mind how
long ago precisely &mdash; having little
or no money in my purse, and nothing
particular to interest me on shore, I
thought I would sail about a little and
see the watery part of the
world.</s></p>
Lyon, 2001
13
Origines de la TEI
• communauté internationale de recherche
• surtout dans sciences humaines,
linguistiques
• effort international (financement des États
Unis, de l’Union Européenne et du Canada)
• parrainnée par trois associations erudites
(ACH, ALLC, ACL)
Les buts de la TEI
• faciliter la création, l’échange, et
l’integration des données textuelles
informatisées
• toute sorte de texte
• toutes les langues
• toute provenance temporelle ou culturelle
• La TEI doit servir également à aider...
– les débutants, cherchant des solutions bien connues
et consensuelles
– les experts, cherchant à créer de nouvelles solutions
Les "délivrables" de la TEI
• un ensemble cohérent de recommandations
sur l’encodage, fondé sur la pratique actuelle
• un système extensible, modulaire,
polymorphe
• une documentation extensive
– TEI P3 : manuel de référence
– TEI U5 , U6 : manuels introductifs
• des textes exemplaires
Voir http://www.tei-c.org
La modus operandi TEI
• identifier les traits textuels signicatifs
independemment de leur notation ou
realisation
• se méfier des controverses, et des
rafinements excessifs et des simplifications
inutiles
• chercher des solutions génériques
... et quelques consequences
•
•
•
•
appuiTEI
surne
le contenu,
plutôt
présentation
«La
dispense
pasque
de sur
lirelanos
un schéma libéral,
peucontraire,
normatif mais elle
collègues,
bien au
nous
permet
comme en sciences exactes
le rasoir
de Occam
de
directement
de plusieurs
façon
unedisposer
structuration
fonctionelle,etavec
normalisée
des textes travaillés selon les
possibilités d'enrichissement
hypotheses d'autrui » (L. Romary)
Heritage de la TEI
• Une facon de considerer ce que le texte est
vraiment
• Une codification des pratiques academiques
courantes
• Un ensemble d'aprioris et priorites partages
dans les perspectives numeriques
• … qui reste valable depuis plus de dix ans
Lyon, 2001
19
Qui se sert de la TEI?
• http://www.tei-c.org/Applications/
• les bibliothèques informatisées
UMICH, CETH, UVA, OTA, BiMiCeSa, INALF...
• les projets d'ingenierie linguistique
EAGLES, BNC, MULTEX, ECI, Silfide
• les chercheurs
Women Writers Project, Model Editions Partnership, Le
projet Charette
Qu’est-ce que c’est que le
{SG,X}ML?
• SGML (Standard Generalised Markup Language)
est une norme ISO bien répandue dans le monde
informatique;
• …dont XML est une forme simplifiée (norme
W3C) qui remplace l'HTML
• Toutes les deux donnent la possibilité d'exprimer
une grammaire precise d'encodage: une Document
Type Definition (DTD); (facultatif pour XML)
• … et de marquer à la fois la structure et la
signification des traits textuels
Current TEI activity (1)
• First AGM and elections in Pisa, November 2001
• Elected TEI Council met in London, January 2002
• XML revision (P4X) approved at Board meeting
in Prague, May 2002
• XML edition published in print, June 2002
• Second AGM, Chicago, October 2002
http://www.tei-c.org/Services/order/
Lyon, 2001
22
Current TEI activity (2)
• New work groups on
– character set issues: convergence with Unicode
– manuscript description
– hyperlinking/stand off markup
• Work in progress
– SGML/XML conversion
– Training
• Funding problems and opportunities
Lyon, 2001
23
Ce qu’il faut savoir à propos de
{SG,X}ML
• un texte est divisé en éléments, qui peuvent
s’imbriquer
• les limites des éléments sont marqués par des
balises, ayant un type générique et des
attributs facultatifs
• un texte peut également contenir des entités:
par exemple pour représenter les caractères
speciaux
L’encodage {X,SG}ML
• tout est délimité:
• les éléments par des balises de debut
et des balises de fin
• les balises par < ... > et </ ... >
• les entités par & ... ;
• par exemple:
<quote lang="fra">L'&eacute;tat, c'est moi!
</quote>
SGML et XML
La TEI s'est servie de SGML pour des raisons
– pragmatiques
• un standard déjà existant
• un standard bien répandu dans l’industrie
– théoriques
• un système declaratif
• un système vérifiable
• un système performant, adéquat aux besoins de
recherche
SGML et XML
• La TEI a beaucoup influence l'evolution de
XML
• La TEI constitue un modele abstrait, qui
peut etre represente ou en SGML ou en
XML (ou ailleurs)
• Actuellement, on peut generer des DTDs
XML specifiques a l'aide du Pizzachef
• http://www.tei-c.org/Software/pizza.html
Lyon, 2001
27
Exemple de structuration
<text>
<front> <!-- page de titre, etc --> </front>
<body>
<div1 type='book' n='I' id=JA0100>
<head>Book I. </head>
<div2 type='chapter' n='1' id=JA0101>
<head>Of writing lives in general,...
<!-- suite du chapitre 1 -->
</div2>
<div2 n='2' id=JA0102>
<!-- chapitre 2 -->
</div2>
<!-- suite du tome premier-->
</div1>
<div1 type='book' n='II' id=JA0200>
<!-- tome deuxieme-->
</div1>
<!-- encore des tomes -->
</body></text>
Structuration de phrases...
And this Indenture further witnesseth that the said
Walter Shandy, merchant, in consideration of the
said intended marriage...
<hi rend=gothic>And this Indenture further
witnesseth</hi> that the said <hi
rend=italic>Walter Shandy</hi>, merchant,
in consideration of the said intended
marriage ...
Lyon, 2001
29
…or...
And this Indenture further witnesseth that the said
Walter Shandy, merchant, in consideration of the
said intended marriage...
<seg type=formula>And this Indenture
further witnesseth</seg> that the said
<name rend=italic>Walter Shandy</name>,
merchant, in consideration of the said
intended marriage ...
Lyon, 2001
30
A quoi sert une DTD?
• définir l’ensemble des éléments, attributs, et
entitités possibles dans un document
• definir la manière de les combiner, pe leur
contenu
• permettre la verification formelle d’un
document
• aider la gestion automatique des documents
Combien de DTDs faut-il pour
supporter les buts de la TEI?
• une seule (approche autoritaire: eg ISO
12083 WKWBFY)
• aucune (approche Waterloo: eg OED
NWEUMP)
• autant qu’il en faut (approche Californien:
WNSA)
ou peut-on mieux faire?
La solution TEI
• plusieurs (400+) éléments
• rassemblés en classes sémantiques
• organisés en «tagsets » (jeux de balises)
– du noyau («core»)
– de base
– additionels
une seule DTD à plusieurs aspects
Comment s’en servir?
• comment faire un seul schéma capable de
gérer l’univers des applications voulues?
• chaque texte est différent
• tous les textes sont pareils
• n’importe quel texte peut être utilisé en des
manières diverses
Modèle Pizza (manière Chicago)
<!ENTITY % base “(deepDish |
thinCrust | stuffed)” >
<!ENTITY % garniture “( poivron|
champignon | saucisse | anchois |
anananas | ...)” >
<!ELEMENT pizza
- ( %base;, sauceTomate & fromage,
(%garniture)*) >
Pour créer une application
TEI, il faut...
• prendre le noyau
• choisir une base
• ajouter les garnitures de choix
<!DOCTYPE TEI.2 system 'tei2.dtd' [
<!ENTITY % tei.prose
'INCLUDE' >
<!ENTITY % tei.analysis 'INCLUDE' >
]>
<tei.2>.....</tei.2>
Le noyau
• L’en-tête TEI
• Un ensemble d’éléments typiques de
presque toute sorte de document
– éléments structuraux (divisions, paragraphes,
vers, discours dramatiques, titres, notes,
listes...)
– éléments descriptifs (noms, dates, engras...)
– modifications éditorialles
– liens, références...
L’en-tête TEI
• description bibliographique normalisée
– du document electronique (titre, responsables, maison
d’édition, source....)
– de son encodage (éléments presents, codes internes...)
– de sa classification (sujets, genres...)
– de son état de revision
• facilite la découverte des ressources sur
réseau et dans les bases de données
Exemple d'un entete TEI
<teiHeader><fileDesc>
<titleStmt><title>Thomas Paine: Common sense, a
machine-readable transcript</title>
<respStmt><resp>compiled by</resp>
<name>Jon K Adams</name></respStmt></titleStmt>
<publicationStmt>
<distributor>Oxford Text Archive</distributor>
</publicationStmt>
<sourceDesc><bibl>The complete writings of Thomas
Paine,collected and edited by Phillip S. Foner (New York,
Citadel Press, 1945) </bibl></sourceDesc>
</fileDesc><teiHeader>
Lyon, 2001
39
Un jeu de balises de base...
• définit les composants fondamentaux des
documents
• bases définies:
– prose, poésie, théâtre
– transcription du discours oral
– dictionnaires, terminologies
• on peut aussi mélanger les bases
– (avec précaution)
Un jeu de balises additionel...
• ajoute des éléments ou attributs specialisés
• sont definis:
– linking (liens, jalons, segmentation &c.)
– analyse et interprétation,
– structures de traits (feature structures)
– manuscrits et sources primaires
– apparat critique
– études onomastiques
– formules, tables, graphiques
– méta-informations pertinentes aux corpus
• etcetera
Attributs globaux
• tout élément est membre de la classe
«globale», et donc porte les attributs suivants:
–
–
–
–
id (identification unique)
n (identification locale)
lang (langage, identification du WSD rélévant)
rend (rendition)
• on peut étendre la classe globale en choisissant
des jeux additionels
Modifications
• apres avoir choisi sa pizza, on peut aussi
– renommer un élément...
– supprimer un élément...
– ajouter un élément ou changer sa définition
• En "cuisinant" sa pizza, on peut l'exporter
en XML ou SGML simple
• http://www.tei-c.org/Software/pizza.html
Using the TEI
•
•
•
•
•
Which modules will you use?
How will you customize them?
What additional constraints are needed?
What software will you develop?
Where will it all be documented?
Lyon, 2001
45
Quelques applications de la TEI
TEI Lite
Manuscrits
Hypertext
TEI Lite: une modification
exemplaire
• sous-ensemble du noyau avec en plus:
– hypertext («HyTime for Idiots»)
– interprétation analytique
– figures, tables
• en service à plusieurs Text Archives, Etext Centers
etc.
• documentés dans le manuel TEIU5,
• voir http://www.tei-c.org/Lite/
Version francaise chez Cahiers Gutenberg!!
References
• a l’interieur d’un seul document,
• <ptr> (sans contenu) or <ref> (avec contenu)
• doivent pointer sur une identification (ID)
See especially <ref target='SEC12'>
section 12 on page 34</ref>.
See especially <ptr target='SEC12'/>.
...
<div id='sec12'>
<head>Concerning Identifiers</head>
X-Pointers
• pour pointer en dehors du document courant ou
sur des objets non-SGML
• <xptr> (empty element) or <xref> (with
content)
• pointent sur en étendu specifié par une echelle
de location (a l’interieur d’un entité nommé par
l’attribut doc)
see especially <xptr doc='doc2'
from="ID (SEC12)">
see especially <xptr doc='doc2'
from="DESCENDANT (2 DIV1) (4 P)
CHILD (1 QUOTE LANG LAT)">
Liens independent
• On peut specifier que deux objets sont liés en
pointant sur tous les deux avec un <link>
• qui permet d’encoder une correspondence ou
alignment
<xptr id='x1' doc='xdoc'/>
<xptr id='x2' doc='ydoc'/>
<link targets="x1 x2"/>
A three way alignment
<div id=E98 lang=EN><head>The Study</head>
<seg id=E9801>The Study</seg>
<seg id=E9802>is a place</seg>
<seg id=E9803>where a Student,</seg>
<div
id=L98 lang=LA>
<seg
id=E9804>a
part from men,</seg>
<head>Mus&eacute;um</head>
<seg id=E9805>sitteth
alone,</seg>
<seg
id=L9801>Museum</seg>
<seg
id=E9806>addicted
to his
Studies,</seg>
<seg
id=L9802>est locus</seg>
<seg
id=E9807>whilst
heStudiosus,</seg>
readeth</seg>
<xptr
n='1'
id=p981
doc=com98>
<seg
id=L9803>ubi
<seg
id=E9808>Books,</seg>
<xptr
n='2' id=p982 doc=com98
<seg id=L9804>secretus ab hominibus,
from='space
(2d) (75 5)
(133 75)'>
<seg
id=L9805>studiis
deditus,</seg>
<xptr
id=p983 lectitat</seg>
doc=com98
<linkGrp
type=alignment>
<seg n='3'
id=L9806>dum
from='space
(2d) (55L9801
42) (90
60)'>
<link
targets='E9801
p981'>
Lyon, 2001
<link targets='E9802
<link targets='E9803
<link targets='E9804
<link targets='E9805
<link targets='E9808
</linkGrp>
L9802
'>
L9803 p982'>
L9804
'>
L9805
'>
L9808 p983'>
53
The Beowulf Manuscript
MS Cotton Vitellius A xv
voir http://portico.bl.uk/
Version imprimée
(Wrenn,1953)
Hwæt we Gar-Dena in gear-dagum
þeod-cyninga þrym gefrunon,
hu ða æþelingas ellen fremedon.
Oft Scyld Scefing sceaþena þreatum,
monegum mægþum meodo-setla ofteah;
egsode Eorle, syððan ærest wearð
feasceaft funden...
Transcription or Editing?
• tout encodage est forcément une
interpretation
• le but pourrait être
– représenter l’objet originel (transcription)
– représenter l’objet idéal (editing)
• une distinction imprécise
Version informatisée (1)
<lg><l>Hw&aelig;t we Gar-Dena in gear-
dagum</l>
<l>&thorn;eod-cyninga &thorn;rym
gefrunon,</l>
<l>hu &eth;a &aelig;&thorn;elingas ellen
fremedon.<l></lg>
<lg><l>Oft Scyld Scefing scea&thorn;ena
&thorn;reatum,</l>
<l>monegum m&aelig;g&thorn;um meodo-setla
ofteah; </l>
<l>egsode Eorle, sy&eth;&eth;an ærest
wear&eth;</l>
<l>feasceaft funden...
Version informatisée (2)
<hi rend='caps'>&H;&wynn;&aelig;t we
garde</hi><lb/>
na in gear-dagum &thorn;eod cyninga<lb/>
&thorn;rym gefrunon hu&eth;a
&aelig;&thorn;elinga&s; ellen<lb/>
fremedon. oft Scyld Scefing
scea&thorn;e<add>na</add><lb/>
&thorn;reatum, moneg<expan
sic='&ubar;'>um</expan> mægþum meodosetla <lb/>
of<damage desc=blot/>teah egsode <sic
corr='Eorle'>eorl</sic> sy&eth;&eth;an
ærest wear&eth;<lb/>
fea sceaft funden...
Transcrire c’est distinguer...
• modifications originelles
• interventions
d’editeur/scripteur/transcripteur
• scripteurs et changements de scripteur
• endommagement physique au medium
• usage de blancs, majuscules, format visuel
par exemple...
• les omissions sont balisés avec <gap>
<gap reason='illegible' desc='bloodstain'>
<gap reason='sampling' desc='figure'>
• la regularization (ou l’inverse) avec <reg>
ou <orig>
<q>I <reg resp="LB" orig="telled">
told</reg> Mary how it would be,</q>
he said:
<q>I <orig reg="told">telled</orig>
Mary how it would be,</q> he said:
Normalization ou correction?
• on peut signaler les deux, au meme temps que
l’originel
... for his nose was as sharp as a pen and
<reg sic="a'">he</reg>
<corr sic='table' ed='Gifford'>babbl'd</corr>
of green <reg sic='feelds'>fields</reg>
Comment distinguer les
responsables?
• avec l’attribute hand (main):
–<l<l n='108'>Whe
n=108>Whe hadon
ourour
wyfewyfe
at ouratwilour wil
hadon
well</add>
–<add
<addhand='manus2'>and
hand=manus2>and well</add>
toware.</l>
ware.</l>
–fore
fore to
oft Scyld Scefing
scea&thorn;e<add hand='ed1'>na</add><lb/>
Apparatus criticus informatisé
Experience (though non auctorité
Were in this world) is right ynough for me
To speke of wo that is in mariage
…
1 Experience El Hg : Experiment La...
<l><app>
<rdg wit='El Hg'>Experience</rdg>
<rdg wit='La'>Experiment</rdg>
</app>&th;oug&h; non auctorite
</l>