XML et la TEI au service du premier Petit Larousse Illustr&#233

Download Report

Transcript XML et la TEI au service du premier Petit Larousse Illustr&#233

XML, DTD et TEI pour un
dictionnaire étymologique des
créoles
12 Octobre 2007
Hélène Manuélian et Emmanuel Schang
Universités de Cergy Pontoise et Orléans
Ressources textuelles


Données hétérogènes (en-têtes, caractères
spéciaux, illustrations, sens de l’écriture, etc.)
Informatisation≠lecture possible sur un écran
 La solution : coder les données


Un problème : moyens pour le codage
informatique souvent incompatibles entre eux et
dédiés à une catégorie de texte
Une solution : NORMALISER !
Quels éléments coder ?
Niveau physique : codage des caractères.
 Niveau logique :

– sémantique du codage
– organisation de l'information
– description explicite de cette information.

Niveau de présentation : indépendant du
support de sortie (CD-Rom, Page Web,
etc…) .
Normalisation

Ressources portables :
– Echanges possibles quels que soient les moyens
informatiques de l’utilisateur
– Archivage garanti, malgré l’évolution des technologies
– Visibilité nationale et internationale

La référence : une instance internationale
– Comité de l’ISO (International Standard Office)
– Normes éditées par le TC 37 / SC 4 (Sous comité pour
la standardisation des ressources textuelles)
Au commencement…
SGML (Standard Generalized Markup
Language)
 Les données au format SGML ont un format
d’arbre hiérarchique (comme en syntaxe !)
 Représente les données textuelles avec des
éléments de contenus encapsulés les uns
avec les autres : balises

Exemple
<entry>
<form>
Entry
<orth>porte</orth>
<pron>poRt </pron>
</form>
<gramGrp>
<pos>n</pos>
Form
GramGrp
Sense1
Sense2
</gramGrp>
<sense n="1">
<def>Ouverture pratiquée dans un
des plans verticaux qui limitent
un espace clos(…) </def>
</sense>
<sense n="2">
<def> Panneau mobile permettant
d'obturer cette ouverture</def>
</sense>
</entry>
Orth pron
pos
def
def
XML est …



Un protocole de stockage et de gestion de
l’information
Une famille de technologies qui permettent
d’effectuer le formatage de documents et
l’extraction de données
Une philosophie de gestion de l’information qui
recherche un maximum d’utilité et de souplesse en
organisant les données sous la forme la plus pure
et la plus structurée
XML n’est pas…
A proprement parler un langage de balisage
 En fait, c’est un ensemble de règles qui
permettent le balisage

Les balises servent à…

Délimiter un fragment de texte
<paragraph> blablabla </paragraph>

Indiquer le rôle d’un fragment de texte
<salutation> bonjour ! </salutation>

Indiquer la position d’un élément dans un texte
<title> TITRE </title> <paragraph> BLABLA
</paragraph>

Imbriquer des éléments les uns dans les autres
<chapter> <paragraph> blabla-truc </paragraph> <paragraph>
blabla-bidule </paragraph> <paragraph> blabla-machin
</paragraph> </chapter>

Faire des liens entre les fichiers
<graphique fileref = "sourire.pict"/>
Composition d’une balise
<link type="coref” subtype="infidèle" lex-rel="hyper"
/>
Attributs
"Valeurs"
Autres valeurs possibles pour l’attribut type :
"anaphor" "bridging"
Autres valeurs possibles pour l’attribut subtype si type = "coref" :
"direct"
Autres valeurs possibles pour l’attribut lex-rel :
”hypo" ”syn"
Modèle de document

XML fournit ce qu’on appelle un modèle de
document
– Ce sont des règles propres à un type de document
– Qui permettent de comparer le document produit à un
document du même type et de dire s’il est conforme
aux règles. On parle de validation.
– Il en existe deux sortes : DTD (Document Type
Definition) et Schéma XML. Je ne présente que les
DTD ici.
DTD

Ensemble de règles qui indiquent quelles balises le
document peut utiliser en fonction de sa nature.
 Elle fournit une description formelle de l’organisation
de l’information au sein du document.


Elle fournit la liste des attributs possibles pour
une balise et les valeurs possibles de ces attributs
On fait référence à la DTD utilisée au début du
document pour que XML puisse valider le
document
La TEI
Text Encoding Initiative
 Résultat d’un consensus entre diverses
associations internationales spécialisées
dans l’alliance entre linguistique et
informatique
 Propose des directives d’encodage des
ressources textuelles (normes de codage et
représentation uniforme des données)

La TEI
A la fois rigoureuse et flexible : l’utilisateur
élabore son propre schéma de codage à partir d’un
ensemble d’éléments et d’attributs
 Structure de base commune : tous les documents
sont divisés en deux parties : l’entête et le texte.
<teiHeader> informations générales sur le texte
</teiHeader>
<text> texte constituant la ressource textuelle
</text>

L’entête TEI
Mise au point par des experts en documentation
 Contient la description complète du document en
quatre parties

<fileDesc> description du fichier </fileDesc>
<encodingDesc> description du codage </encodingDesc>
<profileDesc> profil textuel du document (classification du
texte, thème, etc.) </profileDesc>
<revisionDesc> historique des changements
</revisionDesc>
Texte TEI
Exemple pour un roman
<text>
Exemple pour un ensemble d’articles :
<text>
<front> <body> <back>
<front> <group> <back>
<div> <div> <div> <div>
<text> <text> <text>
<front> <body> <back>
<div> <div> <div> <div>
Une norme en cours
d’élaboration : LMF
Lexical Markup Framework
 Deux perspectives:

– La modélisation des dictionnaires
– La construction de bases de données lexicales
pour le TAL

Projet de spécification de structure de bases
de données lexicales et lexicographiques qui
unifie ces deux modèles
Structure de LMF
Base de Données Lexicales
1..1
1..1
0..n
1..1
Info. globales
Entrée lexicale
1..1
1..1
Forme
1..1
0..n
0..n
Sens
1..1
Extension
Lexicale
Extension
Lexicale
Extension
Lexicale
Perspectives pour le dictionnaire
des créoles
Utiliser la norme « Print Dictionaries » de la
TEI.
 Utiliser, voire contribuer à l’élaboration de
la norme : la structure d’un dictionnaire des
créoles pourrait montrer qu’une souplesse
reste nécessaire
 Propositions au TC37/SC4

Problème

Structure des dictionnaires étymologiques
du créoles peut-être problématique, parce
que différente de la structure des
dictionnaires étymologiques classiques, et
des dictionnaires bi/multilingues
Deux exemples
Exemples standards
<entry>
<form>
<orth>publish</orth>
...
</form>
<etym>
<lang>ME.</lang>
<mentioned>publisshen</mentioned>
<lang>F.</lang>
<mentioned>publier</mentioned>
<lang>L.</lang>
<mentioned>publicare,
publicatum</mentioned>.
<xr>See
<ref>public</ref>; cf. 2d
<ref>-ish</ref>.
</xr>
</etym>
</entry>
(From: Webster's Second
International)
<entry>
<form>
<orth>dresser</orth>
</form>
<sense n="a">
<usg type="dom">Theat</usg>
<cit type="translation" xml:lang="fr">
<quote>habilleur</quote>
<gen>m</gen>
</cit>
</sense >
<sense n= "b" >
<usg type="dom">Comm</usg>
<form type="compound">
<orth> window <oRef/>
</orth>
</form>
<cit type="translation" xml:lang="fr">
<quote>étalagiste</quote>
<gen>mf</gen>
</cit>
</sense>
<!-- ... -->ハ
</entry>
Exemple (C. Fontes)
Dictionnaire étymologique du forro
 Particularité : à la fois dictionnaire trilingue
et dictionnaire étymologique
 Structure complexe : forro / Traduction(s)
portugaise(s) / traduction(s) anglaise(s) /
Etymologie : propriété 1 + propriété 2 + …

Exemple de problème à
résoudre
<entry>
<form>
<orth> blagadu </orth>
<pron> [blaˈgadu] </pron>
</form>
<gramGrp>
<pos>adj</pos>
</gramGrp>
<trans n=“1”>
P. desfeito; terminado; arregalado;
</trans>
<trans n=“2”>
E. undone; ended; wide opened.
</trans>
<etym>
<lang> P. </lang>
<mentioned> desbragado </mentioned>
<gloss>unchained </gloss>
+ aférese + lambdacismo ;
<lang>P. </lang>
<mentioned> embargado </mentioned>
<gloss> seized </gloss>
+aférese + lambdacismo + metatese
</etym>
</entry>
une application
prenons l’exemple du forro
 il existe :

– un dictionnaire étymologique : Rougé (2004)
– un mémoire de master (Fontes 2007)
– un dictionnaire fantôme (Aires Major xxxx)

des bouts de travaux ici et là (Ferraz 1979,
Hagemeijer 2007, Schang 2000, …).
deux approches différentes
1.
2.
codage TEI des textes existants (dans leur
version électronique)
réalisation d’une base de données sous un
format nouveau en incorporant des infos
prises dans les dictionnaires existants. Il
s’agit alors d’un nouveau travail.
avantages et inconvénients

Solution 1 :
– faible coût (+)
– rien de neuf (-)

Solution 2 :
– coût important selon l’ampleur du projet
– véritable base multimédia (son/corpus, images,
etc.)
un exemple simple
aba, bord d’un habit
En guinéen aba : « revers », « bas d'un vêtement » ; à Santiago aba :
«rebord d'un chapeau ou d'une jupe. » Pour le capverdien, Lang donne
aussi ce nom comme synonyme de bandera « dessus de la porte ».
En forro aba : « volant d’une robe », « rebord d’un chapeau » ; baba de
même sens en est vraisemblablement une variante. aba est aussi attesté
en angolar avec le même sens, mais il nous semble, considérant les
vêtements traditionnels des angolares, qu’il s’agit là d’un emprunt
récent au forro.
(Rougé 2004)
structure d’une entrée
entry
form
gloss
etym
Dans ce qui est étiqueté ‘etym’, on va trouver des informations de nature
étymologique sur diverses langues. On peut concevoir des sous-entrées
pour chaque langue.
Pour chaque langue évoquée, on trouve :

une ou deux formes

une ou deux gloses

des informations variées (emprunt récent, synonymes, etc.)
un exemple délicat
Rougé (2004:49)
aguardar, attendre
L’impératif pluriel du verbe aguardar, aguardai, a donné
l’interjection forro agwêdê ! « Attention ! » qui est utilisée
en particulier dans Agwêdê ! Alê ! « Attention! Le roi ! »,
formule rituelle qui ouvre les devinettes traditionnelles.
L’harmonisation vocalique régressive empêche que
agwêdê puisse être interprété comme un dérivé de gwada,
qui pourtant est de même racine.
proposition de codage TEI
<entry>
<form>aguardar</form>,
<gloss xml:lang="fr">attendre</gloss>
<etym>Limpératif pluriel du verbe aguardar, aguardai, a donné
l’interjection <lang>forro</lang>
<form xml:lang="cri">agwêdê!</form>
<gloss>Attention!</gloss> qui est utilisé en particulier dans
<mentioned>Agwêdê! Al!</mentioned> <gloss
xml:lang="fr">Attention! Le roi!</gloss>,
<def>formule rituelle qui ouvre les devinettes
traditionnelles.</def>
L’harmonisation vocalique régressive empêche que
<mentioned>agwêdê</mentioned> puisse être interprêté comme
un dérivé de <mentioned>gwada</mentioned>, qui pourtant est
de même racine.</etym>
</entry>
CreolData et LMF
un projet de base de données lexicales
(Schang & alii 2005)
 idée simple : réutiliser l’existant pour
l’incorporer dans une base de données
fonctionnant avec xml
 à l’origine, utilisation de LMF et Afnor
(Lexique pour le TAL)

CreolData et LMF
Entrée Lexicale
identifiant : ‘535’
forme lemmatisée : ‘flêsê’
sens : ‘s535 s536’
Forme 1
chaîne : ‘flêsê’
Forme 2
chaîne : ‘ôflêsê’
Sens
identifiant : "s535"
comportement syntaxique : ‘syn535’
Définition
texte : ‘donner quelque chose en
cadeau à quelqu'un’
Sens
identifiant : "s536"
comportement syntaxique : "syn536"
Définition
texte : " présenter un enfant à
l'Eglise"
CreolData et LMF

ce qui donne sous forme xml :
<lexicalEntry id="535" pos="verb" lemmatizedForm="flêsê"
autonomy="yes" components="" senses="s535 s536">
<form id="f535a" string="flêsê"/>
<form id="f535b" string="ôflêsê"/>
</lexicalEntry>

pour le sens :
<sense id="s535" syntacticBehaviors="syn535"
definitionBlocks="def535">
<definition id="def535" text="donner quelque chose en
cadeau à quelqu’un" lang="fr"/>
</sense>
<sense id="s536" syntacticBehaviors="syn536"
definitionBlocks="def535">
<definition id="def536" text="présenter un enfant à
l’Eglise" lang="fr"/>
</sense>
CreolData et LMF

un système adapté à la description syntaxique :
<syntacticBehavior id="syn535" frameSet="fS535"/>
<frameSet id="fS535" frames="fS535_f1 fS535_f2"/>
<frame id="fS535_f1" comment="verbe doc"
slots="synSlot_1 synSlot_2 synSlot_3"/>
<frame id="fS535_f2" comment="verbe à cos"
slots="synSlot_1 synSlot_3 synSlot_4"/>
<slot id="synSlot_1" function="subject"
semanticActant="agent" syntacticActant="np"/>
<slot id="synSlot_2" function="object"
semanticActant="benef" syntacticActant="np"/>
<slot id="synSlot_3" function="object"
semanticActant="theme" syntacticActant="np"/>
<slot id="synSlot_4" function="object"
semanticActant="benef" syntacticActant="da_np"/>
CreolData et LMF
comportement
syntaxique
id="syn535"
ensemble de cadres
id="fS535"
cadre 1
verbe double objet
slots : 1, 2, 3
cadre 2
verbe à Compl. Obj.
Sec.
slots : 1, 3, 4
slot 1
slot 2
slot 3
slot 4
SN
SN
SN
SP
CreolData et LMF

avantages :
– liens avec des fichiers sons et des images facilités par la
structure hiérarchisée.
– description syntaxique et morphologique poussée
permettant le développement d’analyseurs
morphologiques et de grammaires électroniques

inconvénients :
– pas de place initialement prévue pour l’étymologie.
Travail à faire pour l’évolution de la norme