Implémentation d’un fragment de grammaire HPSG de l’arabe sur la plate-forme LKB

Download Report

Transcript Implémentation d’un fragment de grammaire HPSG de l’arabe sur la plate-forme LKB

Implémentation d’un fragment
de grammaire HPSG de l’arabe
sur la plate-forme LKB
Mahmoud Fawzi Mammeri & Nacer Eddine Bouhassain
Université de Blida, Algérie
3rd International Conference on Arabic Language Processing, CITALA’2009
Plan
1.
2.
3.
4.
5.
Introduction
La Head driven Phrase Structure Grammar (HPSG)
Le Linguistic Knowledge Base (LKB)
Une Grammaire LKB/HPSG pour l’Arabe
Conclusion
2
Problématique Générale
La question fondamentale consiste à se demander :
comment représenter et traiter au mieux les
phénomènes rencontrés dans la langue
arabe?
3
Théorie linguistique vs. Formalisme ad hoc
•
Éviter les formalismes ad hoc
•
→ choix d’une théorie linguistique
–
–
de bénéficier des acquis des recherches linguistiques dans le
traitement des problèmes syntaxiques, sémantiques, …, variés,
et d’en attendre des solutions générales et cohérentes.
4
De quoi avons-nous besoin ?
1.
Une Grammaire et un Lexique


2.
3.
Grammaire traditionnelle ⇒ Grammaire formalisée
Lexique traditionnel (dictionnaire électronique)
Computationnel
⇒
Lexique
Un formalisme pour la représentation (modélisation)
Une plate-forme pour implémenter les phénomènes de
langue modélisés
5
Modèles existants
•
•
•
•
Head-driven Phrase Structure Grammar (HPSG)
Lexicalized Tree-Adjoining Grammars (LTAG)
Lexical-Functional Grammars (LFG)
Functional Unification Grammar (FUG)
→ Construction Grammar (CG)
…
6
Formalismes/SDD
• Réseaux Sémantiques
→ Graphes Conceptuels de Sowa (1984)
• ATN, Réseaux de Transitions Augmentés
• DCG, Definite Clause Grammars
• TFS, Typed Feature Structures
• DAG, Direct Acyclic Graph
• Arbres
…
7
Plates-formes de développements
1. HPSG
1. LKB (Copestake, 1992,2002)
2. PET (Callmeir, 2000)
3. PAGE (Krieger & Schäfer, 1994)
4. German NLP Processor BABEL (S. Müller, 1996)
5. ConTroll (Grammar Development System ConTroll : Götz, 1995),
6. ALE (Atribute Logic Engine : Carpenter and Penn, 1995)
7. TRALE (grammar-implementation platform based on ALE and
ConTroll; Penn, 2003 )
2. TAG
1. XTAG
2. G-TAG (génération automatique de textes)
3. DyALog (grammaires de clauses définies (DCG), BMG, RCG)
3. LFG
1. XLE (Xerox Linguistics Environment; Butt et al. 1999)
2. Grammar writer’s workbench for LFG (Kaplan & Maxwell, 1996) 8
Choix
•
Modèle : HPSG (Head-driven Phrase Structure Grammar)
•
Formalisme : TFS (Typed Feature Structures)
→ Carpenter (1992)
•
Plate-forme : LKB (Linguistic Knowledge Builder)
→ Copestake (1992)
→ Copestake et al. (2002)
9
Head driven Phrase Structure Grammar (HPSG)
Histoire
1. HPSG1 : Pollard and Sag (1987)
2. HPSG2 : Pollard and Sag (1994)
3. HPSG3 : Pollard and Sag (1994)
chapitre 9 « Reflexions and Revisions »
4. HPSG4? Plusieurs auteurs
[Sag & Wassow, 1999] et [Sag & Wassow & Bender, 2003]
→ Grammaire à Large Couverture de Troisième Génération
– très fort encodage hiérarchique des connaissances (Multidimensionnel)
– déclarativité et réversibilité (supporte en même temps l’analyse et la
génération)
– développement multi-langue
5.
?
10
Head driven Phrase Structure Grammar (HPSG)
inspirations
1.
Syntaxe:
•
GPSG (Gazdard, Klein, Pullum, & Sag, 1985)
•
CG : Grammaire Catégorielle (Steedmar, 2000)
•
LFG (Kaplan & Bresnan, 1982)
•
Construction Grammar (Goldberg, 1995)
•
Grammaire Transformationnelle Chomskyenne e.g. Government
and Binding (Haegeman, 1994)
2.
Sémantique
•
La Sémantique Situationnelle (Barwise & Perry, 1983)
•
DRT: Discourse Representation Theory (Kamp & Reyle, 1993)
11
Head driven Phrase Structure Grammar (HPSG)
matériaux






Règles de Grammaire (Schémas de règles)
Lexique
Principes de bonne formation
Règles Lexicales
Hiérarchie de Type
Conditions d’Appropriation
12
Head driven Phrase Structure Grammar (HPSG)
formalisme de représentation
(TFS, Carpenter (1992))
HPSG repose sur l’idée de représenter les règles, les items lexicaux,
les principes, … par des :
Structures de Traits Typées
(ou TFS, Typed Feature Structures)
13
Linguistic Knowledge Builder (LKB)
la plate-forme (1)
Le système LKB – open source software
Le système LKB est un environnement de développement de lexique et de
grammaire pour utilisation avec des formalismes linguistiques à base de
contraintes (grammaires de style HPSG).
http://lingo.stanford.edu/ftp
•Ann Copestake, (2002), Implementing Typed Feature Structure Grammars,
CSLI Publications, Stanford, Ca..
•Ann Copestake, Dan Flickinger, Carl Pollard and Ivan A. Sag, (2005), Minimal
Recursion Semantics: An Introduction.
14
Linguistic Knowledge Builder (LKB)
la plate-forme (2)
Le système LKB est un environnement de développement spécialisé de très
haut niveau, intégrant des facilités et masquant à l’utilisateur des aspects
spécifiques aux langages de programmation.
Le LKB inclut :
• Un analyseur
• Un générateur
• Un support pour des hiérarchies d’héritage à grande échelle
• Divers outils pour la manipulation des représentations sémantiques
• Un ensemble riche d’outils graphiques pour l’analyse et le débogage de
grammaire
15
Linguistic Knowledge Builder (LKB)
Caractéristiques









Common Lisp
HPSG implémentées (Structures de Traits Typées )
Multi-langues
Multi-formalismes
Utilisé en analyse comme en génération
Modulaire
documentation
Libre+Open source
≠ versions disponibles (Windows, Unix, Mac Os)
 Support (?)
16
Linguistic Knowledge Builder (LKB)
Les fichiers LKB (1)
Une grammaire LKB se présente comme un ensemble de fichiers.
1. Les fichiers Lisp
 Le script
 Les fichiers de configuration
2. Les fichiers TDL
 Les fichiers de la grammaire
17
Linguistic Knowledge Builder (LKB)
Les fichiers LKB (2)
Le fichier script
charge l’ensemble de la grammaire
•
(typiquement : script.lsp)
18
Linguistic Knowledge Builder (LKB)
Les fichiers LKB (3)
Les fichiers LISP
utilisés pour la configuration du système (paramétrage, les
préférences d’affichage, ...)
•
•
•
globals.lsp
user-fns.lsp
user-prefs.lsp
19
Linguistic Knowledge Builder (LKB)
Les fichiers LKB (4)
Les fichiers TDL
nécessaires pour la confection de grammaires LKB
•
•
•
•
•
•
•
types.tdl (définition de type)
lexicon.tdl (lexique)
rules.tdl (règles de grammaire)
lr.tdl (règles lexicales)
inflr.tdl (règles flexionnelles)
start.tdl (la structure de départ)
parse-nodes.tdl (écriture des nœuds sur l’arbre d’analyse)
20
Linguistic Knowledge Builder (LKB)
Type Description Language (TDL)
Les grammaires LKB sont implémentées en TDL.
Le TDL est un langage de description qui permet la spécification de
TFSs ; donc de types, de contraintes, d’entrées lexicales, …
LKB prévoit l’utilisation d’une variété de langages de description.
Le plus communément utilisé est celui adopté par (Copestake, 2002),
qui est une version simplifiée de la syntaxe du TDL du système PAGE
(Krieger & Schäfer, 1994).
21
Linguistic Knowledge Builder (LKB)
Minimal Recursion Semantics (MRS)
MRS (Copestake et al., 2005) est un langage de description pour les formules de la
logique du premier ordre (FOL)
La sous-spécification est la solution standard pour traiter des ambiguïtés de la portée.
Au lieu de spécifier les interprétations d’une expression ambiguë directement, un langage
de description est utilisé pour représenter ces différentes interprétations.
→ Ce qui mène à une représentation sous-spécifiée compact; différentes
interprétations peuvent être alors énumérés à partir de cette représentation en
fonction du besoin.
MRS est le formalisme standard de sous-spécification utilisé à grande échelle
dans les grammaires HPSG.
22
Linguistic Knowledge Builder (LKB)
Minimal Recursion Semantics (MRS)
Le LKB propose des facilités pour la sémantique
Phrase analysée → une représentation sémantique
MRS (représentation sémantique) peut être utilisée comme input du
Générateur du LKB qui peut à son tour générer toutes les chaînes
correspondantes à la représentation.
23
Grammaire LKB/HPSG pour l’Arabe
Règles de grammaire
La grammaire HPSG/LKB de l’arabe consiste en:
•
•
•
•
des règles de grammaire
des règles flexionnelles
des définitions de type
un lexique
24
Grammaire LKB/HPSG pour l’Arabe
Règles de grammaire
•
•
•
•
Head-Complement Rules (2)
Head-Subject Rule (1)
Head-Modifier Rule (1)
head-specifier-rule (1)
25
Grammaire LKB/HPSG pour l’Arabe
Hiérarchie (1)
verb-lxm
intr-verb-lxm
tr-verb-lxm
ditr-verb-lxm
…
26
Grammaire LKB/HPSG pour l’Arabe
Hiérarchie (2)
lexeme
itr-lxm
tr-lxm
str-tr-lxm
det-lxm
itr-n-lxm
ditr-np-np-lxm
prep-lxm
noun-lxm
ditr-np-pp-lxm
itr-v-lxm
verb-lxm
const-lxm
tr-n-lxm
strict-tr-v-lxm
dtr-np-np-v- lxm
dtr-np-pp-v-lxm
27
Grammaire LKB/HPSG pour l’Arabe
Hiérarchie Globale (3)
28
Grammaire LKB/HPSG pour l’Arabe
Lexique (1)
aataa := verb-lxm-ditransitive-np-np &
[ ORTH <! "aataa" !>,
SEM.RELS.LIST.FIRST.PRED "aataa_rel" ].
29
Grammaire LKB/HPSG pour l’Arabe
Lexique (2)
verb-lxm := lexeme &
[ HEAD verb & [AGRNV [GEND #gend]],
SUBJ < phrase & [ HEAD noun & [AGRNV [GEND #gend] ]& [AGRN [case nom]],
SPR <>,
COMPS optional-list ] >,
SEM [INDEX event ] ].
transitive-lxm := lexeme &
[ COMPS < phrase & [ HEAD noun, OPT -, SPR <>, COMPS optional-list ], ... > ].
ditransitive-np-np-lxm := transitive-lxm &
[ COMPS < [ ], phrase & [ HEAD noun, OPT -, SPR <>, COMPS optional-list ] > ].
verb-lxm-ditransitive-np-np := verb-lxm & ditransitive-np-np-lxm &
[ SUBJ < [SEM [INDEX #arg1]] >,
COMPS < [ HEAD noun & [AGRN [case acc]], SEM [INDEX #arg2]],
[HEAD noun & [AGRN [case acc]], SEM [INDEX #arg3]] >,
SEM [RELS <! arg1-2-3-relation & [ARG1 #arg1,ARG2 #arg2,
ARG3 #arg3] !> ] ].
30
Grammaire LKB/HPSG pour l’Arabe
Règles Lexicales (1)
Dans le lexique, les adjectifs sont sous-spécifiés pour le cas et la définitude :
i.e.
ni désinences casuelles
ni ils sont déterminés
Exemples:
• mufiid
• Kariim
• naagih
31
Grammaire LKB/HPSG pour l’Arabe
Règles Lexicales (2)
Des règles flexionnelles sont nécessaires pour:
• L’instanciation du cas
• Le marquage de l’indéfini (tanwiin)
32
Grammaire LKB/HPSG pour l’Arabe
Règles Lexicales (3)
D’autres Règles Lexicales seront nécessaires pour générer les formes
féminines, plurielles, …
Exemples:
naagih →
naagihun, naagihan, naagihatun,
naagihatan, naagihuuna, ...
33
Grammaire LKB/HPSG pour l’Arabe
Règles Lexicales (4)
•
•
•
•
•
•
•
•
•
null-irule
verb-3masc-irule
verb-3fem-irule
nominative-cn-lexical-rule
accusative-cn-lexical-rule
genetive-cn-lexical-rule
def-noun-lexical-rule
indef-cn-lexical-rule
…
34
Ajustement de la version actuelle
et bugs connus
• Au niveau de l’implémentation :
o Finir l’implémentation de la head-specifier-rule
→ prendre en compte l’accord det-noun (‫بنات‬
‫ثالث‬/‫ ثالثة أوالد‬،‫هذه البنت‬/‫)هذا الولد‬
o intégrer les constructions en SVO (règle lexicale: VSO → SVO)
o Réintégrer et réadapter les implémentation concernant les cas des verbes
exponentiels (classe de kaana, classe de hassiba et la classe de ‘a’lama) et
les exposant non verbaux (classe de ‘inna)
• Au niveau du générateur :
o Régler un problème au niveau de la génération
→ le générateur échoue à générer
• Au niveau de la « test suite » :
o Réviser et réorganiser le fichier test (construction d’une test suite assez large)
→ l’analyse ne doit admettre que les phrases grammaticales
(over generation, under generation, spurious ambiguity)
35
Conclusion & Perspectives
•
•
•
•
•
Accord (nom-adjectif, prep-nom, verb-sujet)
Modification (adjectivale et adverbiale)
Sous-catégorisation (verbale et prépositionnelle)
Flexion
Marquage de cas
36
Conclusion & Perspectives
1. Continuer le développement de la grammaire
a. Choisir de nouveaux phénomènes à intégrer
b. Redéfinir les priorité pour la grammaire (se fixer sur un
phénomène précis pour en élargir la couverture)
2. Travailler avec la Matrix
37