Transcript Theories linguistiques pour le TAL
Theories linguistiques pour le TAL
Amalia Todirascu [email protected]
Théories linguistiques 28/04/2020 1
Plan
• Grammaires de constituants, Grammaires de dépendances, modèles formels • pourquoi des modèles formels pour l'analyse syntaxique automatique?
• LTAG – théorie – applications Théories linguistiques 28/04/2020 2
Analyse syntaxique automatique
• approches –
classique (analyse complète)
• •
grammaire lexique
– analyse partielle: chunks (Abney, 1991, Vergne, 1999), automates à états finis (Ait-Mokhtar et Chanod, 1999) Théories linguistiques 28/04/2020 3
Analyse syntaxique automatique (II)
• approches – Manuelle – Apprentissage automatique: • Anglais – Caroll et Briscoe (1996) – Collins (1996) • Français – Chappelier et Rajman (1998), (Candito et al, 2010) • Allemand – Bohnet (2010) Théories linguistiques 28/04/2020 4
Rappel: Grammaire TAL
• symbol initial: Phrase • un ensemble de symboles non-terminaux: les classes syntaxiques • un ensemble de symboles terminaux: à retrouver dans le lexique ou la catégorie lexicale • un ensemble de règles de réecriture Théories linguistiques 28/04/2020 5
Grammaire
• Phrase -> GN GV • Phrase -> GN GV GN • Phrase -> GN GV GN GP • GN -> Det Nom • GN -> Det Nom Adj • GN -> NProp • GN -> Pron 28/04/2020 • GV -> Verbe • GV -> Aux Verbe • GP -> Prep GN • GP -> Prep GN GP Théories linguistiques 6
Grammaires de dépendance
S NP V NP EN Karl D travaille le 28/04/2020
R0
N
SBJ
soir Théories linguistiques ROOT EN Karl
VMOD NMOD
V D travaille le N soir 7
NP EN Karl
Grammaires de dépendance (II)
S V NP D N ROOT
R0 SBJ
V:travaille
VMOD
NE:Karl N:soir
NMOD
D:le travaille le soir Théories linguistiques 28/04/2020 8
Grammaires de dépendance
ROOT
R0
• Formalisme: • T = terminaux • N = non-terminaux • L = étiquettes • ROOT = noeud initial
SBJ
V:travaille EN:Karl
VMOD
N:soir
NMOD
• règles: • R I : règle de catégorisation : X y 1 | … | y n D:le • R II : règle de dépendence : X(Y 1 …Y i *Y i+1 …Y n ) • R III : catégories liées avec ROOT Théories linguistiques 28/04/2020 9
Exemples
• MST parser (Candito et al, 2010) – entrée: MElt tagger (Sagot, Denis, 2010) – sortie: relations de dépendance – ressource: FRench Treebank (Abeillé et al, 2003) • Annotation au niveau de constituents : AP, PP, NP, VN, AdP, VPinf, VPpart • Annotation au niveau de fonctions syntaxiques Théories linguistiques 28/04/2020 10
Analyse syntaxique classique
• Objectif: judger si une phrase est correcte • approche constructiviste – construire un arbre syntaxique pour la phrase d'éntrée, en appliquant les règles de grammaire • nécessite des ressources complètes • pas adaptée aux textes spécialisés, transcrits de l'oral, pas de phrases complexes Théories linguistiques 28/04/2020 11
Analyse syntaxique classique (II)
• Règles de grammaire independentes du contexte – FIPS (Werhli, 2005) • Modèles formels pour décrire la grammaire – Constraint Grammar (VISL, Bick, 2009) Théories linguistiques 28/04/2020 12
Un modèle formel
• un formalisme de représentation des connaissances linguistiques et extralinguistiques – – –
des règles de grammaires des entrées du lexique des connaissances du domaine
• modalités de calcul – pour construire un arbre syntaxique – pour construire une représentation sémantique Théories linguistiques 28/04/2020 13
Pourquoi des modèles?
• les grammaires independentes de contexte ne sont pas suffisantes – phénomènes linguistiques à traiter: règles d'accord, verbes transitives et intransitives, dépendences à distance • optimiser le calcul pour – les arbres syntaxiques – les représentations sémantiques Théories linguistiques 28/04/2020 14
Modèles
• Plusieurs aspects – organisation du lexique – stratégies d'analyse automatique • Plusieurs modèles – GPSG (Generalized Phrase Structure Grammar) (Gazdar) – LFG (Lexical Function Grammar) (Kaplan) – HPSG (Head Phrase Structure Grammar) (Pollard, Sag, 1994) – TAG (Joshi, 1985), LTAG (Joshi, 1995) 28/04/2020 Théories linguistiques 15
TAG
• Tree Adjoining Grammars (Joshi, 1975, 1995) – l'hypothèse: représenter les contextes syntaxiques locales (des arbres syntaxiques) – contraintes sur les combinaisons entre ces arbres syntaxiques – justification linguistique (structure prédicat argument) – prise en compte de l'ordre locale des mots Théories linguistiques 28/04/2020 16
TAG (II)
• •
La grammaire
: un symbole initial, des symboles non-terminaux, des symboles terminaux
Les règles de réecriture:
un ensemble d'arbres – arbre initial : un arbre ayant le noeud racine étiqueté avec le symbole initial • noeuds feuilles: symboles terminaux – arbre auxiliaire : un seul noeud feuille étiqueté X, la même étiquete que l'étiquette du noeud racine Théories linguistiques 28/04/2020 17
α :
Arbre initial et arbre auxiliaire
: X Phrase W W T* (T l'ensemble de symboles terminaux) Arbre initial α 28/04/2020 W1 X W2 W1, W2 T* (T l'ensemble de symboles terminaux) X NT (NT – symbole non-terminal) Arbre auxiliaire Théories linguistiques 18
: Phrase X t
Adjonction
: X X t – sous arbre avec la racine X ' : X X t X Théories linguistiques 28/04/2020 19
TAG et contraintes locales
• pour chaque noeud n, specifie les arbres auxiliaires qui peuvent d'adjoindre – Selectif : une liste d'arbres auxiliaires – zero: aucun arbre auxiliaire peut s'adjoindre – obligatoire: les arbres qui doivent s'adjoindre Théories linguistiques 28/04/2020 20
Avantages et limites
• Avantages – modèle operationnel: adjonction – motivation linguistique – prise en compte des contraintes locales • limites – beaucoup d'arbres à combiner – pas de lien direct avec le lexique Théories linguistiques 28/04/2020 21
Lexicalized Tree Adjoining Grammars (LTAG)
• association entrée lexicale - arbres – description complète de l'environnement syntaxique – possibilité de traiter les expressions figées • modifications par rapport au TAG – ancrage lexical – deux opérations: substitution (obligatoire) et adjonction (facultative) Théories linguistiques 28/04/2020 22
Arbres LTAG
• Arbres élémentaires – décrivent des arguments obligatoires avec d'autres arbres: tête-complément – au moins un noeud ancre (l'unité lexicale) – des noeuds de substitution ( ) • Arbres auxiliaires – relations tête-modifieurs – un noeud ancre – un noeud pied (*), l'étiquette est identique au noeud racine Théories linguistiques 28/04/2020 23
nv1: S GN V adv1: V
Exemples
nvn1: S GN V GN np1: GN V* 28/04/2020 Adv Np Théories linguistiques 24
Propriétés
• Grammaire lexicalisée: – arbres – unités lexicales associées aux arbres – opérations • localité – un arbre élémentaire contient tous les arguments dans la même structure – pour chaque unité lexicale, on associe plusieurs arbres • recursivité: arbres auxiliaires 28/04/2020 Théories linguistiques 25
Arbres derivés et arbres de derivation
• arbres derivés: – le résultat obtenu suite aux opération de substitution et d'adjonction, sur les arbres associés aux unités lexicales de la phrase d'entrée • arbres de derivation – les noeuds étiquetés avec le nom de l'arbre et l'ancre (le lemme) – les liens – opérations d'adjonction ou de substitution • arbre de dépendances – on supprime les noms des arbres dans l'arbre de derivation 28/04/2020 Théories linguistiques 26
Ressources
• XTAG (Doran et al, 1994) – grammaire de grande couverture – étiquetteur, analyseur morphologique, analyseur syntaxique – http://www.cis.upenn.edu/~xtag/ • FTAG (Abeillé, 2002) – grammaire de grande couverture pour le français Théories linguistiques 28/04/2020 27
L'analyseur syntaxique LTAG
• développé par Langue et Dialogue, LORIA, INRIA-Lorraine – http://www.loria.fr/~azim/LLP2/help/fr/index.html
• utilise un lexique et une grammaire d'arbres adjoints (Joshi 1995) – chaque mot est associé à une famille d'arbres – un arbre décrit le comportement syntaxique de chaque mot – grammaire d'arbres adjoints lexicalisée (LTAG) (Abeillé et al, 2001) – possible extensions pour les structures de traits 28/04/2020 Théories linguistiques 28
L'analyseur syntaxique LTAG (II)
• Combiner les arbres associés aux mots de la phrase – opération de substitution: structure prédicat arguments – opération d'adjonction: les modifieurs • coût important d'adaptation des ressources aux domaines nouveaux Théories linguistiques 28/04/2020 29
Jean dort énormément Lexique énormément Jean dormir 28/04/2020 V N S Arbres S V* Adv Jean N V N N V V Np énormément substitution dort S adjonction S N Jean V dort V* Adv N Théories linguistiques Jean V Adv dort énormément 30
Ressources
• une DTD qui décrit les familles d'arbres, de lemmes et d'unités lexicales • un arbre: – au moins un noeud ancre (attribut type ) – un noeud tête (l'élement central qui porte les propriétés du constituant) – des noeuds de type substitution ( subst ) ou adjonction ( foot ) • lien avec le lemme: lexicalisation • unités lexicales: morphoLib 28/04/2020 Théories linguistiques 31
Exemple d'arbre
28/04/2020 Théories linguistiques 32
Exemples de ancrage
Exemple d'entrée
Autres outils
• French MetaGrammar parser http://alpage.inria.fr/alpi.fr.html
• autres parseurs – http://alpage.inria.fr/software.fr.html
• XTAG parser (Bangalore, 1997) utilisant des informations statistiques pour réduire le nombre d'arbres Théories linguistiques 28/04/2020 35
Projets et évenements
•
Outils et ressources
– SYNTAX (équipe ALPAGE) – générer des analyseurs pour les grammaires TAG – Multiple Information Access using Multiple Modalities – MIAMM (LORIA) (2002-2004) – Ozone (2003-2005) (LORIA) – French Treebank (Anne Abeillé) (2003) •
événements
–
Journée ATALA: Quels analyseurs syntaxiques pour le français ? (oct 09) http://www.atala.org/
– 28/04/2020
IWPT'09
Théories linguistiques 36
Avantages et Limites
• avantages – modèle opérationnel – adaptable pour l'analyse partielle – motivation linguistique • limites – coût important pour créer les ressources – nécessite une sélection préalable des arbres Théories linguistiques 28/04/2020 37
Réferences
• Abeillé, A., L. Clément, and F. Toussenel. 2003. `Building a treebank for French', in A. Abeillé (ed)
Treebanks
, Kluwer, Dordrecht • Abeillé, A., Schabes, Y., Joshi, A. 1990. Using Lexicalized Tags for Machine Translation. COLING 1990: 1-6 • Abeillé, A. 2002.
Une grammaire électronique du français
, CNRS Editions, Paris.
• Steven Abney. Parsing By Chunks. In: Robert Berwick, Steven Abney and Carol Tenny (eds.), Principle-Based Parsing. Kluwer Academic Publishers, Dordrecht. 1991. • Ait-Mokhtar, S., Chanod, J.-P. 1997. Incremental Finite State Parsing, ANLP 1997, 72-79 • Bangalore, S. (1997) Complexity of Lexical Descriptions and its Relevance to Partial Parsing 28/04/2020 Théories linguistiques 38
Réferences (II)
• Carroll, J. and E. Briscoe (1996) `Apportioning development effort in a probabilistic LR parsing system through evaluation'. In
Proceedings of the ACL/SIGDAT Conference on Empirical Methods in Natural Language Processing,
University of Pennsylvania, PA. 92-100 • Chappelier, C., Rajman, M. (1998) A Generalized CYK Algorithm for Parsing Stohastic CFG, TAPD 1998 • Collins, M. (1996). A New Statistical Parser Based on Bigram Lexical Dependencies • Doran et al 1994. XTAG System – A Wide Coverage Grammar for English. In
Proceedings of COLING'94
. • Gazdar, G. 1985. Phrase Structured Grammars and Natural Languages, Proceedings of IJCAI.
28/04/2020 Théories linguistiques 39
Réferences (III)
• Kaplan, R., Bresnan, J. 1983. Lexical Functional Grammar: A Formal System for Grammatical Representation. In J.Bresnan (ed.) The Mental Representation of Grammatical Relations. MIT Press, Cambridge, Massachusetts • Joshi, A. 1995. Introduction to Tree Adjoining Grammars. In
Computational Intelligence
• Joshi, A., Levy, L., Takahashi, M. 1975. Tree Adjunct Grammars.
J. Comput. Syst. Sci.
10(1): 136-163 • Vergne, J. (1999) Étude et modélisation de la syntaxe des langues à l'aide de l'ordinateur. Analyse syntaxique automatique non combinatoire. Synthèse et Résultats, Mémoire HDR. • Vijay-Shankar, K, Joshi, A. Some Computational Properties of Tree Adjoining Grammars, HLT 1986 Théories linguistiques 28/04/2020 40
Head-driven Phrase Structured Grammar
28/04/2020 Théories linguistiques 41
HPSG
• proposé par I.Sag et C.Pollard (Stanford), 1994 • grammaires d'unification • les entrées lexicales et les règles de grammaires – structures de traits (propriétés-valeurs) – information riche dans le lexique Théories linguistiques 28/04/2020 42
Structure de traits (feature-structure
• une structure de traits
)
– un ensemble de propriétés et leurs valeurs – valeurs: atomiques ou d'autres f-structures – propriétés: • phonologiques • syntaxiques • sémantiques • relation d'ordre (une structure A est plus informative que la structure B si elle contient toutes les propriétés de la structure B et quelques propriétés en plus) Théories linguistiques 28/04/2020 43
Opérations sur les structures
• Union : – le résultat de l'union de A et B doit contenir toutes les propriétés de A et B; – pour les propriétés communes, la valeur calculée est l'union de valeurs: • si la valeur est atomique et identique, l'union est possible • si la valeur est atomique et différente, alors l'union est vide • sinon, il faut proposer l'union des valeurs de ces propriétés Théories linguistiques 28/04/2020 44
SYNSEM
:
LOC
:
CAT
:
HEAD
:
SUBCAT
POS
: :
verbe NP
[ 3
rd
,
sg
]
SYNSEM
:
LOC
:
CAT
:
HEAD
:
NB
:
PERS sg
: 3
rd
SYNSEM
:
LOC
:
CAT
:
HEAD
:
SUBCAT
POS NB
: :
verbe sg
PERS
: 3
rd
:
NP
[ 3
rd
,
sg
] 28/04/2020 Théories linguistiques 45
Structures typées
• • une propriété peut avoir comme valeur une structure – le type de structure = l'ensemble des propriétés spécifiques
sign
=
word
phrase
• le type
sign
=
PHON, SYNSEM
• le type
synsem
=
CAT, CONTENT,CONTEXT
– CAT – les propriétés morphologiques et les listes de sous catégorisation – CONTENT – les propriétés sémantiques non contextuelles – CONTEXT – d'autres connaissances du domaine Théories linguistiques 28/04/2020 46
Le lexique
• entrées lexicales riches – information phonologique/phonétique – information morphologique et syntaxique • constituants syntaxiques qui doivent se combiner avec l'unité lexicale – information sémantique • structure prédicat-argument – information contextuelles – information à distance • tout l'information nécessaire pour l'analyse est concentrée au niveau lexical 28/04/2020 Théories linguistiques 47
Une structure générique
•
word
pour les entrées du lexique
word
PHON
:
SYNSEM trans
: _
LOC
:
phon
CAT
:
HEAD SUBCAT CONTENT
:
sem
:
pos
:
sign
1 ,
sign
2 ,...
Théories linguistiques 28/04/2020 48
Un exemple pour une entrée lexicale
• un verbe et un nom propre
PHON
:
SYNSEM walks
:
LOC
:
CAT
:
HEAD SUBCAT CONTENT
: :
verb
:
RELN
[
fin NP
:
AGENT
[ : ]
nom walk
[ 1 ] ] 3
rd
,
sg
PHON
:
SYNSEM John
:
LOC
:
CAT
:
HEAD
: [
SUBCAT
1 ]
CONTENT
: :
proper
_
noun REL
:
name BEARER NAME
: : [ 1 ]
John
28/04/2020 Théories linguistiques 49
D'autres exemples des entrées
•
word
pour un verbe bitransitif
PHON
:
SYNSEM gives
:
LOC
:
CAT
:
HEAD SUBCAT CONTENT
: :
verb
:
REL
: [
NP give AGENT GOAL
:
THEME fin
[ [ : : 2
nom
[ ] ] 1 [ 3 ] ] ][ 1 ][ 3
rd
,
sg
],
NP
[
acc
][ 2 ],
NP
[
acc
][ 3 ] Théories linguistiques 28/04/2020 50
La grammaire
• quelques principes universels – le principe du noyau (Head Principle) – le principe de sous-catégorisation (Sucategorization principle) – le principe sémantique • quelques principes spécifiques pour chaque langue – pour l'ordre – pour des phénomènes spécifiques • quelques règles dépendentes pour chaque langue – les exceptions 28/04/2020 Théories linguistiques 51
Une structure générique: phrase
• la phrase a comme propriétés PHON et SYNSEM, mais aussi DTRS (DAUGHTERS) • DTRS: HEAD-DTR (le noyau) et les COMP-DTRS (une liste de constituants obligatoires) – autres catégories de DTRS: ADJUNCT-DTR, FILLER-DTR, MARKER-DTR Théories linguistiques 28/04/2020 52
Le principe du noyau
• la phrase partage les propriétés du noyau – noyau: nom pour le groupe nominal, verbe pour la phrase etc.
• il s'agit des propriétés morphologiques, syntaxiques, sémantiques Théories linguistiques 28/04/2020 53
Le principe de sous-catégorisation
• La valeur SUBCAT du noyau de la phrase est la concatenation de la liste SUBCAT de la phrase avec les valeurs SYNSEM des compléments 28/04/2020 Théories linguistiques 54
Un exemple d'arbre
LOC CAT
:
HEAD
: [
SUBCAT
4 ] : 28/04/2020 [1]
LOC CAT
:
HEAD
: [
SUBCAT
4 ] : [ 1 ]
VP
[
fin
] Kim
LOC CAT
:
HEAD
: [
SUBCAT
4 ] : [ 1 ]
NP
[
nom
] [ 3
rd
,
sg
] , [ 2 ]
NP
[
acc
], [ 3 ]
NP
[
acc
] [2] [3] Sandy Fido gives Théories linguistiques 55
Propriétés de dépendences à distance
• un élément vide prévu dans le lexique • un principe pour lier les élements vides Théories linguistiques 28/04/2020 56
28/04/2020 Théories linguistiques 57
Une analyse automatique
• identifie les entrées lexicales pour chaque mot de la phrase à analyser • pour chaque entrée dont [HEAD : nom| verbe|préposition] – appliquer le principe de sous-catégorisation pour essayer de saturer les phrases – appliquer le principe du noyau, sémantique et les autres principes (contraintes d'unification) • si l'unification echoue, la phrase est incorrecte • si l'unification a reussi, la phrase a une représentation syntaxique donc elle est reconnue par la grammaire 28/04/2020 Théories linguistiques 58
Travaux de recherche
• linguistique – traiter les divers phénomènes pour divers langues • clitiques: Italien, Français (Monachesi 1999, Abeillé 1996) • ellipse (Lappin, ): anglais • anaphore: anglais • TAL – développement d'algorithmes d'analyse (VanNoord, 1996, Meurers et al., 2003) – développement de systèmes pour écrire des grammaires – logique (compilation de grammaire, optimisation des opérations) 28/04/2020 Théories linguistiques 59
Grammaires HPSG
• Une grammaire HPSG pour plusieurs langues – http://www.delph-in.net/index.php?page=3 – ERG: pour l'anglais • http://www.delph-in.net/erg/ – espagnol http://www.upf.edu/pdi/iula/montserrat.marimo
n/spanish_resource_grammar.html
Théories linguistiques 28/04/2020 60
Ressources HPSG
• le projet HPSG – http://hpsg.stanford.edu/index.html
• le projet Verbmobil – http://verbmobil.dfki.de/overview-us.html
– dialogue homme-machine • Projets: – Linguistic Data Structures: On the Relation between Data and Theory in Linguistics (Université de Tübingen) – lien avec le corpus – Bulgarian Tree Bank : corpus annoté et CLARK – système pour annoter • http://www.bultreebank.org/clark/index.html
Théories linguistiques 28/04/2020 61
Ressources (II)
• Systèmes pour développer des grammaires – ALE (en Prologue) http://www.cs.toronto.edu/~gpenn/ale.html
– Controll (pas maintenu!) http://www.sfs.uni tuebingen.de/controll/ • Analyseurs pour l'anglais et pour le néerlandais – http://www.let.rug.nl/~vannoord/Hdrug/ (en Prolog) Théories linguistiques 28/04/2020 62
Avantages
• une seule opération: l'unification des structures • mots et phrases: structure de traits • structures partagées (unicité de l'objet) • toutes les catégories d'informations (syntaxiques, sémantiques, locales, non locales) sont représentées de manière uniforme Théories linguistiques 28/04/2020 63
Limites
• beaucoup d'informations dans le lexique – liste exhaustive de toutes les formes • analyse partielle n'est pas possible (si l'unification echoue) • information redondante (HEAD, SUBCAT, DTRS) • pas des données extraites du corpus pour représenter les grammaires Théories linguistiques 28/04/2020 64
Réferences HPSG
• C. Pollard, I. Sag - Head-driven phrase structure grammar, 1994 • I. Sag,T. Wasow, E. Bender - Syntactic theory: a formal introduction, 2003 • Bibliographie HPSG interactive – http://hpsg.fu-berlin.de/HPSG-Bib/Bib/V.html
• R. D. Levine & D. Meurers - Head-Driven Phrase Structure Grammar: Linguistic Approach, Formal Foundations, and Computational Realization. In K. Brown (Ed.):
Encyclopedia of Language and Linguistics, Second Edition
. Oxford: Elsevier. 2006.
28/04/2020 Théories linguistiques 65
Réferences HPSG (II)
• Meurers, W. D., Kuthy, K. D. and Metcalf, V. (2003). Modularity of grammatical constraints in HPSG-based grammar implementations. In M. Siegel, F. Fouvry, D. Flickinger and E. Bender (eds.), Proceedings of the ESSLLI ’03 workshop “Ideas and Strategies for Multilingual Grammar Development”. Vienna, Austria. http://ling.osu.edu/ ∼ dm/papers/meurers-dekuthy metcalf-03.html.
• Monachesi, P. (1999). A lexical approach to Italian cliticization, vol. 84. Stanford, CA: CSLI Publications.
• van Noord, G. and Bouma, G. (1997). Hdrug, A Flexible and Extendible Development, Environment for Natural Language Processing. In Estival et al. (1997).
Théories linguistiques 28/04/2020 66