Theories linguistiques pour le TAL

Download Report

Transcript Theories linguistiques pour le TAL

Theories linguistiques pour le TAL

Amalia Todirascu [email protected]

Théories linguistiques 28/04/2020 1

Plan

• Grammaires de constituants, Grammaires de dépendances, modèles formels • pourquoi des modèles formels pour l'analyse syntaxique automatique?

• LTAG – théorie – applications Théories linguistiques 28/04/2020 2

Analyse syntaxique automatique

• approches –

classique (analyse complète)

• •

grammaire lexique

– analyse partielle: chunks (Abney, 1991, Vergne, 1999), automates à états finis (Ait-Mokhtar et Chanod, 1999) Théories linguistiques 28/04/2020 3

Analyse syntaxique automatique (II)

• approches – Manuelle – Apprentissage automatique: • Anglais – Caroll et Briscoe (1996) – Collins (1996) • Français – Chappelier et Rajman (1998), (Candito et al, 2010) • Allemand – Bohnet (2010) Théories linguistiques 28/04/2020 4

Rappel: Grammaire TAL

• symbol initial: Phrase • un ensemble de symboles non-terminaux: les classes syntaxiques • un ensemble de symboles terminaux: à retrouver dans le lexique ou la catégorie lexicale • un ensemble de règles de réecriture Théories linguistiques 28/04/2020 5

Grammaire

• Phrase -> GN GV • Phrase -> GN GV GN • Phrase -> GN GV GN GP • GN -> Det Nom • GN -> Det Nom Adj • GN -> NProp • GN -> Pron 28/04/2020 • GV -> Verbe • GV -> Aux Verbe • GP -> Prep GN • GP -> Prep GN GP Théories linguistiques 6

Grammaires de dépendance

S NP V NP EN Karl D travaille le 28/04/2020

R0

N

SBJ

soir Théories linguistiques ROOT EN Karl

VMOD NMOD

V D travaille le N soir 7

NP EN Karl

Grammaires de dépendance (II)

S V NP D N ROOT

R0 SBJ

V:travaille

VMOD

NE:Karl N:soir

NMOD

D:le travaille le soir Théories linguistiques 28/04/2020 8

Grammaires de dépendance

ROOT

R0

• Formalisme: • T = terminaux • N = non-terminaux • L = étiquettes • ROOT = noeud initial

SBJ

V:travaille EN:Karl

VMOD

N:soir

NMOD

• règles: • R I : règle de catégorisation : X  y 1 | … | y n D:le • R II : règle de dépendence : X(Y 1 …Y i *Y i+1 …Y n ) • R III : catégories liées avec ROOT Théories linguistiques 28/04/2020 9

Exemples

• MST parser (Candito et al, 2010) – entrée: MElt tagger (Sagot, Denis, 2010) – sortie: relations de dépendance – ressource: FRench Treebank (Abeillé et al, 2003) • Annotation au niveau de constituents : AP, PP, NP, VN, AdP, VPinf, VPpart • Annotation au niveau de fonctions syntaxiques Théories linguistiques 28/04/2020 10

Analyse syntaxique classique

• Objectif: judger si une phrase est correcte • approche constructiviste – construire un arbre syntaxique pour la phrase d'éntrée, en appliquant les règles de grammaire • nécessite des ressources complètes • pas adaptée aux textes spécialisés, transcrits de l'oral, pas de phrases complexes Théories linguistiques 28/04/2020 11

Analyse syntaxique classique (II)

• Règles de grammaire independentes du contexte – FIPS (Werhli, 2005) • Modèles formels pour décrire la grammaire – Constraint Grammar (VISL, Bick, 2009) Théories linguistiques 28/04/2020 12

Un modèle formel

• un formalisme de représentation des connaissances linguistiques et extralinguistiques – – –

des règles de grammaires des entrées du lexique des connaissances du domaine

• modalités de calcul – pour construire un arbre syntaxique – pour construire une représentation sémantique Théories linguistiques 28/04/2020 13

Pourquoi des modèles?

• les grammaires independentes de contexte ne sont pas suffisantes – phénomènes linguistiques à traiter: règles d'accord, verbes transitives et intransitives, dépendences à distance • optimiser le calcul pour – les arbres syntaxiques – les représentations sémantiques Théories linguistiques 28/04/2020 14

Modèles

• Plusieurs aspects – organisation du lexique – stratégies d'analyse automatique • Plusieurs modèles – GPSG (Generalized Phrase Structure Grammar) (Gazdar) – LFG (Lexical Function Grammar) (Kaplan) – HPSG (Head Phrase Structure Grammar) (Pollard, Sag, 1994) – TAG (Joshi, 1985), LTAG (Joshi, 1995) 28/04/2020 Théories linguistiques 15

TAG

• Tree Adjoining Grammars (Joshi, 1975, 1995) – l'hypothèse: représenter les contextes syntaxiques locales (des arbres syntaxiques) – contraintes sur les combinaisons entre ces arbres syntaxiques – justification linguistique (structure prédicat argument) – prise en compte de l'ordre locale des mots Théories linguistiques 28/04/2020 16

TAG (II)

• •

La grammaire

: un symbole initial, des symboles non-terminaux, des symboles terminaux

Les règles de réecriture:

un ensemble d'arbres – arbre initial : un arbre ayant le noeud racine étiqueté avec le symbole initial • noeuds feuilles: symboles terminaux – arbre auxiliaire : un seul noeud feuille étiqueté X, la même étiquete que l'étiquette du noeud racine Théories linguistiques 28/04/2020 17

α :

Arbre initial et arbre auxiliaire

 : X Phrase W W  T* (T l'ensemble de symboles terminaux) Arbre initial α 28/04/2020 W1 X W2 W1, W2  T* (T l'ensemble de symboles terminaux) X  NT (NT – symbole non-terminal) Arbre auxiliaire  Théories linguistiques 18

 : Phrase X t

Adjonction

 : X X t – sous arbre avec la racine X  ' : X X t X Théories linguistiques 28/04/2020 19

TAG et contraintes locales

• pour chaque noeud n, specifie les arbres auxiliaires qui peuvent d'adjoindre – Selectif : une liste d'arbres auxiliaires – zero: aucun arbre auxiliaire peut s'adjoindre – obligatoire: les arbres qui doivent s'adjoindre Théories linguistiques 28/04/2020 20

Avantages et limites

• Avantages – modèle operationnel: adjonction – motivation linguistique – prise en compte des contraintes locales • limites – beaucoup d'arbres à combiner – pas de lien direct avec le lexique Théories linguistiques 28/04/2020 21

Lexicalized Tree Adjoining Grammars (LTAG)

• association entrée lexicale - arbres – description complète de l'environnement syntaxique – possibilité de traiter les expressions figées • modifications par rapport au TAG – ancrage lexical – deux opérations: substitution (obligatoire) et adjonction (facultative) Théories linguistiques 28/04/2020 22

Arbres LTAG

• Arbres élémentaires – décrivent des arguments obligatoires avec d'autres arbres: tête-complément – au moins un noeud ancre (l'unité lexicale) – des noeuds de substitution (  ) • Arbres auxiliaires – relations tête-modifieurs – un noeud ancre – un noeud pied (*), l'étiquette est identique au noeud racine Théories linguistiques 28/04/2020 23

nv1: S GN  V  adv1: V

Exemples

nvn1: S GN  V  GN  np1: GN V* 28/04/2020 Adv  Np  Théories linguistiques 24

Propriétés

• Grammaire lexicalisée: – arbres – unités lexicales associées aux arbres – opérations • localité – un arbre élémentaire contient tous les arguments dans la même structure – pour chaque unité lexicale, on associe plusieurs arbres • recursivité: arbres auxiliaires 28/04/2020 Théories linguistiques 25

Arbres derivés et arbres de derivation

• arbres derivés: – le résultat obtenu suite aux opération de substitution et d'adjonction, sur les arbres associés aux unités lexicales de la phrase d'entrée • arbres de derivation – les noeuds étiquetés avec le nom de l'arbre et l'ancre (le lemme) – les liens – opérations d'adjonction ou de substitution • arbre de dépendances – on supprime les noms des arbres dans l'arbre de derivation 28/04/2020 Théories linguistiques 26

Ressources

• XTAG (Doran et al, 1994) – grammaire de grande couverture – étiquetteur, analyseur morphologique, analyseur syntaxique – http://www.cis.upenn.edu/~xtag/ • FTAG (Abeillé, 2002) – grammaire de grande couverture pour le français Théories linguistiques 28/04/2020 27

L'analyseur syntaxique LTAG

• développé par Langue et Dialogue, LORIA, INRIA-Lorraine – http://www.loria.fr/~azim/LLP2/help/fr/index.html

• utilise un lexique et une grammaire d'arbres adjoints (Joshi 1995) – chaque mot est associé à une famille d'arbres – un arbre décrit le comportement syntaxique de chaque mot – grammaire d'arbres adjoints lexicalisée (LTAG) (Abeillé et al, 2001) – possible extensions pour les structures de traits 28/04/2020 Théories linguistiques 28

L'analyseur syntaxique LTAG (II)

• Combiner les arbres associés aux mots de la phrase – opération de substitution: structure prédicat arguments – opération d'adjonction: les modifieurs • coût important d'adaptation des ressources aux domaines nouveaux Théories linguistiques 28/04/2020 29

Jean dort énormément Lexique énormément Jean dormir 28/04/2020 V N S Arbres S V* Adv Jean N  V N N  V V Np  énormément substitution dort S adjonction S N Jean V dort V* Adv  N Théories linguistiques Jean V Adv dort énormément 30

Ressources

• une DTD qui décrit les familles d'arbres, de lemmes et d'unités lexicales • un arbre: – au moins un noeud ancre (attribut type ) – un noeud tête (l'élement central qui porte les propriétés du constituant) – des noeuds de type substitution ( subst ) ou adjonction ( foot ) • lien avec le lemme: lexicalisation • unités lexicales: morphoLib 28/04/2020 Théories linguistiques 31

Exemple d'arbre

28/04/2020 Théories linguistiques 32

Exemples de ancrage

28/04/2020 Théories linguistiques 33

Exemple d'entrée

28/04/2020 Théories linguistiques 34

Autres outils

• French MetaGrammar parser http://alpage.inria.fr/alpi.fr.html

• autres parseurs – http://alpage.inria.fr/software.fr.html

• XTAG parser (Bangalore, 1997) utilisant des informations statistiques pour réduire le nombre d'arbres Théories linguistiques 28/04/2020 35

Projets et évenements

Outils et ressources

– SYNTAX (équipe ALPAGE) – générer des analyseurs pour les grammaires TAG – Multiple Information Access using Multiple Modalities – MIAMM (LORIA) (2002-2004) – Ozone (2003-2005) (LORIA) – French Treebank (Anne Abeillé) (2003) •

événements

Journée ATALA: Quels analyseurs syntaxiques pour le français ? (oct 09) http://www.atala.org/

– 28/04/2020

IWPT'09

Théories linguistiques 36

Avantages et Limites

• avantages – modèle opérationnel – adaptable pour l'analyse partielle – motivation linguistique • limites – coût important pour créer les ressources – nécessite une sélection préalable des arbres Théories linguistiques 28/04/2020 37

Réferences

• Abeillé, A., L. Clément, and F. Toussenel. 2003. `Building a treebank for French', in A. Abeillé (ed)

Treebanks

, Kluwer, Dordrecht • Abeillé, A., Schabes, Y., Joshi, A. 1990. Using Lexicalized Tags for Machine Translation. COLING 1990: 1-6 • Abeillé, A. 2002.

Une grammaire électronique du français

, CNRS Editions, Paris.

• Steven Abney. Parsing By Chunks. In: Robert Berwick, Steven Abney and Carol Tenny (eds.), Principle-Based Parsing. Kluwer Academic Publishers, Dordrecht. 1991. • Ait-Mokhtar, S., Chanod, J.-P. 1997. Incremental Finite State Parsing, ANLP 1997, 72-79 • Bangalore, S. (1997) Complexity of Lexical Descriptions and its Relevance to Partial Parsing 28/04/2020 Théories linguistiques 38

Réferences (II)

• Carroll, J. and E. Briscoe (1996) `Apportioning development effort in a probabilistic LR parsing system through evaluation'. In

Proceedings of the ACL/SIGDAT Conference on Empirical Methods in Natural Language Processing,

University of Pennsylvania, PA. 92-100 • Chappelier, C., Rajman, M. (1998) A Generalized CYK Algorithm for Parsing Stohastic CFG, TAPD 1998 • Collins, M. (1996). A New Statistical Parser Based on Bigram Lexical Dependencies • Doran et al 1994. XTAG System – A Wide Coverage Grammar for English. In

Proceedings of COLING'94

. • Gazdar, G. 1985. Phrase Structured Grammars and Natural Languages, Proceedings of IJCAI.

28/04/2020 Théories linguistiques 39

Réferences (III)

• Kaplan, R., Bresnan, J. 1983. Lexical Functional Grammar: A Formal System for Grammatical Representation. In J.Bresnan (ed.) The Mental Representation of Grammatical Relations. MIT Press, Cambridge, Massachusetts • Joshi, A. 1995. Introduction to Tree Adjoining Grammars. In

Computational Intelligence

• Joshi, A., Levy, L., Takahashi, M. 1975. Tree Adjunct Grammars.

J. Comput. Syst. Sci.

10(1): 136-163 • Vergne, J. (1999) Étude et modélisation de la syntaxe des langues à l'aide de l'ordinateur. Analyse syntaxique automatique non combinatoire. Synthèse et Résultats, Mémoire HDR. • Vijay-Shankar, K, Joshi, A. Some Computational Properties of Tree Adjoining Grammars, HLT 1986 Théories linguistiques 28/04/2020 40

Head-driven Phrase Structured Grammar

28/04/2020 Théories linguistiques 41

HPSG

• proposé par I.Sag et C.Pollard (Stanford), 1994 • grammaires d'unification • les entrées lexicales et les règles de grammaires – structures de traits (propriétés-valeurs) – information riche dans le lexique Théories linguistiques 28/04/2020 42

Structure de traits (feature-structure

• une structure de traits

)

– un ensemble de propriétés et leurs valeurs – valeurs: atomiques ou d'autres f-structures – propriétés: • phonologiques • syntaxiques • sémantiques • relation d'ordre (une structure A est plus informative que la structure B si elle contient toutes les propriétés de la structure B et quelques propriétés en plus) Théories linguistiques 28/04/2020 43

Opérations sur les structures

• Union : – le résultat de l'union de A et B doit contenir toutes les propriétés de A et B; – pour les propriétés communes, la valeur calculée est l'union de valeurs: • si la valeur est atomique et identique, l'union est possible • si la valeur est atomique et différente, alors l'union est vide • sinon, il faut proposer l'union des valeurs de ces propriétés Théories linguistiques 28/04/2020 44

   

SYNSEM

:

LOC

:    

CAT

:   

HEAD

:

SUBCAT

POS

: :

verbe NP

[ 3

rd

, 

sg

]               

SYNSEM

:

LOC

:    

CAT

:   

HEAD

:   

NB

:

PERS sg

: 3

rd

                     

SYNSEM

:

LOC

:    

CAT

  :      

HEAD

:

SUBCAT

   

POS NB

: :

verbe sg

 

PERS

: 3

rd

  :

NP

[ 3

rd

,

sg

]                   28/04/2020 Théories linguistiques 45

Structures typées

• • une propriété peut avoir comme valeur une structure – le type de structure = l'ensemble des propriétés spécifiques

sign

=

word

phrase

• le type

sign

=

PHON, SYNSEM

• le type

synsem

=

CAT, CONTENT,CONTEXT

– CAT – les propriétés morphologiques et les listes de sous catégorisation – CONTENT – les propriétés sémantiques non contextuelles – CONTEXT – d'autres connaissances du domaine Théories linguistiques 28/04/2020 46

Le lexique

• entrées lexicales riches – information phonologique/phonétique – information morphologique et syntaxique • constituants syntaxiques qui doivent se combiner avec l'unité lexicale – information sémantique • structure prédicat-argument – information contextuelles – information à distance • tout l'information nécessaire pour l'analyse est concentrée au niveau lexical 28/04/2020 Théories linguistiques 47

Une structure générique

word

pour les entrées du lexique

word

       

PHON

:

SYNSEM trans

: _

LOC

:

phon

     

CAT

:    

HEAD SUBCAT CONTENT

:

sem

:

pos

:

sign

1 ,

sign

2 ,...

                  Théories linguistiques 28/04/2020 48

Un exemple pour une entrée lexicale

• un verbe et un nom propre        

PHON

:

SYNSEM walks

:

LOC

:      

CAT

:   

HEAD SUBCAT CONTENT

:   :

verb

:

RELN

[

fin NP

:

AGENT

[ : ]

nom walk

[ 1 ]   ]   3

rd

,

sg

                  

PHON

    :    

SYNSEM John

:

LOC

:     

CAT

:   

HEAD

: [

SUBCAT

1 ]   

CONTENT

:     :

proper

_

noun REL

:

name BEARER NAME

: : [ 1 ]

John

                        28/04/2020 Théories linguistiques 49

D'autres exemples des entrées

word

pour un verbe bitransitif            

PHON

:

SYNSEM gives

:

LOC

:          

CAT

:   

HEAD SUBCAT CONTENT

:       :

verb

:

REL

: [

NP give AGENT GOAL

:

THEME fin

[ [ : : 2

nom

[ ] ] 1 [ 3 ] ]       ][ 1 ][ 3

rd

,

sg

],

NP

[

acc

][ 2 ],

NP

[

acc

][ 3 ]                          Théories linguistiques 28/04/2020 50

La grammaire

• quelques principes universels – le principe du noyau (Head Principle) – le principe de sous-catégorisation (Sucategorization principle) – le principe sémantique • quelques principes spécifiques pour chaque langue – pour l'ordre – pour des phénomènes spécifiques • quelques règles dépendentes pour chaque langue – les exceptions 28/04/2020 Théories linguistiques 51

Une structure générique: phrase

• la phrase a comme propriétés PHON et SYNSEM, mais aussi DTRS (DAUGHTERS) • DTRS: HEAD-DTR (le noyau) et les COMP-DTRS (une liste de constituants obligatoires) – autres catégories de DTRS: ADJUNCT-DTR, FILLER-DTR, MARKER-DTR Théories linguistiques 28/04/2020 52

Le principe du noyau

• la phrase partage les propriétés du noyau – noyau: nom pour le groupe nominal, verbe pour la phrase etc.

• il s'agit des propriétés morphologiques, syntaxiques, sémantiques Théories linguistiques 28/04/2020 53

Le principe de sous-catégorisation

• La valeur SUBCAT du noyau de la phrase est la concatenation de la liste SUBCAT de la phrase avec les valeurs SYNSEM des compléments 28/04/2020 Théories linguistiques 54

Un exemple d'arbre

  

LOC CAT

:   

HEAD

: [

SUBCAT

4 ] :       28/04/2020 [1]   

LOC CAT

:   

HEAD

: [

SUBCAT

4 ] : [ 1 ]      

VP

[

fin

] Kim   

LOC CAT

:   

HEAD

: [

SUBCAT

4 ] : [ 1 ]

NP

[

nom

] [ 3

rd

,

sg

] , [ 2 ]

NP

[

acc

], [ 3 ]

NP

[

acc

]       [2] [3] Sandy Fido gives Théories linguistiques 55

Propriétés de dépendences à distance

• un élément vide prévu dans le lexique • un principe pour lier les élements vides Théories linguistiques 28/04/2020 56

28/04/2020 Théories linguistiques 57

Une analyse automatique

• identifie les entrées lexicales pour chaque mot de la phrase à analyser • pour chaque entrée dont [HEAD : nom| verbe|préposition] – appliquer le principe de sous-catégorisation pour essayer de saturer les phrases – appliquer le principe du noyau, sémantique et les autres principes (contraintes d'unification) • si l'unification echoue, la phrase est incorrecte • si l'unification a reussi, la phrase a une représentation syntaxique donc elle est reconnue par la grammaire 28/04/2020 Théories linguistiques 58

Travaux de recherche

• linguistique – traiter les divers phénomènes pour divers langues • clitiques: Italien, Français (Monachesi 1999, Abeillé 1996) • ellipse (Lappin, ): anglais • anaphore: anglais • TAL – développement d'algorithmes d'analyse (VanNoord, 1996, Meurers et al., 2003) – développement de systèmes pour écrire des grammaires – logique (compilation de grammaire, optimisation des opérations) 28/04/2020 Théories linguistiques 59

Grammaires HPSG

• Une grammaire HPSG pour plusieurs langues – http://www.delph-in.net/index.php?page=3 – ERG: pour l'anglais • http://www.delph-in.net/erg/ – espagnol http://www.upf.edu/pdi/iula/montserrat.marimo

n/spanish_resource_grammar.html

Théories linguistiques 28/04/2020 60

Ressources HPSG

• le projet HPSG – http://hpsg.stanford.edu/index.html

• le projet Verbmobil – http://verbmobil.dfki.de/overview-us.html

– dialogue homme-machine • Projets: – Linguistic Data Structures: On the Relation between Data and Theory in Linguistics (Université de Tübingen) – lien avec le corpus – Bulgarian Tree Bank : corpus annoté et CLARK – système pour annoter • http://www.bultreebank.org/clark/index.html

Théories linguistiques 28/04/2020 61

Ressources (II)

• Systèmes pour développer des grammaires – ALE (en Prologue) http://www.cs.toronto.edu/~gpenn/ale.html

– Controll (pas maintenu!) http://www.sfs.uni tuebingen.de/controll/ • Analyseurs pour l'anglais et pour le néerlandais – http://www.let.rug.nl/~vannoord/Hdrug/ (en Prolog) Théories linguistiques 28/04/2020 62

Avantages

• une seule opération: l'unification des structures • mots et phrases: structure de traits • structures partagées (unicité de l'objet) • toutes les catégories d'informations (syntaxiques, sémantiques, locales, non locales) sont représentées de manière uniforme Théories linguistiques 28/04/2020 63

Limites

• beaucoup d'informations dans le lexique – liste exhaustive de toutes les formes • analyse partielle n'est pas possible (si l'unification echoue) • information redondante (HEAD, SUBCAT, DTRS) • pas des données extraites du corpus pour représenter les grammaires Théories linguistiques 28/04/2020 64

Réferences HPSG

• C. Pollard, I. Sag - Head-driven phrase structure grammar, 1994 • I. Sag,T. Wasow, E. Bender - Syntactic theory: a formal introduction, 2003 • Bibliographie HPSG interactive – http://hpsg.fu-berlin.de/HPSG-Bib/Bib/V.html

• R. D. Levine & D. Meurers - Head-Driven Phrase Structure Grammar: Linguistic Approach, Formal Foundations, and Computational Realization. In K. Brown (Ed.):

Encyclopedia of Language and Linguistics, Second Edition

. Oxford: Elsevier. 2006.

28/04/2020 Théories linguistiques 65

Réferences HPSG (II)

• Meurers, W. D., Kuthy, K. D. and Metcalf, V. (2003). Modularity of grammatical constraints in HPSG-based grammar implementations. In M. Siegel, F. Fouvry, D. Flickinger and E. Bender (eds.), Proceedings of the ESSLLI ’03 workshop “Ideas and Strategies for Multilingual Grammar Development”. Vienna, Austria. http://ling.osu.edu/ ∼ dm/papers/meurers-dekuthy metcalf-03.html.

• Monachesi, P. (1999). A lexical approach to Italian cliticization, vol. 84. Stanford, CA: CSLI Publications.

• van Noord, G. and Bouma, G. (1997). Hdrug, A Flexible and Extendible Development, Environment for Natural Language Processing. In Estival et al. (1997).

Théories linguistiques 28/04/2020 66