Transcript cours2-text

Les Données Textuelles
•Qu'est-ce qu'un corpus, corpus équilibré, monitor corpus, corpus de
référence, exemples d’utilisation.
•Exemples de corpus textuels : le British National Corpus
PAROLE Français, Le Monde
•Les corpus étiquetés et analysés
- corpus syntaxiques
Penn Treebank www.cis.upenn.edu/~treebank
Corfrans www-rali.iro.umontreal.ca/corfrans
NEGRA corpus
-corpus sémantiques
Framenet www.icsi.berkeley.edu/~framenet
PropBank
1
Corpus
•Définition : Une collection quelconque de plus d'un texte
•Propriétés : représentatif, de taille finie, lisible par une machine
•Référence standard
•Utilisations : Lexicographie—établir si un verbe est transitif
•Utilisations : Développement de grammaire—déterminer la
couverture de la grammaire, les erreurs les plus fréquentes.
2
Corpus
Le page suivantes
sur l’écahntillonage et l’utilisations des corpus
sont tiré des ouvrages
Benoît Habert, Adeline Nazarenko, et André Salem, Les linguistiques de corpus,
Armand Colin
Tony Mc Enery et Andrew Wilson, Corpus Lingusitics, Edinburgh Press
3
Corpus équilibrés
•En principe, une collection de plus d'un texte peut être appelée un
corpus. Cependant, le terme corpus possède en général des
connotations plus spécifiques.
•Le corpus doit être représentatif. Afin qu’une collection de textes soit
représentative, elle doit être échantillonnée de façon équilibrée. La
méthode la plus utilisée est la méthode d'échantillonnage stratifiée, où l'on
crée une collection équilibrée de textes distribués uniformément à travers
les genres (roman, journal, discours politique, etc.) et les modalités
(écrite, orale) qui intéressent.
•Le corpus doit être de taille finie définie à l'avance. On parle alors de
corpus fermé. D'habitude, les corpus sont des collections des textes
fixées à l'avance, afin d'assurer que l'équilibre et la représentativité soient
respectés.
•Un corpus doit être électronique (machinereadable) pour permettre des
recherches et des manipulations rapides à large échelle.
4
Corpus équilibrés
D'un point de vue statistique, on peut considérer un corpus
comme un échantillon d'une population (d'événements
langagiers).
Comme tout échantillon, un corpus est passible de deux types
d'erreurs statistiques qui menacent la généralité des résultats
l'incertitude (random error)
la déformation (bias error)
•L'incertitude survient quand un échantillon est trop petit pour
représenter avec précision la population réelle.
•Une déformation se produit quand les caractéristiques d'un
échantillon sont systématiquement différentes de celles de la
population que cet échantillon a pour objectif de refléter.
5
Exemples d’erreurs
Incertitude
Un extrait de 2 000 mots d'une interview de George Bush ne
permet pas d'extrapoler et d'en tirer des conclusions sur
l'interaction journaliste-homme politique.
Déformation
Si on utilise que les articles de la seule rubrique Economie du
Monde, quel que soit le volume textuel rassemblé, on risque de
déboucher sur une image déformée du français.
6
Échantillonnage
•Pour atteindre une diversité maximale de situations de communication dans un
corpus de référence on procède souvent à une démarche d'échantillonnage.
•L'échantillonnage touche à la fois
le choix des documents à intégrer et
la partie de ces documents à conserver.
•On essaye d'équilibrer en taille les échantillons retenus -- de taille limitée (de
2'000 à 40'000 mots) --, et à ne pas retenir des empans de texte continus, de
manière à ne pas risquer de sur-représenter des «lieux» du texte aux
caractéristiques particulières (l'introduction par exemple).
•Ce saucissonnage rend par contre impossible l'étude des changements de
corrélations de traits linguistiques au fil des textes (étude longitudinale).
7
Corpus de contrôle (monitor corpus)
•Il existe aussi un autre type de corpus, le corpus de contrôle,
qui n'est pas de taille finie, mais plutôt il croit au fur et à mesure.
•Un corpus de contrôle est un corpus auquel on ajoute tout le
temps des textes. C'est un corpus ouvert. Cela est très utile en
lexicographie pour chercher les néologismes, mais on ne peut
plus garantir que le corpus restera équilibré. La recherche
scientifique courante où l'on utilise le Web en tant que corpus
rentre dans ce cas de figure.
8
Corpus de référence
On parle de corpus de référence lorsque un corpus devient représentatif de la
langue
- à un certain moment historique,
- pour une certaine langue,
- dans une certaine modalité.
Un corpus de référence est conçu pour fournir une information en profondeur
sur une langue. Il vise à être suffisamment grand pour représenter toutes les
variétés pertinentes de cette langue et son vocabulaire caractéristique, de
manière à pouvoir servir de base à des grammaires, des dictionnaires et
d'autres usuels fiables. Il s'agit donc d'associer étroitement deux
caractéristiques :
une taille suffisante et la diversité des usages représentés.
•Par exemple, le Brown Corpus est le corpus de référence de l'anglais
Américain écrit, le British National Corpus est le corpus de référence de
l'anglais Britannique écrit et oral.
9
Utilisations en lexicographie
•Les lexicographes ont utilisées des corpus, ou des ensembles de
citations, bien avant que la linguistique de corpus ne se développe
(voir par exemple le célèbre dictionnaire de Samuel Johnson, de
même que l’Oxford English Dictionary).
•À présent, l'existence de larges collections de textes et la
possibilité de les consulter et manipuler très rapidement est en train
de changer la pratique de la lexicographie.
•D'habitude, les lexicographes compilent les entrées d'un
dictionnaire sur la base de leurs propres intuitions et d'une
collection d'exemples qu'ils collectent à la main (ils utilisent des
fiches d'exemples). Un corpus peut ajouter de l'information
supplémentaire.
10
Utilisations en lexicographie
•Par exemple, Atkins and Levin se sont occupés de certaines
verbes dans la même classes que le verbe shake (trembler).
•Elles ont consulté le LDOCE (Oxford's Advanced Learner's
Dictionary) et COBUILD. Les deux dictionnaires indiquaient que
les verbes quake et quiver sont toujours intransitifs (n'ont pas de
COD). Par contre, si on consulte un corpus de 50 millions de
mots, on trouvera que les deux verbes peuvent être utilisés dans
la forme transitive.
11
Utilisations en théorie linguistique
•Les corpus sont important pour la recherche linguistique au
niveau des phrases et de la syntaxe, car, d'un côté, ils fournissent
des informations quantitatives, et, de l'autre côté, ils sont des
réservoirs d'exemples naturels de l'usage de la langue. Ils
peuvent être utilisés comme ressources pour tester une théorie
grammaticale donnée.
•Pour illustrer le deuxième point, voici un exemple.
12
Corpus et théorie linguistique
•Sampson (1987) analysa manuellement un ensemble de
syntagmes nominaux. Il arriva à la conclusion qu'une grammaire
générative ne pouvait pas être utilisée pour analyser des données
textuelles, car il y a trop de constructions différentes.
•Taylor,Grover et Briscoe (1989) contredirent cette hypothèse, à
l'aide d'un analyseur syntaxique, basée sur une grammaire. Leur
analyseur marche correctement dans 96.88 % de cas. Les cas
incorrectes sont facilement analysable comme lacune de
couverture de la grammaire, et ils ne sont pas de cas isolés.
•La conclusion est que une grammaire générative peut, en
principe, rendre compte des phénomènes naturels des données
textuelles.
13
Le British National Corpus
Plusieurs projets de constitution de corpus de référence ont été
menés à bien aux États-Unis : corpus Brown; et en Angleterre :
corpus Lancaster-Oslo/Bergen (LOB).
Rappel : Il s'agit d'associer étroitement deux caractéristiques
une taille suffisante
la diversité des usages représentés.
Le BNC compte 100 millions de mots étiquetés.
Il mêle oral (10 %) et écrit (textes de fiction à partir de 1960 et
textes «informatifs» à partir de 1975).
14
The British National Corpus : les usages
En ce qui concerne l'écrit, les variables prises en compte sont le domaine
(textes informatifs et textes de fiction), le support (livres, périodiques, discours),
la datation et la diffusion (sélection parmi les listes des meilleures ventes,
celles de prix littéraires, les indications de prêts en bibliothèque, etc.). L'accent
mis sur la diffusion réelle certifie la représentation d'usages majeurs de
l'anglais.
Pour l'oral, des conversations spontanées ont été recueillies à partir d'un
échantillonnage démographique en termes d'âge, de sexe, de groupe social et
de région.
Ont été également intégrées des transcriptions d'interactions orales typiques
dans divers domaines : affaires (réunions, prises de parole syndicales,
consultations médicales ou légales); éducation et information (cours et
conférences, informations radio-télévisées); prises de parole publiques
(sermons, discours politiques, discours parlementaires et légaux); loisirs
(commentaires sportifs, réunions de clubs).
15
The British National Corpus : la taille
Le corpus compte 100’106’008 de mots, et il occupe 1,5 gigaoctets d’espace
disque.
Pour vous donner une perspective, si on imprimait le corpus en petite police sur
papier très fin (comme livre de poche) il occuperait 10 mètres d’étagère. (Un
livre de poche habituel consiste en 250 pages pour chaque centimètre
d’épaisseur, et il a 400 mots par page.)
Si on le lisait à haute voix, à la vitesse plutôt rapide de 150 mots par minute, 8
heures par jour, 365 jours par an, il nous faudrait un peu plus de 4 ans pour le
lire entièrement.
Il y a 6 million 250 milles phrase dans le corpus.
La segmentation et l’étiquetage ont été fait automatiquement avec le tagger
stochastique CLAWS développé à l’université de Lancaster. On utilise 65 partie
du discours.
16
The British National Corpus : exemple
<p>
<s n="38"><w VVG-NN1>Raising <w NN1>money <w PRP>for <w DPS>your
<w AJ0-NN1>favourite <w NN1>charity <w VM0>can <w VBI>be <w AJ0>fun<c
PUN>.
<s n="39"><w PNP>You <w VM0>can <w VDI>do <w PNP>it <w PRP-AVP>on
<w DPS>your <w DT0>own <w CJC>or <w PNP>you <w VM0>can <w VVI>get
<w AV0>together <w PRP>with <w NN1>family <w CJC>and <w NN2>friends<c
PUN>.
<s n="40"><w EX0>There <w VBZ>is <w AT0>no <w NN1>limit <w PRP>to <w
AT0>the <w NN1>number <w PRF>of <w NN2>ways <w TO0>to <w VVI>raise
<w NN1>money<c PUN>.
<s n="41"><w CJS>Whether <w AT0>the <w AJ0>final <w NN1>total <w
VBZ>is <w NN0>&pound;5 <w CJC>or <w NN0>&pound;5,000<c PUN>, <w
PNP>it <w VBZ>is <w DT0>all <w AV0>very <w AV0>much <w VVNVVD>needed<c PUN>.
</p>
17
Autres Corpus pour l'anglais
The Bank of English
http://titania.cobuild.collins.co.uk/boe_info.html
http://titania.cobuild.collins.co.uk/direct_info.html
The International Corpus of English (ICE)
http://www.ucl.ac.uk/english-usage/ice.htm
18
Corpus français (projet PAROLE)
•Différemment du BNC, les récents projets de constitution de corpus en France
reposent plutôt sur l'assemblage de données préexistantes.
•Exemple : corpus réalisé dans le cadre du projet européen Parole (1996-1998).
19
Corpus français (projet PAROLE)
•Les 20 093 099 mots obtenus se répartissent à l'issue du projet en
2 025 964 mots de transcriptions de débats au parlement européen,
3 267 409 mots d'une trentaine d'ouvrages de disciplines variées
(en sciences humaines) fournis par CNRS-Éditions,
942 963 mots provenant des notes de vulgarisation de la revue CNRS Info
et d'articles sur la communication de la revue Hermès
13 856 763 mots correspondant à 25 654 articles provenant du choix
aléatoire de numéros entiers parmi ceux des années
1987, 1989, 1991, 1993 et 1995 du journal Le Monde.
• Les données rassemblées sont variées, mais pas représentatives des emplois
principaux du français : un seul journal, quotidien. La presse régionale, les
hebdomadaires, la presse spécialisée sont absents, ainsi que les langages
techniques et scientifiques. Néanmoins, très utile en pratique.
20
Corpus Français
University of Virginia Electronic Text Centre Corpus
téléchargeables dans plusieurs langues (y compris le français)
http://etext.lib.virginia.edu/uvaonline.html
Corpus lexicaux québécois (Onze corpus (entre autres, le Trésor
de la langue française au Québec)
http://www.spl.gouv.qc.ca/banque/banque.html
Corpus 56 56 articles de journaux (français, canadiens, suisses)
http://tactweb.chass.utoronto.ca/french/corp_dat.htm
InaLF – Institut National de la Langue Française
http://www.inalf.fr/produits.html
21
Corpus arborés
Une collection de textes permet d'engendrer de multiples corpus
distincts.
Chacun de ces corpus peut donner lieu à des annotations
variées: étiquetage morpho-syntaxique, projection de catégories
sémantiques, lemmatisation, etc.
Description de corpus arborés :
http://www.u-grenoble3.fr/idl/cursus/enseignants/tutin/corpus.htm
http://treebanks/linguist/jussieu/index.html
22
Constitution du Penn Treebank
Le Penn Treebank a été constitué entre 1989 et 1992 (1ère phase). C’est un corpus
annoté d’environ 4.5 millions de mots d’anglais-américain. L’ensemble de ce corpus
a presque entièrement été analysé par arbres.
http://www.cis.upenn.edu/~treebank/
Composition résumés du Département d’énergie (230'000 mots)
articles du Dow Jones Newswire (3 mos de mots dont 1 mo arboré)
bulletins du Département d’agriculture (80'000 mots)
bibliothèque de textes américains (105'000 mots)
messages MUC-3 (infos sur les terroristes en Amérique du Sud) (112K mots)
phrases d’ATIS (phrases spontanées transcrites) (20'000 mots)
phrases prononcées en radio (10'000 mots)
Brown Corpus réétiqueté (1’200’000 mots)
phrases des manuels IBM (90'000 mots)
23
Étiquetage du Penn Treebank
Le Penn Treebank est en fait un corpus semi-automatisé car
l’étiquetage et la parenthétisation sont automatiquement analysés,
mais ensuite corrigés par des annotateurs humains.
L’étiquetage du Penn Treebank est basé sur celui du Brown Corpus
qui comportait 87 étiquettes simples. Le nombre d’étiquettes a été
réduit en éliminant les redondances (c'est-à-dire en tenant compte
des informations lexicales et syntaxiques), on arrive ainsi à 48
étiquettes (36 étiquettes des parties du discours et 12 autres pour la
ponctuation et les symboles monétaires. )
Lorsque les annotateurs ne réussissent pas à désambiguïser, ils ont
la possibilité de combiner deux étiquettes. Ainsi, les décisions
arbitraires sont évitées.
24
Étiquetage du Penn Treebank
Exemples
Le nombre d’étiquettes a été réduit. On a éliminé les distinctions que l’on
peut déduire en tenant compte des 1) informations lexicales
2) informations syntaxiques.
(1) Brown
PTB
sing/VB am/BE
sing/VB am/VB
sang/VBD was/BEDZ
sang/VBD was/VBD
(2) conjonctions de subordination et prépositions reçoivent la même
étiquette IN, car les conjonctions précèdent toujours une phrase tandis
que les prépositions précèdent des SN.
25
Étiquetage du Penn Treebank
Le jeu d'étiquette code la fonction grammatical si possible afin de
faciliter une analyse syntaxique ultérieure.
Exemple
Brown
PTB
the one/CD
the one/NN
the ones/NNS
the ones/NNS
the fallen/JJ leaf
the fallen/VBN leaf
26
Étiquetage du Penn Treebank
1ère phase : l'étiquetage automatique
Cet étiquetage est réalisé par PARTS, un algorithme développé par les
laboratoires ATT. Il s'agit en fait d'une version modifiée de l'étiquetage du
Brown Corpus, puis de plusieurs étiqueteurs. Le taux d'erreurs est de 7.9%.
2e phase : la correction manuelle
Cette correction est réalisée simplement avec une souris en positionnant le
curseur sur une étiquette fausse et en entrant l'étiquette souhaitée. Cette
donnée entrée automatiquement est vérifiée afin de voir si elle appartient
bien à la liste d'étiquettes. Si elle est valide, elle est ajoutée à la paire motétiquette séparée par un astérisque. L'étiquette fausse n'est pas supprimée
afin d'identifier les erreurs produites à l'étiquetage automatique des parties
du discours. (Dans la version de distribution du corpus, les étiquettes
fausses de l'étape automatique sont supprimées.)
27
Parenthétisation du Penn Treebank
3e phase : la parenthétisation automatique (réalisé par Fidditch)
Fidditch est un analyseur développé par Donald Hindle (d'abord à
l'université de Pennsylvanie, puis aux laboratoires de l'ATT), qui est utilisé
pour fournir une analyse initiale.
Cet algorithme laisse beaucoup de constituants non rattachés qui sont
étiquetés "?". Il s'agit des syntagmes prépositionnels, des propositions
relatives et des compléments circonstanciels. À ce niveau-là, on n'a pas
encore véritablement d'arbre, mais plutôt plusieurs fragments d'arbres.
4e phase : la parenthétisation simplifiée automatiquement
Les représentations sont simplifiées et aplaties par la suppression des
étiquettes de parties du discours, des nœuds lexicaux non-branchés et de
certains nœuds.
28
Parenthétisation du Penn Treebank
5e phase : La correction du parenthétisation
Cette correction est aussi réalisée à l'aide d'une souris. Les annotateurs collent
tout d'abord les fragments ensemble, ils corrigent les analyses incorrectes et
effacent certaines structures. La correction des structures parenthétisées est
plus difficile à réaliser que la correction de l'étiquetage des parties du discours.
Comme on veut que le Penn Treebank contienne seulement des structures
certaines , il y a deux façons d'annoter les structures incertaines : l'étiquette de
constituant X et le "pseudo-attachement".
L'étiquette de constituant X est utilisé si un annotateur est sûr qu'une
séquence de mots est un constituant majeur, mais pas sûr de sa catégorie
syntaxique. Dans ces cas, l'annotateur parenthèse seulement la séquence et
l'étiquette X.
Le "pseudo-attachement" est utilisé pour annoter "les ambiguïtés
permanentes prévisibles". L'annotateur indique cela quand une structure est
globalement ambiguë même donnée dans un contexte.
29
Exemple d'arbres du Penn Treebank – phase 3
( (S
(NP (ADJP Battle-tested industrial)
managers)
(? here)
(? always)
(VP buck))
(? (PP up
(NP nervous newcomers)))
(? (PP with
(NP the tale
(PP of
(NP the
(ADJP first))))))
(? (PP of
(NP their countrymen)))
(? (S (NP *)
to
(VP visit
(NP Mexico))))
(? ,)
(? (NP a boatload
(PP of
(NP warriors))
(VP blown
(? ashore)
(NP 375 years))))
(? ago)
(? .))
Battle-tested industrial managers here always buck up
nervous newcomers with the tale of the first of their
countrymen to visit Mexico a boatload of warriors blown
ashore 375 years ago
30
Exemple d'arbres du Penn Treebank – phase 5
( (S
(NP Battle-tested industrial managers
here)
always
(VP buck
up
(NP nervous newcomers)
(PP with
(NP the tale
(PP of
(NP (NP the
(ADJP first
(PP of
(NP their countrymen)))
(S (NP *)
to
(VP visit
(NP Mexico))))
,
(NP (NP a boatload
(PP of
(NP (NP warriors)
(VP-1 blown
ashore
(ADVP (NP 375 years)
ago)))))
(VP-1 *pseudo-attach*))))))))
.)
31
Tests comparatifs et évaluation du Penn Treebank
Au tout début du projet, une expérience a été réalisée concernant deux modes
d'annotation : - l'étiquetage manuel : des annotateurs ont étiqueté des textes
entièrement non annotés, à la main
- la "correction" : ils ont vérifié et corrigé la production de PARTS.
Ce test a montré que l'étiquetage manuel est deux fois plus long que la simple
correction (44 min/1000 mots contre 20 minutes) avec deux fois plus de taux de
désaccord (7.2% contre 3.5%) et un taux d'erreurs 50% plus élevé.
En ce qui concerne la structure, les annotateurs peuvent corriger la structure
pleine fournie par Fidditch à une vitesse moyenne d'environ 375 m/h après 3
semaines et d'environ 475 m/h après 6 semaines. La réduction à une
représentation plus squelettique augmente la productivité de l'annotateur
d'environ 100 à 200 mots/heure. Après 3 ou 4 mois d'entraînement, les
annotateurs produisent environ 750, voire même pour certains plus de 1000
mots/heure.
Le taux d'erreurs de la version finale est estimé à environ 1 %.
32
Corfrans : corpus arboré en français
Annotation morpho-syntaxique d’environs 400’000 mots avec plusieurs
variétés de français (présentés dans le Monde, le Hansard, l’hebdo…).
Marquage syntaxique automatique avec l’analyseur Shallow parseur
développé par A. Kinyon qui annote les frontières en minimisant les cas
de rattachement (il se base sur les mots fonctionnels pour déterminer les
frontières de constituants).
Correction manuelle des erreurs commises lors de l’analyse. Un outil
d’aide à la correction pour les annotateurs a été conçu.
Définition d’un standard d’annotation en constituants qui évite les
syntagmes vides, les syntagmes discontinus qui posent problème lors de
la réalisation d’arbres syntaxiques.
Évaluation et enrichissement du corpus, dans le but de faire le point sur
les besoins et les outils des producteurs et utilisateurs de corpus.
33
Corfrans : corpus arboré en français
Comment l’équipe gère-t-elle le problème de la discontinuité de la
négation ?
Ex : Jean ne veut pas venir
ne pas pourrait éventuellement être adverbe continu car il existe des
phrases comme Jean préfère ne pas venir mais pour une discontinuité
avec d’autre mots négatifs je ne veux voir personne on ne peut pas
faire un constituant ne personne car elle ne se trouve jamais dans une
séquence
*je préfère ne personne voir.
Il n’y aura donc pas de syntagmes discontinues.
34
Corfrans : corpus arboré en français
Les solutions
L’adverbe négatif "ne" fait toujours parti du noyau verbal par contre les
forclusifs (mots négatifs : pas, jamais, rien ) ne sont pas rattaché au VN
sauf s’ils sont entre l’auxiliaire et le participe passé.
Ex : Je <VN> ne veux </VN> pas <VPinf> <VN> venir </VN> </VPinf>
Jean <VN> n’est pas venu </VN>
Je <VN> n’ai <NP> rien : Pro </NP> vu </VN>
35
Negr@ Corpus
Corpus arborés de l'allemand
http://www.coli.uni-sb.de/sfb378/negra-corpus/negra-corpus.html
355,096 tokens (20,602 phrases) tirés du quotidien allemand Frankfurter
Rundschau (Multilingual Corpus 1 de la European Corpus Initiative).
Le corpus est étiqueté et arboré.
Les arbres peuvent avoir des branches croisées.
Si l'on désire, on peut transformer les branches croisés en trace et obtenir
le même format du Penn Treebank.
36
Negr@ Corpus
Différents types d'information dans le corpus
Part-of-Speech Tags -- Stuttgart-Tübingen-Tagset (STTS)
Analyse Morphologique (60,000 tokens)
Catégories syntaxiques et fonction grammaticales
37
Negr@ Corpus exemple
(CS
(S-CJ
(PPER-SB Sie)
(VVFIN-HD gehen)
(CNP-OA
(NP-CJ
(ADJA-NK gewagte)
(NN-NK Verbindungen)
)
(KON-CD und)
(NN-CJ Risiken)
)
(PTKVZ-SVP ein)
)
($, ,)
(S-CJ
(VVFIN-HD versuchen)
(VP-OC
(NP-OA
(PPOSAT-NK ihre)
(NN-NK Möglichkeiten)
)
(VVIZU-HD auszureizen)
)
)
($. .)
38
Canadian Hansards
A bilingual corpus of the proceedings of the Canadian
parliament Contains parallel texts in English and French
which have been used to investigate statistically based
machine translation.
39
<PAIR>
<ENGLISH>
no , it is a falsehood .
</ENGLISH>
<FRENCH>
non , ce est un mensonge .
</FRENCH>
</PAIR>
<PAIR>
<ENGLISH>
Mr. Speaker , the record speaks for itself with regard to what I said
about the price of fertilizer .
</ENGLISH>
<FRENCH>
monsieur le Orateur , ma déclaration sur le prix de les engrais a été
confirmée par les événements .
</FRENCH>
40
</PAIR>
Les corpus étiquetés sémantiques
41
Framenet (from their web page)
The Berkeley FrameNet project is creating an
on-line lexical resource for English,
based on frame semantics and
supported by corpus evidence.
The aim is to document the range of semantic and syntactic
combinatory possibilities (valences) of each word in each of its
senses, through manual annotation of example sentences and
automatic capture and organization of the annotation results.
42
Framenet: basic concepts
A lexical unit is a pairing of a word with a meaning.
Typically, each sense of a polysemous word belongs to a different
semantic frame, a script-like structure of inferences that characterize a
type of situation, object, or event.
Each frame contains a predicates and what are called frame elements
(FEs) - participants and props in the frame whose linguistic expressions
are syntactically connected to the target word.
43
Framenet Annotation: example
Revenge frame
Definition
An Avenger performs some Punishment on an Offender as a response
to an earlier action, the Injury, that was inflicted on an Injured_party. The
Avenger need not be identical to the Injured_party but needs to consider
the prior action of the Offender a wrong. Importantly, the punishment of
the Offender by the Avenger is seen as justified by individual or group
opinion rather than by law.
Frame elements in the Revenge frame are Avenger, Punishment,
Offender, Injury, and Injured_party.
44
Framenet Annotation: example
Lexical units in this frame include avenge.v, avenger.n, get even.v,
retaliate.v, retaliation.n, retribution.n, retributive.a, retributory.a, revenge.v,
revenge.n, revengeful.a, revenger.n, vengeance.n, vengeful.a, and
vindictive.a.
Some example sentences with the lexical unit avenge are given here.
[His brothers Avenger] avenged [him Injured_party].
With this, [El Cid Agent] at once avenged [the death of his son Injury].
[Hook Avenger] tries to avenge [himself Injured_party] [on Peter Pan
Offender] [by becoming a second and better father Punishment].
45
Framenet Annotation: example
Here goes a screen dump
46
Framenet Annotation: easy cases
Annotation is easiest when all and only the core frame elements (the
conceptually necessary participants of the frame that a syntactic governor
evokes) find syntactic expression in the sentence as separate immediate
syntactic dependents of the governor.
47
Framenet Annotation:not so easy cases
Non-core frame elements are conceptually not necessary in the sense
that they do not uniquely characterize the frame. Thus, for most frames
standing for events or processes, Time and Place frame elements are not
core, and therefore may not always be annotated.
Similarly, actions often have a Purpose that the Agent intends to
accomplish by performing the action indicated by the target word.
However, having a purpose doesn't usually distinguish types of actions
and so Purpose is often a non-core frame element, as in the following
example:
They wake you up [to give you a sleeping pill Purpose].
48
Framenet Annotation:missing frame elements
Sometimes FEs that are conceptually salient do not show up as
lexical or phrasal material in the sentence chosen for annotation.
They are however annotated to indicate omissibility conditions.
Constructional Null Instantiation (CNI):
Constructionally omitted constituents (also called structurally
omitted) have their omission licensed by a grammatical construction
in which the target word appears and are therefore more or less
independent of the LU. Cases of CNI include:
the omitted subject of imperative sentences,
the omitted agent of passive sentences,
the omitted subjects of independent gerunds and infinitives (PRO),
and so on
49
Framenet Annotation:missing frame lements
•Family feuds last for generations, and [slurs on honor Injury] are
avenged [by murder Punishment] . [CNI Avenger]
•Get even [with her Offender] [for this Injury] [CNI Avenger]
•In addition, we use CNI for missing objects in instructional
imperatives such as exemplified below, even though in this case the
omission is not dependent on a particular construction, but rather on
a genre.
•Cook on low heat until done. [CNI Food]
•Tie together loosely. [CNI Items]
50
Framenet Annotation:missing frame elements
Definite Null Instantiation (DNI):
Cases of definite null (also called anaphoric) instantiation are those
in which the missing element must be something that is already
understood in the linguistic or discourse context. In the following
example, the Offender is not expressed overtly in the syntax, but its
referent has to be known in the context.
[The monkey Avenger] avenged [himself Injured_party] [by growing
to the size of a giant and setting fire to the city Punishment].
[Offender DNI]
51
Framenet Annotation:missing frame elements
Indefinite Null Instantiation (INI):
The indefinite cases (sometimes also referred to as existential) are
illustrated by the missing objects of verbs like eat, sew, bake, drink,
etc., that is, cases in which these ordinarily transitive verbs can be
spoken of as used intransitively.
Molly rarely eats alone;
Granny begins baking about a month before Christmas;
Jo even drinks heavily on weeknights.
There are often special interpretations of the existentially understood
missing objects: for example, with eat the missing entity is likely to
be a meal, with bake it is likely to be flour-based foods, with drink it
is likely to be alcoholic beverages, etc.
52
Framenet Annotation:missing frame elements
Indefinite Null Instantiation (INI) continued
There is no need to retrieve or construct a specific discourse
referent.
For example, in the Revenge frame, all lexical units happen to allow
the frame element Punishment to be omitted under indefinite null
instantiation.
He took it out on Scarlet in the same way as [he Avenger] avenged
[himself Injured_party] [on her Offender] [for the pressures at work
and the demands of his first wife Injury]] . [INI Punishment]
Note that usually verbs in a frame differ in this respect. For instance,
while eat allows its object to be omitted, devour does not, even
though they are both in the Ingestion frame.
53
Framenet Annotation:frame element conflation
In some cases, information about two frame elements is expressed in
a single constituent, a situation we call conflation.
For instance, in the Revenge frame, the Injured_party may be
contained as a possessive in the phrase that realizes the Injury frame
element as seen in the following example:
[He Avenger] avenged [Pedro 's death Injury] [by taking out the
poker-faced Guards Officer Punishment].
In this example, the possessive Pedro's realizes the frame element
Injured_party, the person who suffered the Injury.
Also, We ousted Jones as mayor vs. We ousted the mayor, where the
direct object stands for both the office and the incumbent.
54
Penn
Proposition Bank
all following transparencies on Proposition Bank
from web page of ACE project
http://www.cis.upenn.edu/~mpalmer/project_pages/
ACE.htm
director:Professor Martha Palmer
University of Colorado
55
Proposition Bank
How much can current statistical NLP systems be made more
domain-independent without prohibitive costs, either in terms of
engineering or annotation?
The Proposition Bank is designed as a broad-coverage resource
to facilitate the development of more general systems.
It focuses on the argument structure of verbs, and provides a
complete corpus annotated with semantic roles.
Correctly identifying the semantic roles of the sentence constituents
is a crucial part of interpreting text,
for information extraction
machine translation or
automatic summarization.
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
56
PropBank
The Proposition Bank project takes a practical approach to
semantic representation,
adding a layer of predicate-argument information, or semantic
roles, to the syntactic structures of the Penn Treebank.
The resulting resource can be thought of as shallow, in that it does
not represent coreference, quantification, and many other higherorder phenomena,
but also broad, in that it covers every verb in the corpus and allows
representative statistics to be calculated.
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
57
Proposition Bank: From Sentences to Propositions
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
Powell met Zhu Rongji
battle
wrestle
join
debate
Powell and Zhu Rongji met
Powell met with Zhu Rongji
Powell and Zhu Rongji had
a meeting
consult
Proposition: meet(Powell, Zhu Rongji)
meet(Somebody1, Somebody2)
...
When Powell met Zhu Rongji on Thursday they discussed the return of the spy plane.
meet(Powell, Zhu)
discuss([Powell, Zhu], return(X, plane))
58
Capturing semantic roles*
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
SUBJ
George broke [ ARG1 the laser pointer.]
SUBJ
[ARG1 The windows] were broken by the hurricane.
SUBJ
[ARG1 The vase] broke into pieces when it toppled over.
59
A TreeBanked Sentence
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
(S (NP-SBJ Analysts)
(VP have
(VP been
VP
(VP expecting
(NP (NP a GM-Jaguar pact)
have VP
(SBAR (WHNP-1 that)
NP-SBJ
been VP
(S (NP-SBJ *T*-1)
Analysts
(VP would
expectingNP
(VP give
SBAR
(NP the U.S. car maker)
NP
S (NP (NP an eventual (ADJP 30 %) stake)
a GM-Jaguar WHNP-1
VP
(PP-LOC
in (NP the British company))))))))))))
pact
that NP-SBJ
VP
*T*-1 would
NP
give
PP-LOC
NP
Analysts have been expecting a GM-Jaguar
NP
the US car
pact that would give the U.S. car maker an
NP
an eventual
maker
eventual 30% stake in the British company.
in
the British
30% stake
company
S
60
The same sentence, PropBanked
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
(S Arg0 (NP-SBJ Analysts)
(VP have
(VP been
Arg1
(VP expecting
Arg1 (NP (NP a GM-Jaguar pact)
(SBAR (WHNP-1 that)
(S Arg0 (NP-SBJ *T*-1)
a GM-Jaguar
(VP would
pact
(VP give
Arg2 (NP the U.S. car maker)
Arg1 (NP (NP an eventual (ADJP 30 %) stake)
(PP-LOC in (NP the British company))))))))))))
Arg0
that would give
have been expecting
Arg0
Analysts
Arg1
*T*-1
Arg2
the US car
maker
an eventual 30% stake in the
British company
expect(Analysts, GM-J pact)
give(GM-J pact, US car maker, 30% stake)
61
Frames File Example: expect
Roles:
Arg0: expecter
Arg1: thing expected
Example: Transitive, active:
Portfolio managers expect further declines in
interest rates.
Arg0:
REL:
Arg1:
Portfolio managers
expect
further declines in interest rates
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
62
Frames File example: give
Roles:
Arg0: giver
Arg1: thing given
Arg2: entity given to
Example:
double object
The executives gave the chefs a standing ovation.
Arg0:
The executives
REL:
gave
Arg2:
the chefs
Arg1:
a standing ovation
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
63
Word Senses in PropBank
Orders to ignore word sense not feasible for 700+ verbs
Mary left the room
Mary left her daughter-in-law her pearls in her will
Frameset leave.01 "move away from":
Arg0: entity leaving
Arg1: place left
Frameset leave.02 "give":
Arg0: giver
Arg1: thing given
Arg2: beneficiary
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
64
Annotation procedurehttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
PTB II - Extraction of all sentences with given verb
Create Frame File for that verb
(3100+ lemmas, 4400 framesets,118K predicates)
Over 300 created automatically via VerbNet
First pass: Automatic tagging
http://www.cis.upenn.edu/~josephr/TIDES/index.html#lexicon
Second pass: Double blind hand correction
Tagging tool highlights discrepancies
Third pass: Solomonization (adjudication)
65
Trends in Argument Numbering
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
Arg0 = agent
Arg1 = direct object / theme / patient
Arg2 = indirect object / benefactive / instrument / attribute /
end state
Arg3 = start point / benefactive / instrument / attribute
Arg4 = end point
Per word vs frame level – more general?
66
Additional tags http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
(arguments or adjuncts?)
Variety of ArgM’s (Arg#>4):
TMP - when?
LOC - where at?
DIR - where to?
MNR - how?
PRP -why?
REC - himself, themselves, each other
PRD -this argument refers to or modifies another
ADV –others
67
Inflection
http://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
Verbs also marked for tense/aspect
Passive/Active
Perfect/Progressive
Third singular (is has does was)
Present/Past/Future
Infinitives/Participles/Gerunds/Finites
Modals and negations marked as ArgMs
68
Frames: Multiple Framesetshttp://www.cis.upenn.edu/~mpalmer/project_pages/ACE.htm
Framesets are not necessarily consistent between different
senses of the same verb
Framesets are consistent between different verbs that share
similar argument structures,
(like FrameNet)
69
Résumé du cours
•Corpus
collection de plus d’un texte
•Propriétés représentatif, de taille finie, électronique
•Types de corpus équilibré par échantillonnage
de contrôle
référence
Utilisations lexicographie, théorie linguistique
données d’entraînement pour apprentissage automatique
Exemples de corpus
de référence
British National Corpus
arboré
Penn Treebank, Corfrans, Negr@
sémantique
FrameNet PropBank
70