m1_intro_corpus_de_taille1

Download Report

Transcript m1_intro_corpus_de_taille1

Introduction à la linguistique
de corpus
De la définition, élaboration et
application des corpus dans
l ’étude des langues naturelles
Bibliographie

Partington, Alan (1998). Patterns and
Meanings: Using Corpora for English
Language Research and Teaching.
Amsterdam/Philadelphia: John
Benjamins.
 Sinclair, John M. (1991). Corpus,
Concordance, Collocation, Oxford: OUP
 http://mellange.eila.univ-paris-diderot.fr
Bibliographie



Hunston, S. (2002). Corpora in Applied
Linguistics Cambridge: Cambridge University
Press
Tognini-Bonelli, E. (2001). Corpus Linguistics
at Work. Amsterdam: John Benjamins
Publishing
Bowker, Lynne & Pearson, Jennifer (2002).
Working with Specialized Language: a
practical guide to using corpora. London:
Routledge.
Modalités d’évaluation




Partiel en janvier ou décembre (66%)
DST le 19 ou le 26 novembre, selon
l’avancement des travaux dans le TD (33%)
Etudiants à l’étranger: fiche de lecture sur
l’un des ouvrages de la bilbiographie (100%)
Etudiants présents: lire au moins Bowker and
Pearson, Partington et Sinclair
Concordances
Europe 1. Le grand débat annoncé par Edouard Balla
nt l idée d un grand débat annoncé par M. Ballad
en obligé d ouvrir le débat annoncé. Mais il avance dé
é la nécessité d un débat approfondi, certains n exclua
, l idée même d un débat argumenté avec ceux qui ne
e, lors d un récent débat au " Milia " de Cannes (le M
nce-maladie et un débat au Parlement au printemps,
t prévu d ouvrir un débat au Parlement français, à l u
nquante heures de débat au Parlement pour un texte
sa durée, après un débat au Parlement qui permettra
allisé l essentiel du débat au Parlement, a été jugée co
Définition: linguistique de corpus

1991: Sinclair,Corpus,

définitoire de la linguistique de corpus: env.
25 ans après l’apparition des premiers corpus
informatisés tels que le Survey of English
Usage ou le Brown Corpus
Collecte, annotation et utilisation de corpus
de langue parlée ou écrite pour étudier les
phénomènes de la langue à l'aide de logiciels
d'interrogation ne nécessitant pas de
connaissances informatiques approfondies.
Concordance,Collocation = Ouvrage
Domaines connexes


En anglais: distinction entre Corpus
linguistics, computational philology,
computational linguistics, language
engineering.
En français: on parle surtout de traitement
automatique du langage (TAL).
Il y a parfois confusion entre TAL et
linguistique de corpus.
Définition des trois autres
disciplines



« Philologie computationnelle": utilisation de
matériau textuel sur support électronique afin
d'étudier les phénomènes linguistiques et
l'enseignement des langues
Traitement automatique du langage: analyse
et la modélisation automatiques du langage
en utilisant des langages de programmation
Ingénierie linguistique: création et application
de corpus dans des logiciels de TAL:
traduction automatique, correction
automatique, synthèse de la parole,
reconnaissance de la parole
I. Qu’est-ce qu’un corpus?
à savoir, en linguistique de corpus
Corpus
Ensemble de textes dans une base de
données sur support électronique...
 Ensemble structuré de textes assemblés
spécifiquement pour l ’analyse
linguistique...
 Vaste ensemble de textes...
 Ensemble de textes représentatifs du
langage en général...

Mais...
Historiquement, les premiers corpus
n’existaient même pas sous forme
électronique.
Un corpus pouvant servir à l’étude
linguistique n’a pas forcément été
rassemblé dans ce but.
De plus...
Un corpus n’a pas forcément besoin
d ’être gigantesque, ni de constituer
un échantillon représentatif de toute la
langue.
Sa taille et son contenu dépendent de
l ’usage que l’on veut en faire.
Un corpus peut être composé
de:
Texte complet
 Ensemble de textes complets
 Echantillons extraits de textes complets
 Ensembles de citations
 Dictionnaire
 Texte dans une seule ou plusieurs
langues

Archives et Bases de données
Corpus : compilation systématique et
structurée
archive: assemblage gigantesque, non
structuré de textes généralement
récoltés un peu au hasard
Une archive est composée de
Les oeuvres complètes d’un ou de
plusieurs auteurs
 Tous les numéros d ’un journal sur une
ou plusieurs années
 Tous les textes connus d’une période
historique particulière
 Peut être adaptée et traitée pour
constituer un corpus

Définitions par les experts
Sinclair 1994:
a collection of pieces of language that
are selected and ordered according to
explicit linguistic criteria in order to be
used as a sample of the language
Experts II
Francis 1992:
a collection of texts assumed to be
representative of a given language,
dialect, or other subset of language, to
be used for linguistic analysis
Experts III
Mc Ennery and Wilson 1996:
(1) (loosely) any body of text; (2) (most
commonly) a body of machine-readable
text; (3) (more strictly) a finite
collection of machine readable text,
sampled to be maximally representative
of a language or variety
Donc...
corpus (N, pluriel: corpus)
ensemble de documents sélectionnés et
assemblés à l’aide de critères explicites
en vue d’un objectif clairement défini et
stockés sous forme électronique
Objectifs
Corpus généraux ou à objectifs
généraux, dits « corpus équilibrés »
 corpus spécialisés

– corpus d ’entraînement et de tests
– corpus multilingues
– corpus régionaux, de dialectes, non
standard
– corpus d ’apprenants
.
Corpus écrit
 Corpus de langue parlée
 Corpus annoté vs non annoté (données
brutes)
 corpus statique vs dynamique
(moniteur, très gros corpus)
 BNC, Bank of English, Cosmas,
Frantext, Leipzig corpus

Corpus pré-électroniques
Un peu d’histoire…
Tradition d’études de corpus
Biblique ou littéraire
 Lexicologie
 Dialectologie
 Enseignement des langues
 Grammaire descriptive

La Bible

1736 Alexander Cruden publie la
première édition de concordances
– mots à contenu sémantique plein
– mots grammaticaux
– mots composé (how long, how many) et
expressions figées ? (all the nations)
(collocations)
 Sur
le même modèle: Oeuvres
littéraires (Shakespeare)
Lexicographie

Début du 17e en Grande-Bretagne:
Dictionary of the English Language: 40 000
entrées, 150 000 citations sur fiches

Oxford English Dictionary: environ 70
ans, dernier volume en 1928
Oeuvres littéraires remontant jusqu ’à l’an
mille:
414 825 entrées, 5 millions de citations
Dialectologie
Récolte systématique de données du
langage parlé
 Textes écrits dans les variantes ou
patois

1921-1926: Dictionnaire historique du
parler neuchâtelois et suisse romand
= premier dictionnaire différentiel
scientifique de la francophonie
L’enseignement des langues
Käding (1890): 11 millions de mots :
informations statistiques sur la
fréquence d’apparition de lettres et de
séquences de lettres => améliorer les
performances des sténographes
 Thorndike 1921 et 1944 (avec Lorge):
de 4,5 à 18 millions de mots: listes de
fréquences => enseignement de
l ’anglais aux natifs et non natifs

Grammaire descriptive
Jespersen: journaux et romans
 Fries: précurseur en linguistique
descriptive et sociolinguistique

– 1940: American English Grammar (lettres
envoyées au gouvernement des E.-U.,
toutes origines socio-culturelles)
– 1952: The Structure of English
retranscriptions de conversations
téléphoniques enregistrées
La linguistique de corpus et la
linguistique
Approche IA vs Approche
probabiliste
Deux « camps »
Linguistique de corpus / approche
probabiliste
Grammaire générative / approche
Intelligence Artificielle
Deux facteurs: l’œuf et la
poule

Position théorique: décrire la langue
dans sa réalisation authentique (niveau
de la « performance » de Chomsky)

Disponibilité croissante de documents
sur support électronique, ainsi que
d’outils de manipulation des données
Approche probabiliste

Basée sur des propriétés statistiques du
langage

S ’appuie sur des données
authentiques extraites de tous les
domaines du discours
Le courant générativiste

N. Chomsky: Syntactic Structures (1957)
 intuition du locuteur natif
 rejet des corpus

Traitement Automatique du Langage (TAL)
 Intelligence Artificielle
 psychologie cognitive (systèmes-experts)
Noam Chomsky

1957: Syntactic Structures, The Hague:
Mouton, p. 159
Any natural corpus will be skewed. Some
sentences won’t occur because they are
obvious […], false, […] impolite. […]the
description […] would be no more than
a mere list.
Systèmes « jouets »
Whatever is linguistic is interesting
 A ticket was bought by every man
 I saw the man on the hill with the
telescope
 Max charge le camion de caisses
 Max gave Marie d’épinards

Fillmore: The corpus linguist
He has all the primary facts that he needs, in
the form of a corpus of approximately one
zillion running words, and he sees his job as
that of deriving secondary facts from his
primary facts. At the moment, he is busy
determining the relative frequencies of the
eleven parts of speech for the first word of a
sentence versus the second word of a
sentence
Fillmore: The armchair
linguist
He sits in a deep soft armchair, with his
eyes closed and his hands clasped
behind his head. Once in a while he
opens his eyes, sits abruptly shouting,
‘Wow, what a neat fact!’, grabs his
pencil, and writes something down…
having come close to knowing what
language is really like.
Guerre de territoire
Plus personne ne nie la nécessité des corpus en
lexicologie et terminologie…en syntaxe et
sémantique, les deux écoles survivent:
jugements portés par les locuteurs natifs sur la
grammaticalité d’une phrase
vs
toute description doit se fonder sur des faits
observables
=> On utilise le corpus pour valider des
modèles pré-construits
Tournant en TAL





Besoins très vastes en données lexicales et
syntaxiques
Description syntaxique très précise
Extraire les informations directement des
données authentiques
Analyses quantitatives
=> comparer la définition EN et FR de
« linguistique de corpus » dans wikipedia