Corpora e concordanze

Download Report

Transcript Corpora e concordanze

Corpus et concordances
Qu'est ce qu'un corpus ?
« Un corpus est une collection de données langagières qui
sont sélectionnées et organisées selon des critères
linguistiques explicites pour servir d’échantillon du
langage. » (Sinclair cité par B. Habert, A. Nazarenko, A.
Salem, Les linguistiques de corpus, Paris, Armand Colin,
1997, p. 144)
Taille des corpus

Gigantesque : British National Corpus (100 millions de
mots), The Bank of English (320 millions de mots)

de taille moyenne (milliers de mots)
Une concordance
C. de Laclos Les liaisons dangereuses
Co-occurrence – Collocation- Concordance

Une co-occurrence est un groupe de mots apparaissant fréquemment ensemble.
En général, on peut faire varier au moins un des constituants sur l'axe
paradigmatique. (ex. salaire de base)

Collocation des mots: “Association habituelle de 2 ou plusieurs termes (collocats)
au sein d’un discours.” Une collocation est une co-occurrence qui n'admet pas une
variation dans l'association des mots et qui est en quelque sorte consacrée par la
langue.
La concordance désigne le mot présenté avec les extraits ou portions de texte
dans lesquels il apparaît. En d’autres termes, il s’agit de la liste de segments de
texte (on parle de contextes) contenant le mot ou les groupes de mots ou encore
les signes (des signes typographiques) désignés. Une concordance est une liste de
contextes.
(Lexique, Observatoire du Traitement Informatique des Langues et de l'Inforoute)

Types de corpus (1a)

corpus bruts : textes écrits ou transcriptions écrites de
productions orales - enregistrements de textes à voix
haute, de discours, d'émissions de radio, etc. (Lexique,
Observatoire du Traitement Informatique des Langues et
de l'Inforoute)
Types de corpus (1b)

corpus annotés ou enrichis : indications relatives à la
structure du texte, aux catégories morphosyntaxiques ou
sémantiques - informations sur la prosodie, le sens, les
locuteurs, l'environnement sonore, etc. (Lexique,
Observatoire du Traitement Informatique des Langues et
de l'Inforoute)
Pour l’annotation des corpus consultez le site Text Encoding
Initiative Consortium (www.tei-c.org)
Extrait corpus TALANA (avec syntagmes)
TALANA (Traitement Automatique du Langage Naturel –
Univ. Paris 7 )


















<S> <PP>Au_cours_de:P
<NP> la:Dfs conférence_de_presse:NC-fs
<Srel> <NP>qui:PROR-3fs </NP>
<VP> a:VP-3s clos:VK-ms </VP>
<NP> cette:D-fs rencontre:NC-fs </NP> </Srel>
</NP> </PP> ,:PONCT
<NP> le:D-ms premier_ministre:NC-ms <AP> est-allemand:A-ms </AP> </NP>
<VP> est:VP-3s revenu:VK-ms </VP>
<PP> sur:P <NP> les:D-mp incidents:NC-mp
<PP> de:P lundi:NC-ms soir:NC-ms </PP>
<Srel>
<PP>:au_cours_de:P <NP> lesquels:PROR-3mp </NP> </PP>
<NP>:de-les:D-mp manifestants:NC-mp </NP>
<VP> ont:VP-3p mis_à_sac:VK-ms </VP>
<NP> le:D-ms siège:NC-ms <AP> central:A-ms </AP>
<PP> de:P la:D-fs Stasi:NP-fs </PP> </NP>
</Srel> </NP> </PP> </S>
http://www.li.univ-tours.fr/taln-recital-2001/actes_taln01.html
Types de corpus (2)



Monolingues (BNC…)
Bilingues ou multilingues
Languée parlée (CLAPI…) /langue écrite
(CORIS/CORDIS)
Types de corpus (3)

« Un corpus de référence est conçu pour fournir une information en
profondeur sur une langue. Il vise à être suffisamment grand pour
représenter toutes les variétés pertinentes de cette langue et son
vocabulaire caractéristique, de manière à pouvoir servir de base à des
grammaires, des dictionnaires et d'autres usuels fiables » [Sinclair,
Preliminary recommendations on Corpus Typology.
Technical report, EAGLES (Expert Advisory Group on Language
Engineering Standards), 1996.

Un corpus spécialisé est un corpus limité à une situation de
communication, ou à un domaine. Il s'intéresse aux langages de
spécialité, aux sous-langages. (Lexique, Observatoire du Traitement
Informatique des Langues et de l'Inforoute)
Types de corpus (4)

corpus comparables : ensemble de corpus ayant été compilés
selon les mêmes critères mais:
- dans des variantes différentes d’une même langue
- dans des langues différentes et en tenant compte des
différences culturelles

corpus parallèles : couples de corpus dans des langues
différentes et dont l’un est la traduction de l’autre.
(Voir Natalie KÜBLER, Introduction à la linguistique des corpus
http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)
Corpus parallèle

Canadian Hansard Corpus (2001)

1,3 milioni di frasi francesi-inglesi allineate a livello di frase,
tratte dagli atti del Parlamento Canadese
(http://transsearch.iro.umontreal.ca/)
Corpus parallèle
MULTEXT (1996)
http://aune.lpl.univaix.fr/projects/multex
t/
5 milioni di parole dal
Journal of European
Community
(francese, italiano,
spagnolo, tedesco,
inglese) 800.000
parole allineate a
livello di frase
(inglese come lingua
“pivot”)
a cura di
vito pirrelli
Types de corpus (5)

corpus d’apprenants : corpus qui contiennent des
productions écrites et/ou orales des apprenants d’une
langue seconde et sont utilisés
- pour décrire l’interlangue et donc les difficultés des
apprenants
- élaborer une typologie des erreurs
(Voir Natalie KÜBLER, Introduction à la linguistique des corpus
http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)
Learner Corpus around the World
http://leo.meikai.ac.jp/~tono/lcorpuslist.html
Learner Corpus Data
http://www.eng.ritsumei.ac.jp/asao/lcorpus/
Représentativité




domaines, situations…
sexe, âge…
variantes…
fréquence
(Voir Natalie KÜBLER, Introduction à la linguistique des corpus
http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)
Software per l’analisi dei testi









Metasiti
Centre for Corpus Research
http://www.corpus.bham.ac.uk/links.htm
Corpora for Language Learning and Teaching
http://www.corpora4learning.net/resources/materials.html
Alphabit.net
http://www.alphabit.net/Corsi/IUlinks/Concwarelist.htm
Sito di Federico Zanettin
http://www.federicozanettin.net/sslmit/cl.htm
Rôle des corpus





étude de la grammaire
analyse terminologique
construction des dictionnaires
étude sémantique
études comparatives pour la traduction assistée
(Voir Natalie KÜBLER, Introduction à la linguistique des corpus
http://wall.eila.jussieu.fr/~nkubler/M1_c_equilibre_specialise.ppt)
Où trouver les corpus ?
Web
 Cd-rom


Créer soi même