Un dictionnaire multilingue de collocations

Download Report

Transcript Un dictionnaire multilingue de collocations

Un dictionnaire
multilingue de collocations
Amalia Todirascu
LiLPA (Linguistique, Langues, Paroles)
Université de Strasbourg
[email protected]
Plan







18/07/2015
Le projet "Collocations en contexte"
Les collocations verbo-nominales
Le dictionnaire
L'extraction à partir des corpus monolingues
L'extraction de candidats à partir des corpus
multilingues alignés
Evaluation
Conclusion et perspectives
2
Le projet

objectifs:

le développement d'un système d'extraction semi-automatique de
collocations à partir des corpus



Création d'un dictionnaire multilingue des collocations


paramétrable pour plusieurs langues(français, roumain, allemand)
information contextuelle
Une classe spécifique de collocations
projet du réseau "Lexicologie, Terminologie, Traduction",
Agence Universitaire pour la Francophonie




Université Marc Bloch de Strasbourg (UdS)
Université de Stuttgart
Académie Roumaine de Bucarest
INSA Strasbourg
18/07/2015
3
Motivation

Collocations




18/07/2015
TAL
Traduction
Lexicographie
Apprentissage d'une langue étrangère
4
Motivation (II)

difficultés

choix lexical



préferences morpho-syntaxiques


faire l'objet de, porter atteinte
sémantique



18/07/2015
a lua decizii mais make decisions
donner une conférence mais pas tenir une conférence
sens non-compositionnel: faire la tête, make good any
damage
aspect: entamer une disscusion
pragmatique: donner/flanquer + gifle
5
Contexte

Nombreux travaux sur les collocations


propriétés des collocations (Grossmann et Tutin, 2003)
dictionnaires monolingues ou bilingues







systèmes d'extraction automatique



18/07/2015
Dico (Polguère 2000, Mel'čuk & al, 1994), LAF (Polguère, 2006)
BLF (Verlinde et al., 2003)
Dictionnaire combinatoire (Zinglé 2003)
Dictionnaire français-allemand (Blumenthal 2007)
Dictionnaire danois (Braasch et Olsen 2000)
DiCE (Alonso Ramos, 2003)
Statistiques (Quasthoff, 1998)
Linguistiques (Seretan et al 2004, Seretan 2009, Tutin 2004)
Hybrides (Smadja, 1991, Krenn 2000, Heid 1998)
6
Collocations et contextes

Approche contextualiste (Halliday, 1985, Williams,
2003)

Expressions poly-lexicales, semi-figées, parfois discontinues,
ayant un comportement morpho-syntaxique et sémantique
propre, imprévisible




Trois points de vue (Gledhill, 2007):



18/07/2015
Lua o decizie/prendre une décision mais pas *a face o
decizie/*faire une décision
Faire une conférence mais pas *tenir une conférence
pour s'en convaincre est une cooccurrence fréquente de il suffit
de
cooccurence
construction
expression
7
Méthodologie

une méthode d'extraction appliquée pour
l'allemand (Heid&Ritz 2005, Ritz&Heid 2006)

Les collocations sont caracterisées par le contexte


L'identification des propriétés à partir des corpus
de grande taille (français, allemand, roumain)


18/07/2015
Propriétés morpho-syntaxiques
corpus monolingues
corpus multilingues
8
Méthodologie (II)

Méthodes d'extraction

Monolingue



Multilingue



18/07/2015
Module statistique + filtres linguistiques
Approche symbolique (allemand)
corpus alignés
Validation manuelle des candidats
Sélection des informations linguistiques pour
le dictionnaire
9
18/07/2015
10
Les corpus

Corpus multilingue, aligné: AcquisCommunautaire (ACQ)

Documents communs pour les langues étudiées (16 millions
mots/langue) : français, allemand, roumain, anglais

Étiquetage + lemmatization

TreeTagger (Schmid, 1994) pour le français, l'allemand et l'anglais



Flemm (Namer, 1994) pour un étiquetage plus fin
TTL (Ion, 2007) pour le roumain

Alignement propositionnnel et lexical (partiel)

Corpus spécialisé
Corpus monolingues (journaux, textes littéraires, manuels
d'utilisation)
18/07/2015
11
Plan







18/07/2015
Le projet "Collocations en contexte"
Les collocations verbo-nominales
Le dictionnaire
L'extraction à partir des corpus monolingues
L'extraction de candidats à partir des corpus
multilingues alignés
Evaluation
Conclusion et perspectives
12
Les constructions VerbeNom

Une analyse linguistique sur trois niveaux
(Gledhill, 2007) inspirée par le modèle
(Halliday 1985):

Structure lexico-grammaticale



18/07/2015
propriétés spécifiques au verbe et au nom (GirySchneider 1987, Kearns 1989, Allerton 2002)
Fonction syntaxique
Rôle sémantique
13
Propriétés du verbe

(Gledhill, 2007)

V1 (Equivalence).



faire du travail = travailler, mais faire froid n'est synonyme à refroidir
A face obiectul/'faire l'objet' = ?obiecta/'faire des objections'
V2 (Valence). Les constructions VN comportent des complements
directs ou indirects



Guvernul nu face faţă situaţiei /’Le gouvernement n'est gère pas la
situation’
Pierre fait peur à Jean
V3 (Passivation)

18/07/2015
Un résumé de ton livre a été fait par Jean mais pas ??La fuite a été prise
14
Propriétés spécifiques au nom

N1(détermination). Le déterminant est absent ou fixe



N2 (clivage). Le nom d'une VN ne peut pas servir du focus dans
une structure clivée (fr)


A luat decizia care era necesară /’ Il a pris la décision qui était
nécessaire’, mais *A făcut obiectul care era necesar / ‘a fait l’objet
qui s’imposait’
N4 (conversion). La nominalisation du V n'est pas toujours
possible

18/07/2015
C’est la caisse qu’il a prise mais pas ?C’est la fuite qu’il a prise
N3 (expansion). Le nom ne peut pas étre modifié par une
clause relative


prendre la fuite mais pas ?prendre une fuite
a face apel/'faire appel' (le déterminant est absent)

A luat măsuri/'il a pris des mesures' = luarea măsurilor/'la prise de
mesures'
Il a fait l'hypothèse mais non *son fait de l'hypothèse
15
Quelques propriétés morphosyntaxiques

Figement morpho-syntaxique partiel


Propriétés du nom: nombre, genre, cas
Propriétés du verbe: diathèse, temps

La commission a fait appel aux experts… (fr)




Absence du déterminant
Complément indirect: préference pour 'à'
Préférence pour le singulier
Statele membre fac faţă situaţiei…/
'Les états membres font face à la situation…' (ro)
 l'absence du déterminant
 préférence pour le singulier
 Complément indirect : préference pour le datif
18/07/2015
16
Constructions Verbe-Nom (II)

Les classes (Todirascu et Gledhill, 2008)

Prédicateur complexe (1)

construction Verbe+Nom qui joue le rôle de prédicat




machen/'faire usage de…'
Figement morpho-syntaxique élévé
Complément de portée
Prédicat+complément (2)



18/07/2015
Ex. faire l'objet, a ţine cont/'tenir compte', Gebrauch
Ex. prendre des mesures/a lua măsuri/Maβnahmen
ergreifen
Variabilité morpho-syntaxique (modifieurs, passif/actif)
compositionalité
17
Structure lexicale

Prédicat complex vs. prédicateur complexe (Gledhill
2007)

le nom d'un prédicat complexe peut être passivisé
Paul fait un gateau/ Le gâteau a été fait par Paul.
S
P
C
Agent Process Range
- le nom d'un predicateur complexe ne peut pas être passivisé
El şi-a luat zborul/*Zborul a fost luat
'il lui a pris vol-DET/Vol-DET a été pris'
S
P
C
Ben Process Range

le complément du prédicateur complexe peut être relativisé


we had a look at the screenshots...
the screenshots which we had a look at were interesting.
Propriétés sémantiques

Le procès est exprimé par la phrase:



Les participants: agent, affecté, bénéficiaire etc;
Les non-participants: portée, temps, instrument, place…
La portée: les éléments qui précisent le procès
(Halliday & Matthiessen 2004)






18/07/2015
Jean
fait
un gateau.
Agent(Acteur) Procès Matériel
Médium(Affecté)
Jean
fait
une remarque.
Médium(Annonceur)Procès Mental(Communicatif)
Portée
L’examen
fait
peur
aux étudiants.
Phénomène Procès Mental
Portée Médium
19
Collocatifs du verbe 'a face'/faire
Collocatif
Fréq.
ACQ
Art
Nb
Cas
Class
e
Collocatif
Fréq
RoGen
Art
Nb
Cas
Classe
Obiectul/
’objet-le’
3092
Déf
Sg
Datif
Pred
Parte/ ’partie’
1571
-
sg
Acc
(Din/’de’
)
Oui
Referire/
’référence’
1416
-
sg,
pl
Acc (La)
Pred
înscrieri/
’inscriptions’
422
-, déf
pl
Acc
(La/’en’)
Non
Parte/
’partie’
1268
-
Sg
Acc
(din)
Pred
Baza/
’base-la’
362
-, déf
sg
Datif
Non
Trimitere/
’référence’
691
-
Sg,pl
Acc(la)
pred
Loc/’lieu’
160
-, déf
Sg,
pl
Datif
P+C
Dovada/
’preuve’
178
Déf
Sg
Datif
P+C
Cursuri /
’cours’
142
-, déf
pl
-
Non
Posibilă/
’possible’
170
-
Sg,pl
Acc/no
m
P+C
Faţă/’face’
137
-
sg
Datif
Pred
Necesară/
’necessaire’
155
-
Sg,
pl
Acc/no
m
P+C
Obiectul/
’objet’
127
-, déf,
indéf
Sg,
pl
Datif
Pred
Faţă/’face’
150
-
Sg
Datif,
Acc (la)
pred
Precizări/
’précisions’
124
-, déf,
indéf
Sg,
pl
Datif
P+C
18/07/2015
20
Collocatifs du verbe 'faire'
Verbe
Collocatif
Fréq.
ACQ
Art.
Nr
Prép
Collocatif
Fréq.
FrGen
Art.
Nr.
Prép.
Faire,
font, fait,
fais,
faisons
Objet
2378
l’
sg
de
Face
2578
null
Sg
à
Partie
871
null
sg
de
Partie
1419
null
Sg
de
référence
753
null
Sg
à
Objet
881
L’
Sg
De
Usage
271
Null,
un
sg
de
Preuve
801
null,
une
Sg
De
Face
204
null
sg
à
Part
787
null
Sg
À, de
Appel
192
null
sg
à
Appel
741
null
Sg
à
Rapport
170
Un
sg
à, sur
Etat
665
null
Sg
de
Obstacle
132
null
sg
à
Sorte
583
null
Sg
En…qu
e
Etat
93
null
sg
de
usage
458
null
Sg
de
18/07/2015
21
D'autres classes


Simples co-occurences V-N
(prédicat+complément)
Nom+verbe au participe


Sujet+prédicat


Le présent article ne vise que le commerce et la
distribution des produits toxiques conditionnés qui
sont destinés
Prédicat+complément circonstanciel

18/07/2015
articolul adoptat/ l’article adopté
La référence à cette norme figure en annexe.
22
Plan







18/07/2015
Le projet "Collocations en contexte"
Les collocations verbo-nominales
Le dictionnaire
L'extraction à partir des corpus monolingues
L'extraction de candidats à partir des corpus
multilingues alignés
Evaluation
Conclusion et perspectives
23
Quels objectifs?



Production de textes
Compréhension de textes
Utilisations possibles



18/07/2015
Systèmes TAL (analyse et génération)
Aide à la traduction
Apprentissage d'une langue etrangère
24
Quels fonctions?

rechercher les collocations dans une langue





recherches des exemples d'utilisation
recherches multilingues


18/07/2015
par la base
par le collocatif
recherche par l'ensemble des élements
retrouver les equivalents de traduction
les propriétés morpho-syntaxiques spécifiques
25
Quelques propriétés


Les lemmes du nom et du verbe
les propriétés contextuelles :



Les propriétés du nom (détermination, nombre,
cas…)
Les propriétés du verbe (actif/passif, temps,
mode,…)
Les informations collocationnels


prépositions
la valence

18/07/2015

les propriétés des arguments (le cas, le nombre de ces
arguments)
exemples
26
Quels candidats?

Tri manuel des listes fournies par une
extraction automatique


candidats identifiés à partir des corpus
monolingues
équivalents de traduction obtenus dans les 3
langues


Entrées trilingues

18/07/2015
obtenus à partir des corpus alignés
classes: prédicats et prédicateurs complexes
27
Plan







18/07/2015
Le projet "Collocations en contexte"
Les collocations verbo-nominales
Le dictionnaire
L'extraction à partir des corpus monolingues
L'extraction de candidats à partir des corpus
multilingues alignés
Evaluation
Conclusion et perspectives
28
L'extraction à partir des
corpus monolingues

Module statistique - détection des paires de
mots non adjacents (Stefanescu et al, 2006):




indépendant de langue
liste de candidats Verbe+Nom triée par LL et leurs
contextes
Filtrage à base de patrons morphosyntaxiques
Exclusion manuelle des certains classes
(Todirascu et Gledhill 2008)


18/07/2015
Prédicat+Sujet
Prédicat+Complément Circonstaciel
29
avea vedere dist=2 LL=108759.176
-------------------------------------------------având/vg/avea în/s/în vedere/nsrn/vedere
avut/vp/avea în/s/în vedere/nsrn/vedere 130
aibă/v3/avea în/s/în vedere/nsrn/vedere 128
avea/vn/avea în/s/în vedere/nsrn/vedere 51
au/va3p/avea în/s/în vedere/nsrn/vedere 41
au/v3/avea în/s/în vedere/nsrn/vedere 31
având/vg/avea in/nsn/in vedere/nsrn/vedere
avea/v3/avea în/s/în vedere/nsrn/vedere 6
aibă/v3/avea o/tsr/un vedere/nsrn/vedere
avea/vn/avea o/tsr/un vedere/nsrn/vedere
17786
11
4
1
• propriétés morpho-syntaxiques invariables
• fréquences des propriétés: sg (100%), prep (în 97%),
déterminant (null 99%, indéfini 1%)
18/07/2015
30
contenir
référence dist=2
LL=4658.77015127078
--------------------------------------------
666
contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence
contenir/Vmn/contenir une/da3sf/un référence/Ncfs/référence
contiennent/Vmip3p/contenir une/da3sf/un référence/Ncfs/référence
contient/Vmip3s/contenir une/da3sf/un référence/Ncfs/référence
contient/Vmip3s/contenir des/Sp+p/du/ références/Ncfp/référence
contienne/Vmsp3s/contenir une/da3sf/un référence/Ncfs/référence
contient/Vmip3s/contenir/ les/da3p-/le références/Ncfp/référence
642
4
4
4
3
2
2
• Variabilité morpho-syntaxique
•fréquences des propriétés: sg (98%), pl (2%), prep (null),
déterminant (défini 1%, indéfini 99 %)
18/07/2015
31
Filtrage (I)

Prédicateur complexe

Utiliser les contextes et les propriétés morphosyntaxiques

Exemple de filtres (ro):

«V NSRY *{1,3} NxOY»





18/07/2015
NSRY = substantif défini (sg), accusatif/nominatif;
NxOY = substantif défini, génitif/datif;
{1,3} = entre 1 et 3 mots entre le complément direct et
indirect
98,8% des contextes
Exemples: a menţine părerea/'maintenir son opinion',
a face dovada/'faire preuve de‘;
32
Filtrage (II)

Prédicat+complément


Préférences pour une propriété (cas,
nombre): plus de 85%
Testes: filtres pour le passif (fr):

« Det:art Nom {2,3}* Ver:pper par»




18/07/2015
Nom = substantif, accusatif/nominatif;
Det:art = article défini, sg ou pl;
{2,3} = entre 1 et 3 mots entre le nom et le verbe
Exemples: prendre des mesures, donner
un avis, faire des commentaires ;
33
Plan







18/07/2015
Le projet "Collocations en contexte"
Les collocations verbo-nominales
Le dictionnaire
L'extraction à partir des corpus monolingues
L'extraction de candidats à partir des corpus
multilingues alignés
Evaluation
Conclusion et perspectives
34
L'extraction multilingue
(I)

Corpus alignés (ACQ): fr, de, en, ro (Ceausu
et al, 2006)




Alignement lexical partiel


18/07/2015
au niveau propositionnel
Alignements bilingues: de-en, fr-en, ro-en
64352 phrases alignés 1-1
Anglais: langue pivot
Corpus étiquétés et lemmatisés, en format XCES
35
Exemple



18/07/2015
<s num="980" lang="fr">3. Un état membre concerné peut demander
à la Commission d' examiner, dans un délai de deux mois après qu' un
transporteur aérien a informé le coordonnateur de son intention de
faire usage de la souplesse prévue à l' article 8 paragraphe 4 , si les
dispositions du présent article sont respectées.</s>
<s num="980" lang="en">3. A Member State concerned may request
the Commission to investigate the application of this Article within two
months of an air carrier informing the coordinator of its intention to use
the flexibility provided for in Article?8 ( 4 ).</s>
<s num="980" lang="ro">( 3 ) Un stat membru interesat poate solicita
Comisiei să analizeze , în decurs de două luni de la data la care
transportatorul aerian a informat coordonatorul cu privire la intenţia sa
de a face uz de flexibilitatea prevăzută în art. 8 alin. ( 4 ) , dacă se
respectă dispoziţiile prezentului articol.</s>
36
L'extraction multilingue
(II)

les outils d'alignement lexical:

COWAL (Tufis et al, 2006) pour l'alignement ro-en

Règles héuristiques







18/07/2015
mots contenus
étiquettes
entités nommées
position
GIZA++ (Och et Ney, 2003) pour l'alignement des corpus de-en et
fr-en
Transfer des alignements lexicaux (Tufis et Koeva, 2007) : fr-ro,
ro-fr, fr-de, de-fr, ro-de, de-ro
Extraction des listes d'équivalents de traduction pour chaque
paire de langues (l'outil ColTrans): ro-fr, fr-ro
37
L'alignement lexical (I)

Validation manuelle de l'alignement à l'aide
de l'éditeur MtKit (Tufis et al, 2006)



un corpus de 1000 phrases pour les corpus fr-en,
de-en, ro-en;
Phrases de longueur et structure variables (20 a
100 mots);
Methodologie d'alignement inspiré par le projet
Blinker (Melamed, 2000)



18/07/2015
annotation des classes ouvertes (N, Adj, V,...);
bonne couverture des mots grammaticaux
unités polylexicales
38
Erreurs d'alignement

Problèmes linguistiques


Termes du domaine
Structures syntaxiques différentes



Ordre de constituents


18/07/2015
<s num="750" lang="fr">tous droits d' importation pour les
réactifs pour la détermination des groupes tissulaires
<s num="750" lang="ro">orice drepturi de import a reactivilor
utilizaţi pentru determinarea grupelor tisulare
<s num=996>l' Observatoire doit réparer , conformément aux
principes généraux communs aux droits des états membres ,
les dommages…</s>
<s num=996>în concordanţă cu principiile generale comune
legislaţiilor statelor membre , Centrul trebuie să compenseze
orice pierdere provocată
39
Erreurs d'alignement (II)

Liens multiples

Groupe verbal: infinitif (fr) traduit par un subjonctif
(ro)


Groupe nominal : le determinant défini est un suffixe
rajouté au nom (en roumain)


la Comission | Comisiei
Aggregats (préposition+déterminant)


exercer | să recurgă
aux prescriptions | dispoziţiile
collocations

préposition non aligné


18/07/2015
la Commission n'a pas pris de mesures raisonnables
Comisia nu a luat măsurile necesare
40
Extraction de candidats

l'outil ColTrans




résultats croisés


18/07/2015
les lemmes (verbe et nom)
la direction de recherche fr->ro, ro->fr
le corpus aligné au niveau lexical
erreurs d'alignement
erreurs d'étiquetage
41
Plan







18/07/2015
Le projet "Collocations en contexte"
Les collocations verbo-nominales
Le dictionnaire
L'extraction à partir des corpus monolingues
L'extraction de candidats à partir des corpus
multilingues alignés
Evaluation
Conclusion et perspectives
42
Résultats de l'extraction

évaluation sur 1000 phrases

malgré les filtres, beaucoup de candidats
qui sont des simples co-occurences
(prédicat+complément direct,
prédicat+circonstanciel)

fr


ro

18/07/2015
environ 38% de candidats éliminés par filtrage
36,7% candidats éliminés par filtrage
43
Résultats de l'extraction
(II)

évaluer sur l'ensemble du corpus

les premiers 1000 noms les plus fréquents dans
l'Acquis (fr,ro)


extraire les verbes qui co-occurent
beaucoup de noms spécifiques au domaine (fr,ro)



comission/comisie, article/articol, paragraphe/paragraf,
directive/directivă
pas beaucoup de candidats de la classe 1 ou 2
quelques noms

fr


18/07/2015
lieu (avoir, donner), vigueur (entrer, mettre), compte
(prendre, tenir)
ro

parte (face) vigoare (intra) et măsură (lua, anula)
44
Prédicateurs complexes
(ro)
Candidats (ro)
Prep
LL
aduce atingere
-
51571,1211771531
lua considerare
în
26697,2875383302
ţine cont
-
26637,3033729519
pune aplicare
în
12989,9639878404
veni contact
în
3009,72649488981
18/07/2015
45
Prédicateurs complexes
(fr)
Candidats (fr)
Prep,
Art
LL
avoir lieu
-
45860.0441745073
faire objet
l'
39398.1847211485
-
39310.6736511725
mettre oeuvre
en
22733.427464941
prendre considération
en
13100.3090319577
tenir compte
18/07/2015
46
Résultats
Les 10 classes de constructions et
coocurrences V-N et leurs répartition sur les
1000 premiers candidats
18/07/2015
47
Extraction d'équivalents (I)

Extraire les listes d'équivalents de traduction
(études des alignements fr-ro, ro-fr):

Prédicateurs complexes traduits par des
prédicateurs complexes dans la langue source
fait/Vmip3s/faire l'/Da3ms/le
objet/Nc-s--/objet= face/Vmip3s/face

obiectul/Ncmsry/obiect

dă/Vmip3s/da naştere/Ncfsrn/naştere=
donnerait/Vmic3s/donner lieu/Ncms--/lieu

Prédicats+compléments équivalents dans les deux
langues

18/07/2015
émis/Vmps-sm/émettre un/Da-ms/un avis/Nc-s-/avis=emis/Vmp--sm/emite avizul/Ncmsry/aviz
48
Extraction d'équivalents
(II)

Prédicateur complexe traduit par un verbe ou
un nom

a/Vaip3s/avea reparat/Vmps-sm/repara
pagubele/Ncmp--/pagubă=a/Vaip3s/avoir
dédommagé/Vmps-sm/dedommager

donnent/Vmip3p/donner lieu/Nc-s--/lieu
=generează/Vmip3s/genera

18/07/2015
aducă/Vmsp3/aduce atingere/Ncfsrn/atingere=
préjudice/Nc-s--/préjudice
49
Extraction d’équivalents (III)

Entrées multiples

Plusieurs équivalents


A face referire = faire référence à, faire
mention, définir, mentionner
plusieurs sens

dă/Vmip3s/da naştere/Ncfsrn/naştere =
donner lieu


18/07/2015
Conflits, débats, interventions
dă/Vmip3s/da
naştere/Ncfsrn/naştere=accoucher
50
Le dictionnaire






18/07/2015
150 entrées/langue (en cours)
entrées trilingues
possibilité d'extensions vers d'autres langues
(l'anglais)
informations sur la fréquence de chaque
propriété (si > 85%)
possibilité de représenter les cas
d'équivalence entre collocations et unités
lexicales simples
interopérabilité de données

format XML, DTD définie
51
<?xml version="1.0" encoding="utf-8"?>
<collocations>
<entry id="1">
<te lang="fr">
<construction>tenir compte</construction>
<v_lemma>tenir</v_lemma>
<v_spec>
<form></form><active>oui</active>
</v_spec>
<prep>null</prep>
<n_lemma>compte</n_lemma>
<n_spec>
<det freq="90%">null</det>
<number freq="80%">sg</number>
<modifier freq="76%">null</modifier>
<case>nospec<case>
</n_spec>
<colloc_spec>
<c_spec>
<required_args case="Acc" prep="de">OD</required_args>
<lexical_head></lexical_head>
<c_spec>
<colloc_type>prédicateur complexe</colloc_type>
<examples>la commission a tenu compte du rapport de l'expert…
</examples>
</colloc_spec>
</te>
<te lang="ro"></te>
<te lang="de"></te>
</entry>
</collocations>
18/07/2015
52
<?xml version="1.0" encoding="utf-8"?>
<collocations>
<entry id="1">
<te lang="ro">
<construction>lua considerare</construction>
<v_lemma>lua</v_lemma>
<v_spec>
<form></form><active>oui</active>
</v_spec>
<prep>în</prep>
<n_lemma>considerare</n_lemma>
<n_spec>
<det freq="98%">null</det>
<number freq="100%">sg</number>
<modifier freq="97%">null</modifier>
<case>nospec<case>
</n_spec>
<colloc_spec>
<c_spec>
<required_args case="Acc" det="déf">OD</required_args>
<lexical_head></lexical_head>
<c_spec>
<colloc_type>prédicateur complexe</colloc_type>
<examples>comisia a luat în considerare…
</examples>
</colloc_spec>
</te>
<te lang="fr"></te>
<te lang="de"></te>
</entry>
</collocations>
18/07/2015
53
Conclusion et perspectives


Identification des propriétés morphosyntaxiques spécifique pour chaque langue
Définition des filtres linguistiques



validation manuelle des données extraites
Utilisation de corpus alignés pour alimenter le
dictionnaire

18/07/2015
quelques classes de collocations
équivalents de traduction
54
Conclusion et perspectives
(II)





18/07/2015
enrichir le dictionnaire avec d'autres entrées
transformation vers le format LMF
développement d'interfaces Web pour
interroger le dictionnaire
utilisation du dictionnaire comme ressource
pour un système de traduction automatique
factorisé fr-ro
utilisation du corpus annoté syntaxiquement
pour automatiser le remplissage du
dictionnaire
55
Réferences






18/07/2015
BRAASCH, (Anna), OLSEN (Sussi) : 2000, "Formalised Representation of
Collocations in a Danish Computational Lexicon", in Heid (U.) et al., eds. The
Ninth EURALEX Congress, Proceedings, Vol. II, (Stuttgart), pp. 475-488.
CEAUSU (Alin), ŞTEFANESCU (Dan) and TUFIS (Dan) : 2006, « Acquis
Communautaire Sentence Alignment using Support Vector Machines», in
Proceedings of LREC 2006, (Genoa).
GROSSMANN (Francis), TUTIN (Agnès), dir. : 2003, « Les collocations: analyse
et traitement», Numéro special : « Travaux et Recherches en Linguistique
Appliquée ».
HAUSMANN (Franz Josef) : 2004, « Was sind eigentlich Kollokationen? », in
STEYER (K), eds., Wortverbindungen – mehr oder weniger fest, pp. 309-334
HALLIDAY (Michael) : 1985, An Introduction to Functional Grammar, (London,
Arnold).
HEID (Ulrich) and RITZ (Julia) : 2005, « Extracting collocations and their
contexts from corpora», in Actes de Conference on Computational Lexicography
and Text Research, (Budapest).
56
Références (II)





18/07/2015
POLGUERE (Alain) : 2006, « Structural properties of Lexical Systems:
Monolingual and Multilingual Perspectives», in Proceedings of the Workshop on
Multilingual Language Resources and Interoperability (COLING/ACL 2006,
Sydney), pp. 50-59.
RITZ (Julia) and HEID (Ulrich) : 2006, « Extraction tools for collocations and
their morphosyntactic specificities», in Proceedings of the Linguistic Resources
and Evaluation Conference, (Genova).
SERETAN (VIOLETA), NERIMA (LUKA) AND WEHRLI (ERIC) : 2004, « A tool for
multi-word collocation extraction and visualization in multilingual corpora», in
Proceedings of EURALEX’2004, (Lorient, France), vol. 2, pp.755-766
TUTIN (AGNÈS) : 2004, « Pour une modélisation dynamique des collocations
dans les textes», in Actes du congrès EURALEX’2004, (Lorient, France), vol. 1,
pp. 207-221.
TODIRASCU(AMALIA), HEID (ULRICH), ŞTEFĂNESCU (DAN), TUFIŞ(DAN),
GLEDHILL(CHRISTOPHER), WELLER(MARION), ROUSSELOT (FRANÇOIS): 2008, « Vers un
dictionnaire de collocations multilingue », Cahiers de linguistique, Université de
Louvain
57