Correction automatique d*erreurs lexicales
Download
Report
Transcript Correction automatique d*erreurs lexicales
Comment optimiser
l’aide à la rédaction?
S. Verlinde
KU Leuven - ILT
enseignement
apprentissage
temps
résultat
résultat
temps
archivage
dicos
grammaires
Aide à la rédaction?
1 objectif – 2 composantes
o
aide lors de la production du texte > predictive writing aid
o
aide lors de la révision du texte > corrective writing aid
(Ziyuan 2012)
3 langues – 1 site
o
utilisabilité/ergonomie: efficacité, efficience et satisfaction
Démo: ‘predictive writing aid’
Démo: ‘corrective writing aid’
Traitement des données
Analyse: suites de caractères
… bien …
Mais aussi: avions, entreprises, …
Analyse: motifs
… Ver + Nom …
Ver + Det + Nom
Ver + Det + Adj + Nom
Ver + Adv + Det + Nom
Ver + Adv + Det + Adj + Nom
Ver + Adv + Det + Adv + Adj + Nom
…
Nom + Ver
Analyse: parseur?
Selon un article ce qu'est publiée il y a quelques semaines, 66pour cent des
étudiants travaille comme Jobiste pendant l'été.
http://alpage.inria.fr/parserdemo
http://beta.visl.sdu.dk/visl/fr/parsing/automatic/trees.php
http://www.latl.unige.ch/
Analyse: parseur?
Analyse: parseur? > Antidote 8
Analyse: analyse syntaxique de surface?
Ou
analyse syntaxique superficielle
shallow parsing
identification des constituants d’une phrase
(groupes nominaux, verbe)
sans
structure interne
fonctions dans la phrase
Enrichissement: ressources
•
Ressources TAL: Lefff, Dela
92815 dictionnaire
•
dictionnaire
Résultats d’analyses de corpus: Google n-gram
Nom:Mas+SG
Enrichissement: ressources
•
Ressources lexicographiques
ex. verbes support
Enrichissement: ressources
•
enseignement
Correcteur orthographique (nl.)
Comment s’y prendre?
•
•
•
•
Ressources TAL/lexicographiques: listes de formes (768385)
•
‘Règles’ de composition de mots (analyse de corpus)
ex.
apparaat + nom > 2: apparaatsnoer, apparaatskosten
nom + apparaat > +370 mots composés
defensie + nom > +110 mots composés
nom + defensie > 1: milieudefensie
aanbieding + nom > 0
•
•
Préfixes et suffixes + leur longueur
Données diverses: listes d’entités nommées, de sigles, …
Listes d’erreurs fréquentes (enseignement)
Règles d’orthographe
ex.
régulier: peer > peren + sap > perensap
paardenbloem, depuis le 15.10.2005, auparavant: paardebloem
unique: maan > *manen + schijn > maneschijn
Néologismes: ‘mesttsunami’
Performances? Cf. Word
Correction d’erreurs lexicales: combinaisons de mots (fr.)
Comment s’y prendre?
• Détection d’erreurs
• Correction des erreurs
Espagne (Wanner, A. Ramos)
Belgique
synonymes
traductions
1) mesure d’affinité
2) mesure de contexte lexical
3) mesure de paramètres contextuels
fonctions lexicales Mel’čuk
1)
2)
3)
fréquence
mesure d’association
fréquence *
mesure d’association
Fonctions lexicales: verbes support
Fonctions lexicales
Démarche
inventaire verbes support (collocatifs - 233) + noms (bases - 673)
T. Fontenelle
Dafles
Analyse de corpus
673 bases * 233 collocatifs:
fréquence + mesure d’association
Analyse linguistique
structure prédicative des 673 bases
identification de la fonction lexicale
Programmation PHP
Intégration des données
La touche finale…
Informations contextuelles
Google n-gram
Programmation PHP
appariement
bases + collocatifs
informations contextuelles
Programmation PHP
Interface utilisateur
Et le résultat?
Références bibliographiques
•
Ferraro, G. - Nazar, R. - Wanner, L. (2011). Collocations: A Challenge in
Computer-Assisted Language Learning.
http://olst.ling.umontreal.ca/pdf/proceedingsMTT2011.pdf
•
Heift, T. – Schulze, M. (2007). Errors and intelligence in computer-assisted
language learning. Parsers and pedagogues. New York: Routledge.
•
Leacock, C. - Chodorow, M. - Gamon, M. - Tetreault, J. (2010). Automated
grammatical error detection for language learners. San Rafael : Morgan &
Claypool.
•
Verlinde, S. – Peeters, G. (2012). Data access revisited: The Interactive
Language Toolbox. In S. Granger – M. Paquot (éds). Electronic Lexicography.
Oxford: Oxford University Press.
•
Wanner, L. – Alonso Ramos, M. – e.a. (2011). Annotation of collocations in a
learner corpus for building a learning environment.
http://www.dicesp.com/app/webroot/files/file/LCR2011_proceedings_wanner_l
eo_1_.pdf
http://ilt.kuleuven.be/inlato