Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004 Emilie Guimier De Neef Le présent document contient des informations qui sont la propriété de.

Download Report

Transcript Tutoriel TAL des NFCE Journée ATALA 5 Juin 2004 Emilie Guimier De Neef Le présent document contient des informations qui sont la propriété de.

Slide 1

Tutoriel TAL des NFCE
Journée ATALA
5 Juin 2004
Emilie Guimier De Neef
Le présent document contient des informations qui sont la propriété de France Télécom. L'acceptation de ce
document par son destinataire implique, de la part de ce dernier, la reconnaissance du caractère confidentiel
de son contenu et l'engagement de n'en faire aucune reproduction, aucune transmission à des tiers, aucune
divulgation et aucune utilisation commerciale sans l'accord préalable écrit de France Télécom R&D

D1 - 31/10/2015


Slide 2

2. Particularités linguistiques
s
s
s
s
s

Caractériser brièvement les messages SMS
Particularités morphologiques
Particularités typographiques
Composante émotionnelle
Perspectives pour le TA

s

Particularités linguistiques : Anis, J. (2002) Communication
électronique scripturale et formes langagières : chats et SMS.
Actes des journées « S'écrire avec les outils d'aujourd'hui »,
Université de Poitiers http://oav.univpoitiers.fr/rhrt/2002/actes%202002/jacques%20anis.htm

France Télécom R&D

La communication de ce document est soumise à autorisation de France Télécom R&D

D2 - 31/10/2015


Slide 3

Brève caractérisation des SMS
s

Un message écrit…
Q …à «échéance rapide» - Anis J. (2002) :

– réaction quasi-immédiate de l’interlocuteur sollicitée : (abondance des
questions, tournures impératives, bribes de dialogue…)
– durée de vie limitée des informations diffusées : (souhaits, situation
instantanée du locuteur, réactions à propos d’événements passés ou futurs
proches etc.)

Q ...contraint par la saisie sur mobile :
– 160 caractères maximum
– Difficulté de la saisie
– (re)lecture sur petit écran

Q …présentant des points communs avec l’oral :
– écriture véhicule les émotions du locuteur
– écriture ludique

France Télécom R&D

La communication de ce document est soumise à autorisation de France Télécom R&D

D3 - 31/10/2015


Slide 4

Ecrire des SMS…
s

…dans un français écrit relativement standard :

s

…dans un français «SMS» plus ou moins facile à lire :

– allo maman et papa.je suis en bus à la porte d'orléans.bonne soirée.
– DEBOUT! c'est l'heure de se réveiller!!.

– Ya qqn ki pouré vnir me cherché.
– merci pr ta cart et désolé pr ton code, moi je lé u bonne vac a+ et gros bisoussss
– ca f 2 foi q tu mapel m j nété pa la p tu m dire qui tu é
– É k f tu dmin
– Coucou g c f r 1 texto c koul!

France Télécom R&D

La communication de ce document est soumise à autorisation de France Télécom R&D

D4 - 31/10/2015


Slide 5

Particularités morphologiques des SMS
s Abréviations de mots :
(1)
QEcriture phonétique (simplification de la graphie)
ON SE RAPPEL
Ki é tu
Biz

on se rappelle

qui es-tu
bises

QTroncations :

– Suppression des lettres finales :
J ESPER KE TU LIRA CA
Veuillez m'appeler à ce numér

J’espère que tu liras ça
Veuillez m’appeler à ce numéro

– Réduction à l’initiale :
p tu m dire
k f tu

peux-tu me dire
que fais-tu

– Troncation intermédiaire:
tel / téléphone
cop / copain - copine

anniv / anniversaire
esp / espérer

port/ portable
mag / magazine – magasin

QRéductions au squelette conconnantique :

SLT A VS TS.
dsl pr staprem
RP
France Télécom R&D

Salut à vous tous
désolé pour cet après-midi
réponds
La communication de ce document est soumise à autorisation de France Télécom R&D

D5 - 31/10/2015


Slide 6

Particularités morphologiques des SMS
(2)
s Sigles :
MDR le 6né

mort de rire le ciné

Atd
Bien arrivés tvb biz

à ta disposition
bien arrivés, tout va bien, bises

s

Ecriture rébus : (Utilisation du son des lettres, des chiffres et des symboles)

s

Ecriture phonétique non abrégée :

on se dbrouille
g ht du kfé
6non t concer se pass bi1
tu vas r100bl à…
A+
Appel moa
E twa ca va
Bizoo a2m1

France Télécom R&D

on se débrouille
j’ai acheté du café
sinon tes concerts se passent bien
tu vas ressembler à…
à plus (tard)
appelle-moi
et toi ça va ?
bisou à demain
La communication de ce document est soumise à autorisation de France Télécom R&D

D6 - 31/10/2015


Slide 7

Particularités morphologiques des SMS
(3)
s Agglutination de mots :
Qséquence avec clitique :
jatend son cou 2fil.
gspère qtu va bien
tu mracontera
je navai + dunité

Qséquence avec déterminant :
c le foot ki te mé ds 7éta?
moi g lepermi

Qséquence avec préposition :
g ésayé 2tapelé pl1 2foi
jti1 BCP tro àtoi

QFormes lexicales complexes :
Keske tu deviens?
Ojourdhui

France Télécom R&D

J’attends son coup de fil
J’espère que tu vas bien
Tu me raconteras
je n’avais plus d’unités
C’est le foot qui te met dans cet état ?
Moi j’ai le permis

J’ai essayé de t’appeler plein de fois
je tiens beaucoup trop à toi
Qu’est-ce que tu deviens ?
Aujourd’hui
La communication de ce document est soumise à autorisation de France Télécom R&D

D7 - 31/10/2015


Slide 8

Particularités typographiques des SMS
(1)
s Séparation des mots variable :
Q Séparateur classique (espace, apostrophe, tirets etc.)
Q Espace mais absence des apostrophes et tirets :

je n’en ai pas le droit

J n en ai pa l droit

va t on se boir un verre?

Va-t-on se boire un verre ?

Q Séparateur non standard :

IL*FAIT*BEAU*CHEZ*VOUS*ICI*IL*Y*A*DU*SOLEIL*
JE.SUIS.PRES.DE.TOI.BISOUS.
APPELLE+MOI+QUAND+TU+VOUDRAS

Q La casse comme frontière de mots :
JeTécrisJoyeuxAnniversaire
cPASdeTAfauteMONchat

Q Aucune marque de frontière de mots :

APPELLEMOISURLEPORTABLEappelle-moi sur le portable

France Télécom R&D

La communication de ce document est soumise à autorisation de France Télécom R&D

D8 - 31/10/2015


Slide 9

Particularités typographiques des SMS
s (2)
Utilisation variable de la ponctuation :
QPrésence
QAbsence :

pqoi tu don+ 2 nvel j‘esper ke c pa a kos de moa
nouvelles ? J’espère que

pourquoi tu donnes plus de
c’est pas à cause de moi

QUtilisation excessive / expressive :

Pourquoi tu me donne + de t nouvel?????
on est sur la plage!!!!!!!!!!

s

Accentuation et cédilles :
QAbsents :

pas grave ca le fait quand meme!

pas grave ça le fait quand même

QPrésents et corrects :

Nous sommes bien arrivés. Il fait très chaud

QDéfaillants :

ON É A L ARRèT
France Télécom R&D

on est à l’arrêt
La communication de ce document est soumise à autorisation de France Télécom R&D

D9 - 31/10/2015


Slide 10

Particularités typographiques des SMS
(3)s Casse :
QStandard (début de phrase, de nom propre)
QSéparateur de mot
QMise en relief d’une écriture phonétique :
Alors KV vous Pchez IR?
hier ?
g 1 triste nvL a tanonC

Alors qu’avez-vous pêché

J’ai une triste nouvelle à t’annoncer

QMarque d’une émotion :
il fait SUPER bo

QPas d’utilisation de la casse :

chuis ché mamy avec papa et paul
Papa et Paul

France Télécom R&D

Je suis chez Mamy avec
La communication de ce document est soumise à autorisation de France Télécom R&D

D10 - 31/10/2015


Slide 11

Les marques de l’émotion
sSmileys :
slt ;-> pq tapel pa :(
a bientot;o)

sModification expressive de la graphie
sRedoublement de caractères
g u 16 en fisic suupppeeer

j'ai eu 17 en physique super !

sCombinaison possible avec capitalisation :
G fai 1 gato HHHHUUUUMMM!!! J'ai fait un gâteau hum !
Je t'MMMMMMMMMMM.

Je t'aime

sPonctuation expressive
France Télécom R&D

La communication de ce document est soumise à autorisation de France Télécom R&D

D11 - 31/10/2015


Slide 12

Conséquences pour le TA
s
s

Segmentation des messages :
Qtrouver les frontières des mots
Qdécoller et interpréter les formes agglutinées
Lexique :
Qaugmentation en volume (abréviations + variantes orthographiques)
Qgestion des procédés dynamiques (modification expressive des graphies)
Qambiguïté des graphies abrégées (particulièrement des lettres isolées) :
C est moa
C ta fete
j c pa kan
1 2 c copines
on a d inviT c soir

s

c'est moi
c'est ta fête
je sais pas quand
une de ses copines
on a des invités ce soir

Analyse syntaxique :
Q gérer l’absence des marques formelles (apostrophes, ponctuation, majuscules,
tirets etc)
Qdésambiguïser les abréviations

France Télécom R&D

La communication de ce document est soumise à autorisation de France Télécom R&D

D12 - 31/10/2015