Nouveaux enjeux TAL et Big Data.pptx

Download Report

Transcript Nouveaux enjeux TAL et Big Data.pptx

Nouveaux enjeux de l’analyse linguis2que Big data et Réseaux sociaux Paris, Club de l’ Intelligence Economique et Stratégique 17 avril 2014 [email protected] 17/04/14 Club IES [email protected] 1 Nouveaux enjeux du TAL •  Rapide état de l’art en TAL •  Quelles u2lisa2ons pour quels enjeux •  Par les entreprises ? •  Par Google, facebook et les autres ? •  Par les Etats ? 17/04/14 Club IES [email protected] 2 Etat de l’art TAL •  Des applica2ons spectaculaires o  Google Translate, SIRI, Watson, etc. o  Des niveaux de qualité qui sont suffisants o  Avec pas ou peu d’adapta2on au cas d’usage ni au domaine
•  Donc, la technologie TAL (NLP) est-­‐elle arrivée à maturité ? o  OUI, dans ces cas d’applica2ons grand public o  Mais quid des applica2ons professionnelles, notamment liées à l’Intelligence Economique ? •  Besoins plus sophis2qués, adapta2on au domaine et à la tâche 17/04/14 Club IES [email protected] 3 TAL et ges2on de l’informa2on •  Trouver un document (IR : informaIon retrieval) o  Par sujet, auteur, date, etc. o  Documents qui parlent d’ Obama ( parce que je cherche son âge) o  Réponse possible : hPp://en.wikipedia.org/wiki/Barack_Obama •  Trouver une donnée (QA : quesIon answering) o  Quel est l’age d’Obama o  Réponse possible : 52 ans •  Décrire un document o  La recherche se fait sur une descrip2on, et non sur le document lui-­‐même. 17/04/14 Club IES [email protected] 4 TAL et ges2on de l’informa2on •  Extraire les descripteurs ( IE : InformaIon extracIon ) o  Analyse automa2que des documents pour en extraire des descripteurs plus ou moins complexes •  Catégoriser des documents ( CategorizaIon ) o  Placer des documents sous la bonne entrée dans un plan de classement •  Classer des documents (clustering) o  Rassembler des documents similaires (sans plan pré-­‐établi) 17/04/14 Club IES [email protected] 5 Des niveaux de plus en plus profonds •  Extrac2on d’en2tés nommées o  Personnes, lieux, organisa2ons, produits, etc. •  Extrac2on de théma2ques o  Et catégorisa2on •  Extrac2ons de rela2ons o  Entre en2tés et / ou théma2ques •  Extrac2on d’informa2ons plus subjec2ves o  « sen2ment analysis » •  Extrac2on d’informa2ons fiables o  « fact checking » 17/04/14 Club IES [email protected] 6 Exemple: noms de personnes •  Personnes connues •  L’élecIon de François Hollande a fait revenir la gauche… •  Personnes inconnues •  Paul Schmilblik, M. Schmilblik, Le président Schmilblik, le général Machin •  Dans son discours, Schmilblik a affirmé que… •  Ambiguïtés •  Selon Hollande la courbe du chômage / le chômage en Hollande •  La place du général de Gaulle, la bibliothèque François MiPerrand •  Références •  Le président de la République pense que … •  Le président pense que … •  En 1962, le président pensait que … 17/04/14 Club IES [email protected] 7 Exemple sur en2té personne 17/04/14 Club IES [email protected] 8 Extrac2ons de thèmes •  Lien thésaurus/ontologie/référentiel – dictionnaire
o  Comment associer le descripteur «augmentation de
salaire» au texte « le SMIG a augmenté »
•  Dictionnaire
!  augmenté est une forme flexionnelle du verbe
augmenter
!  Augmentation est la nominalisation du verbe augmenter
!  SMIG est une sorte de salaire
17/04/14 Club IES [email protected] 9 Extrac2on de rela2ons •  Nécessite une analyse plus fine o  Marquage XML > triplets rdf. 17/04/14 Club IES [email protected] 10 Extrac2on d’opinions •  Une objet sur lequel porte l’opinion •  Un aspect ou caractéris2que de cet objet •  Un sen2ment (tonalité) qui porte sur cet aspect de l’objet •  L’iden2fica2on de la personne émemant l’opinion •  le moment où l’opinion est émise Source : ar2cles du Pr. Bing Liu, Université de Chicago 17/04/14 Club IES [email protected] 11 Exemple 17/04/14 Club IES [email protected] 12 Iden2fier les « sen2ments » •  Evalua&ons factuelles –  La chambre est propre : fait posi2f –  La machine fait beaucoup de bruit: fait néga2f •  Avis –  J’ai trouvé que la chambre n’était pas assez propre –  La machine fait trop de bruit •  Evalua&ons émo&onnelles –  J’ai détesté cePe chambre crasseuse –  J’ai toujours aimé le plat du jour de ce restaurant 17/04/14 Club IES [email protected] 13 Interpréter selon le contexte •  Posi&fs ou néga&fs selon le contexte syntaxique – 
– 
– 
– 
Ce disposiIf permet de tester l’efficacité : neutre Ce disposiIf permet d’augmenter l’efficacité : posi2f Une efficacité incroyable : posi2f L’efficacité de cePe machine est très limitée : néga2f •  Posi&fs ou néga&fs selon le contexte séman&que –  Cet homme est nerveux / cePe voiture est nerveuse •  Posi&fs ou néga&fs selon le point de vue –  CePe formule a permis d’augmenter les prix 17/04/14 Club IES [email protected] 14 Comprendre les paraphrases • 
• 
• 
• 
• 
Les chambres sont très sales La saleté de la chambre est insupportable Le tapis de la chambre est sali La piaule est crasseuse La chambre est tout sauf propre •  Forme de surface / Forme lemma&sée : –  sales/sale ; saleté/saleté ; sali / salir ; crasseuse / crasseux •  Catégorisa&on : –  SALETE = sale, salir, saleté; Familier = crasseux; Contraire = PROPRETE 17/04/14 Club IES [email protected] 15 Extrac2on d’informa2ons fiables •  Le 4 ème « V » du big data : véracité •  Par l’analyse du discours o  Condi2onnels, hypothèses, supposi2ons o  Discours rapportés, fiabilité des sources citées •  Par comparaison avec des sources d’autorité o  Documents officiels, légaux, etc. o  Ontologies, open data o  Valider les ar2cles conformes •  Par comparaison de sources o  Ecarts entre ar2cles pour la même info 17/04/14 Club IES [email protected] 16 17/04/14 Club IES [email protected] 17 17/04/14 Club IES [email protected] 18 17/04/14 Club IES [email protected] 19 Nombreux ou2ls TAL disponibles •  Analyseurs o  Ouverts : GATE, NOOJ, UNITEX, OpenNLP o  Sous licence commerciale : TEMIS, Syllabs, Proxem, etc. •  Ressources linguis2ques o  ELRA o  Ontologies sur le Linked Open Data •  Le cout d’entrée dans le secteur a sensiblement baissé 17/04/14 Club IES [email protected] 20 Mais encore de nombreux problèmes mal résolus • 
• 
• 
• 
• 
• 
• 
Anaphores Liage des en2tés nommées Ramachements longs Analyse du discours Ou2ls disponibles très variables selon les langues … Mais l’état de l’art actuel est suffisant pour être u2lisé dans des applica2ons opéra2onnelles 17/04/14 Club IES [email protected] 21 Nouveaux enjeux du TAL •  Rapide état de l’art en TAL •  Quelle u2lisa2on pour quels enjeux •  Par les entreprises ? •  Par Google, facebook et les autres ? •  Par les Etats ? 17/04/14 Club IES [email protected] 22 Toutes les ac2vités sont concernées •  Le marke2ng, la communica2on, les ventes et le support après vente, les ressources humaines, les achats, la R&D, les finances, la DG 17/04/14 Club IES [email protected] 23 Marke2ng: Etudes tradi2onnelles / Big Data •  Etudes tradi2onnelles : –  Quan2ta2ves : sondages •  Panel représenta2f, bonne connaissance des personnes (CSP) •  Biais possibles, influence de la forme des ques2ons –  Qualita2ves •  Entre2ens : peu de personnes interrogées •  Ecoute des Réseaux sociaux –  Quan2ta2f et Qualita2f –  Conversa2ons spontanées, souvent très nombreuses –  Mauvaise connaissance des personnes, compensée par le volume 17/04/14 Club IES [email protected] 24 Communica2on: Quelques cas devenus des « classiques » •  Nestlé ( mars 2010 ) • 
• 
• 
• 
Greenpeace publie une vidéo plutôt trash amaquant Nestlé Nestlé réagit mal, cherche à supprimer des commentaires, etc. Ce qui augmente le bad buzz, « effet Streisand » Au point de provoquer une baisse du cours de l’ac2on 17/04/14 Club IES [email protected] 25 Quelques cas devenus des « classiques » •  La Redoute ( janvier 2012 ) •  Un homme nu est découvert en arrière plan d’une photo de T-­‐shirt pour enfant sur le catalogue de La Redoute. •  Gros « bad buzz » immédiat •  Bonne réac2on de la société, qui re2re immédiatement l’image et présente ses excuses, et organise un jeu « chasse aux erreurs » •  Mais pour les curieux, rien de plus facile que de retrouver ceme photo largement commentée sur le web 17/04/14 Club IES [email protected] 26 Rémanence mesurée par Google Trends •  «nestlé greenpeace» de mars 2010 à mars 2011 •  «la redoute homme nu» de décembre 2011 à décembre 2012 17/04/14 Club IES [email protected] 27 Des plateformes spécialisées •  Un offre très abondante •  Pour n’en citer que quelques unes: • 
• 
• 
• 
• 
• 
• 
• 
• 
• 
AMI sokware eCairn QWAM LINKFLUENCE RADIAN6 (Salesforce) TALKWALKER SINDUP TRAACKR VISIBRAIN … •  Nombreux critères de choix en fonc2on du projet 17/04/14 Club IES [email protected] 28 Ecouter le client (ou l’internaute en général ) •  Que fait-­‐il ? •  Où va t-­‐il ? Qu’achète-­‐t-­‐il ? Quand ? A quel prix, etc… •  Données et métadonnées •  De quoi parle t-­‐il ? •  De quelles personnes, quelles sociétés, quels produits ? •  ExtracIon d’enItés nommées et thèmes abordés •  Que pense-­‐t-­‐il ? •  Quels avis, quelles opinions, quelles recommanda2ons ? •  Opinion mining , senIment analysis 17/04/14 Club IES [email protected] 29 L’apport des technologies linguis2ques •  Pas nécessaire pour une simple analyse quan2ta2ve o  Fréquence de cita2ons des objets o  L’extrac2on d’en2tés nommées est suffisante •  À condi2on de les connaître, sinon analyse linguis2que nécessaire •  Mais devient vite indispensable o  Dès que l’on vise une analyse qualita2ve o  Opinion mining ou Sen2ment analysis 17/04/14 Club IES [email protected] 30 Iden2fier les influenceurs •  L’ac2vité •  Volume de messages émis •  La per2nence •  Par rapport au sujet de l’étude •  L’audience •  Ou « portée », « reach »: nombre d’abonnés, followers, etc •  L’engagement •  Ou « résonnance » : cita2ons, retweets, diffusion 17/04/14 Club IES [email protected] 31 Comment le client perçoit-­‐il le big data ? (même s’il ne connaît pas le mot) S’agit-­‐il : De l’écouter pour mieux le servir ? De l’espionner pour mieux le manipuler ? 17/04/14 Club IES [email protected] 32 17/04/14 Club IES [email protected] 33 Nouveaux enjeux du TAL •  Rapide état de l’art en TAL •  Quelle u2lisa2on pour quels enjeux •  Par les entreprises ? •  Par Google, facebook et les autres ? •  Par les Etats ? 17/04/14 Club IES [email protected] 34 Les grandes plateformes US •  Très ac&fs en R&D linguis&que •  Traduc2on, IR, IE, etc •  Ont une réelle avance technologique •  Intégra2on, mul2linguisme, scalability •  Un challenge à relever 17/04/14 Club IES [email protected] 35 Google : TAL et IR 17/04/14 Club IES [email protected] 36 Google : ques2on / réponse 17/04/14 Club IES [email protected] 37 Google : traduc2on 17/04/14 Club IES [email protected] 38 Début février … 17/04/14 Club IES [email protected] 39 Mi mars 17/04/14 Club IES [email protected] 40 Qui y croit ? 17/04/14 Club IES [email protected] 41 Nouveaux enjeux du TAL •  Rapide état de l’art en TAL •  Quelle u2lisa2on pour quels enjeux •  Par les entreprises ? •  Par Google, facebook et les autres ? •  Par les Etats ? 17/04/14 Club IES [email protected] 42 Pour les Etats •  Diffuser de l’informa2on •  Tous les .gouv.fr, data.gouv •  Analyser l’opinion na2onale •  Exemple élec2ons •  Analyse prédic2ve sur données massives •  Veille stratégique •  NSA, … et d’autres… •  Douanes, Tracfin, tous services de renseignement 17/04/14 Club IES [email protected] 43 Les municipales à Marseille 17/04/14 Club IES [email protected] 44 Twimer, arme de désinforma2on massive 17/04/14 Club IES [email protected] 45 Aux conséquences importantes… •  Impact : 130 MM$ en 3 minutes •  Text mining et high speed transac2ons 17/04/14 Club IES [email protected] 46 TAL + Big Data = risque ou opportunité ? •  Un nouvel eldorado du marke2ng et des études ? •  Ou un risque majeur pour la protec2on de la vie privée, voire des libertés individuelles ? 17/04/14 Club IES [email protected] 47 Le risque de « social fa2gue » •  Lassitude voire méfiance des consommateurs •  Risque de rejet, nouveaux comportements •  Trouver le bon équilibre entre o  Un ciblage toujours plus fin grâce au big data o  La protec2on de la vie privée o  Les abus provoquant la méfiance et le rejet •  Pour vivre heureux vivons cachés o  Est-­‐ce encore possible ? 17/04/14 Club IES [email protected] 48 Ras le bol social sur le modèle du ras le bol fiscal ? Y a t-­‐il un « effet bulle » poten2el ? 17/04/14 Club IES [email protected] 49 Crise de confiance ? 17/04/14 Club IES [email protected] 50 CNIL / Afnor / G29 •  Afnor o  Norme sur la fiabilité des avis consommateurs •  CNIL / Plan Big Data o  Vers la normalisa2on / cer2fica2on d’un processus industriel big data •  G29 : groupe consulta2f auprès de la CE 17/04/14 Club IES [email protected] 51 Avenirs possibles •  Statut Quo o  Les internautes se sa2sfont de la situa2on actuelle o  Renforcement du pouvoir des grands réseaux US •  Éclatement d’une bulle o  Rejet par les consommateurs et internautes, notamment les nouvelles généra2ons •  Transforma2on des usages o  Vers une mul2plica2on des réseaux sociaux spécialisés par communautés d’intérêt o  Vers un meilleur contrôle légal, norma2f, technique o  Perte progressive d’influence des grands réseaux actuels o  Réduc2on de l’effet Big Brother 17/04/14 Club IES [email protected] 52 Pour aller plus loin… Blog : hmp://bernardnormier.com 17/04/14 Club IES [email protected] 53