1/ PRESENTATION GENERALE : DIFFERENTS ASPECTS ET …

Download Report

Transcript 1/ PRESENTATION GENERALE : DIFFERENTS ASPECTS ET …

RECHERCHE D’INFORMATION
SUR INTERNET :
RECENTES EVOLUTIONS
Stage URFIST de Rennes
Janvier 2009
Marie-Laure Malingre,
Alexandre Serres
© URFIST de Rennes, 2009
2
PLAN DE STAGE



1/ Introduction :
tendances et
mutations
2/ La nouvelle
économie de
l’attention
3/ Vers l’indexation
sémantique ?




4/ La
personnalisation
5/ La géolocalisation
6/ Les interfaces
visuelles
7/ Les données
personnelles
© URFIST de Rennes, 2009
3
Introduction : grandes tendances et
mutations informationnelles








Le déluge informationnel
Web 1, web 2, web 3…
La re-documentarisation du monde
La nouvelle économie de l’attention
La confusion des pratiques informationnelles
La serendipité
La personnalisation
La traçabilité généralisée
© URFIST de Rennes, 2009
4
1 Introduction : repères historiques et
chronologiques

Sur l’histoire du web :


L’histoire et l’avenir du web, de Camille Roux.
Sur l'histoire des moteurs :



Histoire de la recherche d'information
Moteurs de recherche Web : plus de 15 ans d'histoire
Chronologie des outils de recherche sur Internet
© URFIST de Rennes, 2009
5
1 Introduction : repères
chronologiques

Grandes périodes :


1989-1994 : émergence du web, création des premiers outils ;
Archie, Wanderer, Yahoo…
1994-2000 : essor des trois familles d’outils (moteurs,
annuaires, métamoteurs) ; domination d’Alta Vista et Yahoo ;
indexation morphologique, indice de pertinence ; grands
annuaires généralistes (Open Directory)

2000-2004 : explosion de la « bulle internet », montée en
puissance de Google ; indice de popularité ; émergence du
web 2.0 (blogs, Wikipedia), et du web sémantique

2004-2008 : explosion du web social, hégémonie de Google,
diversification, spécialisation des outils ; indexation sémantique,
généralisation des métadonnées..
© URFIST de Rennes, 2009
6
1/ Introduction : tendances
Le déluge informationnel

Réalité documentaire :




1996 : entre 100 et 250 000 sites web
2006 : entre 80 et 100 millions de sites
En 2008 : plus de 100 milliards de pages web
Projections :
•
Chiffre de 161 Exabits x 6 d’ici à 2010 = 72 fois
distance terre-soleil



En deux ans, plus de contenu créé que dans
toute l’histoire de l’humanité
93 % de ce contenu = électronique
70% des données créées par des individus
Sources : Livre blanc, Affordance, Vedocci…
© URFIST de Rennes, 2009
7
1/ Introduction : tendances...
Du web “1” au “web 2.0”
1/ Introduction : tendances...
Du web “1.0” au “web 2.0”
Source : http://resnumerica.free.fr/nouveau-blog/?category/web1.0/
© URFIST de Rennes, 2009
9
1/ Introduction : du WWW au GGG

Evolution du World Wide Web vers un Giant Global
Graph, selon Tim Berners-Lee

Distinction de trois niveaux :



Les infrastructures : le Net
 Relie les machines
La plate-forme de contenus : le Web
 Relie les documents
Le graphe social : social networking et web sémantique
 Relie les hommes et leurs ressources
Articulation des dimensions sociales et sémantiques du web.
Voir le billet de Francis Pisani

© URFIST de Rennes, 2009
10
Net – Web - Graph
GRAPH = Relations sociales
Étage de dissémination
Seuil de rétroaction / perméabilité
Étage de diffusion
WEB = plateforme de contenus
Seuil d’interaction / de production
NET = infrastructure
Étage de stockage
Seuil « technologique »
© O. Ertzscheid, 2008
11
1/ Introduction : repères, tendances... :
et demain ? Et 1… et 2… et 3… et 4. 0 ?
Source : Livre Blanc Aproged)
© URFIST de Rennes, 2009
12
1/ Introduction : tendances...
La re-documentarisation


Définition :
 "Redocumentariser, c’est documentariser à nouveau un
document ou une collection en permettant à un bénéficiaire
de réarticuler les contenus sémiotiques selon son
interprétation et ses usages à la fois selon la dimension
interne (…) ou externe (…). Dans ce contexte, la numérisation
offre des opportunités inédites pour la réappropriation des
documents et des dossiers en vue de satisfaire les intérêts de
nouveaux bénéficiaires.« . Manuel Zacklad & Travaux RTP-Doc:
Aujourd’hui, toute trace, inscription, support, flux ou échange
numérique… :


devient ou « fait » document ;
peut être « re-documenté », cad annoté, enrichi, modifié…
© URFIST de Rennes, 2009
13
REDOCUMENTARISATION


D’après Jean-Michel Salaün « Éclairages sur la redocumentarisation » :
http://blogues.ebsi.umontreal.ca/jms/index.php/2007/05/05/252-eclairages-surla-redocumentarisation
© URFIST de Rennes, 2009
14
1/ Introduction : tendances...
La re-documentarisation généralisée

Re-documentarisation :
 Des documents, des images
 Des lieux
 Des identités
 Du monde physique :



Cf le projet Point&Find de Nokia, commenté sur InternetActu :
« Où que vous soyez, si vous souhaitez une information sur un objet
ou un lieu (une affiche, un livre, une statue, un restaurant…), il vous
suffit de le prendre en photo et de l’envoyer sur les serveurs de cette
application. Grâce à des algorithmes d’intelligence artificielle, au
géopositionnement et à des logiciels d’analyse d’image, Point&Find
est capable d’identifier l’objet que vous lui avez envoyé, de chercher
de l’information sur celui-ci pour vous la renvoyer sur votre mobile. »
Mutations profondes de la re-documentarisation :
 « L’homme est un document comme les autres » (O.Ertzscheid)
 Traçabilité généralisée
 Editorialisation des ressources
© URFIST de Rennes, 2009
15
1/ Introduction : tendances...
La nouvelle économie de l’attention

Enjeu majeur sur le web : comment capter et
garder l’attention des usagers ?

La variante internet du « temps de cerveau
disponible » :

« Les internautes vous paient avec le temps qu'ils
passent sur vos contenus, ils vous paient avec leur
attention. C'est cette attention, que les annonceurs
veulent » . David Eun, responsable des partenariats de
contenus chez Google à New York (janv 08)
© URFIST de Rennes, 2009
16
Confusion des pratiques informationnelles
(d’après O. Ertzscheid)
chercher
communiquer
s’orienter
talk
google
print
organiser
partager
Tagger / indexer
orkut
earth
API’s
© URFIST de Rennes, 2009
17
1.Tendances… : la logique de serendipité

Notion de « serendipity » : art de trouver des
informations pertinentes sans les chercher

Sur le web, recherche = navigation au hasard, trouvailles
par intuition

Stratégie de certains outils de recherche :
comment favoriser techniquement cette modalité
intuitive de recherche ?
 Exemple de la catégorisation sur Exalead

Stratégie de certaines entreprises de presse :

cf le New York Times
 Permettre l’accès gratuit à l’intégralité du contenu sur
Google
© URFIST de Rennes, 2009
18
2. Economie de l’attention

Les enjeux économiques du web actuel

Contexte




Evolution des usages




Abondance de l’offre d’information, augmentation des flux
d’information
Accès à l’information de plus en plus large
Explosion des nouveaux types d’information en ligne
Contraction de la durée d’usage des informations
Excès de choix
« Crise de l’attention »
Loi énoncée par Herbert Simon :

« L’abondance d’information engendre une pénurie d’attention
et la nécessité d’allouer cette attention de manière efficiente
parmi la surabondance d’informations qui peuvent la
consommer »
© URFIST de Rennes, 2009
19
2. Economie de l’attention : la longue
traîne

2 types principaux d’analyse :

La longue traîne (Long Tail, Anderson)

Industrie des biens culturels
« Les produits qui sont l’objet d’une faible demande, ou qui n’ont qu’un faible
volume de vente, peuvent collectivement représenter une part de marché
égale ou supérieure à celle des best-sellers, si les canaux de distribution
peuvent proposer assez de choix. » (sur Wikipedia)
© URFIST de Rennes, 2009
20
2. Economie de l’attention : la longue
traîne
• 20% des produits représentent plus 80% du C.A.
• Amazon réalise plus de la moitié de son C.A. sur des
produits qui sont au fond de son catalogue.
– Effets à court terme de la longue traîne :
– Augmentation de la diversité des produits et des ventes
– Baisse de la concentration des “produits stars”
– Mais effets à long terme à nuancer :
– Théorie contredite par les faits dans certains secteurs
– Problèmes de “l’économie de l’attention” : surcharge
informationnelle >> renforcement de la concentration des
ventes
– Rôle-clé de la méta-information pour guider les choix
(personnalisée, collaborative dans le cadre de communautés en
ligne)
© URFIST de Rennes, 2009
21
2. Economie de l’attention : définition

L’économie de l’attention

« L’expression “économie de l’attention” cherche à rendre
compte du fonctionnement de marchés dans lesquels l’offre
est abondante (et donc économiquement dévalorisée) et la
ressource rare devient le temps et l’attention des
consommateurs ».
(Daniel Kaplan, Internet Actu avril 2007)



Marché où les consommateurs acceptent de recevoir des
services en échange de leur attention
 actualités personnalisées, recherche personnalisée, alertes,
recommandations d’achat.
Procédures de captation de l’attention, fondée sur la notion
de contenu pertinent
Système qui repose essentiellement sur la gratuité des
services
 Abonnés, profils…
© URFIST de Rennes, 2009
22
2. Economie de l’attention : enjeu




Un enjeu pour les nouveaux sites, les blogs, les moteurs
de recherche …
Retour à l’économie de l’accès
Comment montrer le contenu pertinent et y faire accéder
Connaissance … et traçabilité de l’usager :




Selon 4 principes :


Histoire de sa navigation
Ses goûts
Ses réseaux …
Propriété, mobilité, économie, transparence
Capture, stockage, enregistrement de l’attention
© URFIST de Rennes, 2009
23
2. Economie de l’attention : fonctionnement
Cf. A. Iskold
http://www.readwriteweb.com/archives/attention_economy_overview.php
© URFIST de Rennes, 2009
24
2. Economie de l’attention : fonctionnement
Cf. A. Iskold
http://www.readwriteweb.com/archives/attention_economy_overview.php
© URFIST de Rennes, 2009
25
2. Economie de l’attention

Le marché de la recommandation (source : O.Ertzscheid)



Inscription dans les logiques de la Longue Traîne et de l’Economie
de l’Attention
Origines : dispositif des annuaires, système PageRank dans web
1.O ; recommandations sur Amazon
Au cœur du web 2.0







Sites de vente
Sites de partage
Sites communautaires
= Mode de propagation « viral »
À la base : Crowdsourcing
De la médiation par l’expertise à la médiation par l’usage et à la
médiation par le nombre
Problèmes:



Expertise ?
Effet saint-matthieu
Diversité non visible
© URFIST de Rennes, 2009
26
2. Economie de l’attention : marché
publicitaire

L’économie de l’attention vit de la publicité





Moteurs comme « marchés multi-faces » utilisateurs /
éditeurs d’information sur le web (Xavier Wauthy)
Gratuité et financement par la vente de l’accès à
l’audience = annonceurs / publicité
Modèles analogues pour les plateformes Web 2.0
Ciblage, profilage de l’usager par l’information que
celui-ci donne gratuitement
Modèle publicitaire fondé sur les bases utilisateurs
© URFIST de Rennes, 2009
27
2. Economie de l’attention : marché
publicitaire

Deux grands modèles économiques du web :

Publicité en ligne :




Bannières, liens sponsorisés
Valorisation de l’audience des sites, mise en
visibilité des contenus, récolte de revenus
publicitaires auprès des annonceurs
 Google, Yahoo, MSN, AOL
44,6 Mrds $ de dépenses publicitaires en 2008
Cybermarché :



Commerce en ligne
Domination d’Amazon et eBay
204 Mrds $ de CA en 2008
© URFIST de Rennes, 2009
28
2. Economie de l’attention : marché
publicitaire

Marché publicitaire :

Dominé par Google : entre 30 et 40 % des dépenses
publicitaires en ligne


Yahoo, AOL et MSN : modèle des bannières publicitaires



Liens sponsorisés
Yahoo : 14 % du marché
Microsoft : 6 %
Concurrence acharnée de Yahoo et Microsoft pour
la conquête de ce marché publicitaire :


Course à l’audience
Nouveaux concurrents : Facebook, MySpace
© URFIST de Rennes, 2009
29
2. Economie de l’attention : positionnement

Un phénomène majeur : Le positionnement
publicitaire






Vers un modèle économique basé sur une composante
publicitaire et / ou promotionnelle
Affichage de « Liens sponsorisés »
Apparu en 2001 en France
Au départ : achat de mots clés aux enchères sur les réseaux
Overture, Espotting ou Adwords de Google avec paiement du
trafic = nombre de clics générés
Source de revenus primordiale pour les outils de recherche
Promotion vitale pour nombre de sites
© URFIST de Rennes, 2009
30
2. Economie de l’attention : positionnement

Définition du positionnement


Positionnement naturel :


Position occupée par un site ou une page web dans la page de
résultats d’un outil de recherche
lié au fonctionnement de l’outil de recherche
Positionnement payant :

Offre commerciale permettant de garantir la visibilité en tête des
résultats de recherche = système du Search Engine Marketing
© URFIST de Rennes, 2009
31
2. Economie de l’attention : positionnement

Le positionnement payant : fonctionnement, rappels


La campagne promotionnelle
Des “sites annonceurs” achètent, aux enchères, des requêtes /
mots clés sur lesquels ils souhaitent être positionnés.
Les liens sponsorisés (“Liens Search”)
Le moteur affiche des liens publicitaires ou “liens sponsorisés” ou
“promotionnels” vers les sites d’annonceurs.

Où ?
En haut de la liste de résultats / sur un des côtés (souvent à droite) /
en bas de page des résultats (plus rare)

Le classement
Ils sont classés selon les enchères faites par les propriétaires du site
sur le mot clé en question = montant initial + taux de clic
© URFIST de Rennes, 2009
32
2. Economie de l’attention : positionnement

Le système d’enchères




par CPC (coût par clic) : paiement au clic, a remplacé le CPM
(coût pour mille affichages)
Pay per Lead (lancé par Accoona en juillet 2006) : paiement de
l’annonceur sur la base d’une action de l’internaute (contacts
commerciaux) et non plus sur la seule comptabilisation des clics
Pay-Per-Action de Google
Les “liens contextuels”


Ce sont des liens publicitaires qui, diffusés sur des sites
“affiliés”, partenaires du prestataire de positionnement payant,
s’affichent en fonction du contenu éditorial du site et de ses
catégories
environ 30% des liens sponsorisés, mais pratique en hausse
© URFIST de Rennes, 2009
33
2. Economie de l’attention : positionnement

Marché des liens sponsorisés : en plein essor


= environ 50 % du marché publicitaire en ligne (Forrester
Research)
Europe : les liens sponsorisés génèreraient d’ici 2012 un chiffre
d’affaires de 8 milliards d’euros, contre environ 4 milliards
aujourd’hui.

Croissance de + 80% prévue sur les 5 années à venir !

Diversification des techniques et dispositifs de positionnement
payant


Ex : Liens contextuels et flux RSS (google, splush)
Intégration dans la recherche d’images
© URFIST de Rennes, 2009
34
3 Les acteurs de la recherche d’information
sur le marché publicitaire

Grands acteurs en matière de positionnement payant





Google Adwords / AdSense
Yahoo! Search Marketing
MSN (Microsoft AdCenter)
Et aussi …. AOL, Mirago, Espotting / Miva, Deepindex, AD42,
Comclick, ClickInText …
Concurrence entre les outils :



Coût de l’enchère minimale
Classement des liens sponsorisés en fonction de leur enchère,
mais aussi suivant “leur qualité”
Contrôle du domaine publicitaire
© URFIST de Rennes, 2009
35
2. Economie de l’attention : positionnement

Le cas de Google : AdWords / AdSense
(99% du CA) :

Adwords




Emplacements publicitaires dans les pages de résultats de Google (à
droite), avec des liens vers les sites annonceurs, en fonction des mots
clés saisis par l’internaute et achetés par l’annonceur.
Système d’enchères pour départager les annonceurs ayant acheté le
même mot clé
Propose un générateur de mots clés (cf. Aussi chez Miva et Yahoo)
Adsense

Liens publicitaires sur des sites affiliés à Google et choisis
automatiquement en fonction du contenu et du contexte de la page

Extensions récentes : Adsense for Feeds, Adsense for Games
© URFIST de Rennes, 2009
36
2. Economie de l’attention : positionnement

Le problème de la fraude au clic : « les serial
cliqueurs » (O. Andrieu / Abondance) / « Junk clic »





Clics des affiliés sur leurs propres publicités
Clics en masse sur les liens d’entreprises concurrentes,
pour plomber leur budget promotionnel
Coût de la fraude au clic : 800 millions de dollars en 2005
(Etude de la société Outsell, Inc.)
Taux de 16,3% pour le premier trimestre 2008 (baisse par
rapport à fin 2007)
Les 3 grands moteurs allés à l’IAB (Interaction Advertising
Bureau) pour lutter contre cette fraude (filtres)
© URFIST de Rennes, 2009
37
2. Economie de l’attention :
positionnement

Le poids du Spamdexing

Liens sponsorisés en dur proposés par certaines régies à certains
sites à fort volume :
 Ex : annuaires ne contenant que des liens sponsorisés dont le texte et
les liens sont en dur, donc indexés par les moteurs = pur spam

Netlinking : Social Media Optimization (SMO) contre spamdexing

Utilisation de Adsense et référencement artificiel


fausses pages et redirection
liens massifs sur des commentaires de blogs ou de forums
« En moyenne 11% des pages s'affichant dans les moteurs de
recherches sont du spam. »
http://www.journaldunet.com/solutions/0703/070322-spam-webmoteurs.shtml+

© URFIST de Rennes, 2009
38
2. Economie de l’attention : positionnement

Problèmes et enjeux / usagers
 De plus en plus d’usagers arrivent sur des sites via les liens
sponsorisés
 De plus en plus d’entreprises investissent dans des campagnes de
liens sponsorisés
 Question : savoir distinguer un lien sponsorisé d’un lien naturel
 Question par rapport à la recherche, l’accès à l’information, son
usage




Atteinte à la notion de pertinence
Biais par rapport au déroulement normal d’une procédure de recherche
d’information
Risques des liens sponsorisés : 8,5% des liens sponsorisés
conduiraient vers des sites représentant un risque pour l’internaute
(étude McAfee Site Advisor, Mai 2006)
Influence positionnement payant / positionnement naturel ?

Cf. Google (voir Blog Abondance)
© URFIST de Rennes, 2009
39
2. Economie de l’attention : état des forces
des moteurs de recherche : en France
(Xiti)
© URFIST de Rennes, 2009
40
2. Economie de l’attention : état des forces des
moteurs de recherche : dans le monde


Domination de Google en général, mais inégale :
63, 5 % aux USA en décembre 2008
mais nombreuses disparités selon les pays, d’autres
moteurs émergent :
En 2007 :



Estonie : Neti : 56,8 % - Google : 41 % (mars 07)
Russie : Yandex : 47,6 % - Google : 25,6 % (juillet 07)
Rép. tchèque : Seznam : 62 % - Google : 24,7 % (décembre
07)
Chine : Baidu : 57,6 % - Google : 21 % (juillet 2007)
 Corée du Sud : Naver : 77 % - Google : 1,7 % ! (juillet 07)
Voir Search Engine Feng Shui

© URFIST de Rennes, 2009
41
2. Economie de l’attention : la « guerre
des moteurs »

La rivalité Google-Yahoo :


Cultures communes, mêmes origines, liens personnels,
partenariat des débuts…
Rivalité directe sur le marché publicitaire : principale origine
des ressources des deux sociétés



Recul de Yahoo depuis plusieurs années :



Google : 95 %
Yahoo : 85 %
Bénéfice en baisse : -1,8 % entre 2006 et 2007
Baisse de l’audience, des parts de marché
Mais nombreux atouts de Yahoo :


Notoriété, popularité des services (messagerie), audience très
forte
Présence dans le web participatif : Flickr, Del.icio.us…
© URFIST de Rennes, 2009
42
2. Economie de l’attention : la « guerre
des moteurs »

La guerre Google/Microsoft :



Cultures d’entreprise très différentes
Créneaux différents : industrie du logiciel / recherche
d’information
Retard historique de Microsoft // Internet : ratrapage depuis
10 ans...







Succès du navigateur Internet Explorer (contre Netscape)
Succès de la messagerie instantanée MSN
Echec du moteur de recherche Live Search : <10 % aux EU
Stratégie de conquête du marché publicitaire
Menace de Google sur Microsoft : édition de logiciels
gratuits
Tentative de rachat de Yahoo pour contrer Google
Arrêt du programme de
numérisation
des livres de Microsoft43
© URFIST
de Rennes, 2009
2. L’économie de l’attention : la « guerre des
moteurs » et les règles de la concurrence

Importance du rôle de l’UE et de la Cour de Justice Européenne :
 Enjeu : question de la concurrence et des positions de monopole


Notion de « position dominante » sur un marché : > 50 % de
parts de marché



Cf exemple de condamnation de Microsoft
Recherche d’information considérée comme un marché pertinent,
accessible sur tout le territoire de l’UE
Google considéré comme en position dominante sur l’UE
Loi européenne n’interdit pas la position dominante, mais
« l’abus » de position dominante :

Cas d’une fusion Google/Yahoo, mais non de fusion Microsoft/Yahoo
© URFIST de Rennes, 2009
44
2. L’économie de l’attention : la « guerre
des moteurs » : les alternatives à GYM

Positionnement spécifique d’Exalead dans le
paysage des moteurs de recherche

Un moteur innovant :

Modules spécialisés

Intégration des tags dans la recherche

Recherche collaborative avec Baagz

Indexation de la piste audio des journaux télévisés

Interface pour mobiles …

Participation à plusieurs projets européens


Chorus, Quaero, Alis …
Une nouvelle génération de moteurs de recherche
multimédia (européens)

Theseus, Pharos…
© URFIST de Rennes, 2009
45
2. Economie de l’attention : quelles
conséquences pour la formation des usagers ?

Une thématique à développer dans les formations :

Dans les objectifs de la culture informationnelle :


Priorité à la distance critique face au marketing ?
Dans les contenus :

Nombreux savoirs théoriques, notions, concepts,
terminologie… de l’économie de l’information


Positionnement payant, liens sponsorisés, profilage, longue
traîne, données personnelles…
Dans les compétences à développer :




Savoir distinguer liens sponsorisés et liens naturels
Comprendre le fonctionnement du positionnement payant
Mieux contrôler l’utilisation de ses données personnelles
...
© URFIST de Rennes, 2009
46
2. Economie de l’attention : quelles
conséquences pour la formation des usagers ?

Développer la dimension économique dans la
réflexion sur la culture informationnelle :


Nécessité de toujours situer la culture
informationnelle dans les nouveaux contextes
socio-économiques de la recherche d’information
Relier la culture informationnelle à la réflexion
plus générale sur la crise de l’attention et ses
effets :

Voir travaux de B. Stiegler et Ars Industrialis sur
ces questions
© URFIST de Rennes, 2009
47
3/ Evolutions dans l’indexation

Rappel des finalités de l’indexation :
Recherche de documents
 Accès au contenu des ressources
 Analyse, filtrage automatique, cartographie de
l’information
Aujourd’hui, nouvelle finalité de + en +
importante : éditorialisation, « redocumentarisation » des contenus et des
ressources



Exemple des archives de l’INA, de la banque
OuestImages
© URFIST de Rennes, 2009
48
3/Evolutions dans l’indexation :
retour sur la re-documentarisation


•
Quelles conséquences pour l’indexation ?
De la recherche à la composition éditoriale (“éditorialisation”)
La principale motivation applicative de l’indexation est la recherche
d’information:
– Trouver le document ou contenu qui exprime
l’information recherchée.
•
La principale motivation applicative des métadonnées est la sélection
de ressources pour créer de nouvelles informations:
– Ce n’est pas la ressource en tant que telle qui aura
une valeur, mais le contexte dans lequel elle sera
intégrée (phénomène dit de redocumentarisation)
•
La documentation rendait compte de l’origine dans les
termes de l’usage, elle tend désormais à reconfigurer l’origine
pour l’usage
(d’après M. Amar)
© URFIST de Rennes, 2009
49
3/ Evolutions dans l’indexation

Imbrication des différentes modalités
d’indexation sur le web :




Indexation documentaire : thésaurus,
description des ressources (annuaires)
Indexation automatisée : le TAL (Traitement
Automatique des Langues)
Indexation sociale : tags du web 2.0,
recommandations
Indexation sémantique : les métadonnées et les
ontologies
© URFIST de Rennes, 2009
50
3/ Evolutions dans l’indexation :
les 4 écoles d’indexation Web (source : Ertzscheid, Gallézot)
Standardisation
Standardisation
=> Dublin Core
=> OAI-PMH
Full-text =>
Balises Méta =>
Métadonnées
?
Web
Sémantique
Folksonomies :
indexation sociale
communautaire
?
© URFIST de Rennes, 2009
Linguistique
de corpus
Ontologies
(Ingénierie des
connaissances)
51
3.1 Evolutions dans l’indexation :
L’indexation automatisée « full-text »

Deux grandes méthodes d'analyse dans
l'indexation automatisée :


analyse statistique : fondée sur la fréquence des mots
analyse linguistique : fondée sur la reconnaissance des
mots

4 niveaux d'analyse du texte intégral :




niveau morphologique : reconnaissance du mot
niveau lexical : réduction du mot à sa forme canonique >
lemmatisation
niveau syntaxique : utilisation de la grammaire
niveau sémantique : reconnaissance des concepts
© URFIST de Rennes, 2009
52
3.1 L’indexation automatisée : les
moteurs de recherche sémantique

Emergence de nouvelles catégories de moteurs :

Hakia :




Lancé en 2006
moteur de requêtes en langage naturel
mélange d'analyse sémantique, d'ontologie, de logique floue
et d'intelligence artificielle
Powerset :




Mai 2008 ; racheté par Microsoft en juillet 08
Recherche sémantique sur Wikipedia
Analyse des phrases contenant les mots d’une requête
Propositions de nombreux mots-clés
© URFIST de Rennes, 2009
53
3.2 Evolutions dans l’indexation :
L’indexation sociale : tags et folksonomies

« Folksonomies désignent



un processus de classification collaborative
par des mots-clés librement choisis
Ou le résultat de cette classification. » (Wikipédia)
© URFIST de Rennes, 2009
54
3.2 Evolutions dans l’indexation :
L’indexation sociale : tags et folksonomies

Le principe de la folksonomie :




Forme de « classification collaborative décentralisée
spontanée », s’appuyant sur les termes choisis par les
utilisateurs
Objectif : faciliter l’indexation des contenus et la recherche
d’information
Tags peuvent s’appliquer à des signets web, à des photos, à
des projets, des vidéos, ou encore des billets de blogs
(nuages de tags)
Constitution d’une communauté de « spécialistes » parmi les
internautes
© URFIST de Rennes, 2009
55
3.2 Evolutions dans l’indexation :
L’indexation sociale : tags et folksonomies

Exemples d’imbrication des indexations
contrôlées (documentaires) et libres
(sociales) :


LibraryThing et WorldCat : complémentarité entre
catalogue et tags
University of Huddersfield Library : recherche par
tags dans le catalogue
© URFIST de Rennes, 2009
56
Intermède : quelle différence entre web
2.0 et web 3.0 ?
© URFIST de Rennes, 2009
57
3.3 Le web sémantique

Constat des insuffisances du « web 1 » :
absence de description et d’indexation des ressources
 hétérogénéité des formats…
 pas de structure explicite du web : pas d’exploitation de la
signification des liens entre les documents
Objectifs de nombreux travaux, depuis 10 ans :
 meilleure structuration du web, exploitation sémantique de
la nature du web (« Semantic Web »)...
 Acteur principal : W3C
Diversité des expressions : « web sémantique », « web
3.0 », « web intelligent »…





Vision de T. Berners-Lee d’un « web des données »
Voir traduction de l’article fondateur
© URFIST de Rennes, 2009
58
3.3 Le web sémantique

L'information et les services sur le Web sont
aujourd'hui peu exploitables par des machines … Et
de moins en moins exploitables sans l'aide des
machines …

Le web de demain :

un vaste espace d'échanges de ressources entre
machines permettant l'exploitation de grands
volumes d'informations et de services variés,
aidant les utilisateurs en les libérant d'une (bonne)
partie de leur travail de recherche, et de
combinaison de ces ressources
© URFIST de Rennes, 2009
59
3.3 Le web sémantique : principes

« LE WEB SEMANTIQUE PERMETTRA AUX MACHINES DE
COMPRENDRE LES DOCUMENTS ET LES DONNEES
SEMANTIQUES , mais PAS la parole ET LES ECRITS HUMAINS.
Le sens est donné par RDF, qui le code dans des ensembles de
triples, chaque triple jouant le rôle du sujet, du verbe et de l'objet
dans une phrase élémentaire. On peut écrire ces triples en utilisant
les balises XML. » (T. Berners-Lee)

Projet du web sémantique : « sémantiser »
les ressources web, par un langage de
balises sémantiques ;

Contrairement aux balises HTML, qui ne
contiennent aucune signification
© URFIST de Rennes, 2009
60
Composante XML (Nathalie AussennacGilles, Irit de Toulouse)
HTML: les balises servent uniquement à la mise en forme des données
<H1>Knowledge Management</H1>
<UL>
<LI>Teacher: Rudi Studer
<LI>Students: Master
</UL>
XML: les balises qualifient les données ; elles sont définies par les utilisateurs en
fonction des domaines et des besoins
<course>
<title>Knowledge Management</title>
<teacher>Rudi Studer</teacher>
<students>Master</students>
</course>
cours n°1
© Muriel Amar, URFIST Paris
61
3.3 Le web sémantique : principes et
outils

Au moins quatre directions de recherche,
quatre premières couches :
Identification des ressources numériques : les
URI (Uniform Resource Identifier)
 Structuration des documents numériques : XML

(eXtensible Markup Language)


Description des ressources : les métadonnées,
RDF (Resource Description Framework)
 Indexation des ressources : les ontologies
Principe fondamental du web sémantique:

séparation du contenu des documents de l’organisation
de ce contenu
© URFIST de Rennes, 2009
62
3.3 Les couches du « Semantic Cake »
© URFIST de Rennes, 2009
63
3.3 Le web sémantique : RDF
(Resource Document Framework)


Langage de description des ressources, et cadre conceptuel
pour les métadonnées
 1ère version en 1999, finalisé en 2004 par le W3C
RDF fondé sur notion de triplet :
 Une métadonnée = un couple : propriété + valeur
 Description d’une ressource = un triplet : ressource +
propriété + valeur
 Sujet, prédicat, objet



Sujet : ressource à décrire
Prédicat : une propriété applicable à cette ressource
Objet : valeur de cette propriété
© URFIST de Rennes, 2009
64
3.3 Les métadonnées : les triplets RDF

Notion de triplet :


Association d’une propriété à une ressource, ainsi que la
valeur de cette propriété
Exemple :


Notre Dame de Paris est un roman dont l’auteur est Victor
Hugo
Deux éléments de description possibles :



Notre Dame de Paris est un roman
Notre Dame de Paris a pour auteur Victor Hugo
Deux triplets :


Notre Dame de Paris, type, roman
Notre Dame de Paris, auteur, Victor Hugo
© URFIST de Rennes, 2009
65
3.3 Les métadonnées : les triplets RDF

Comment faire comprendre aux machines la requête : quel
est l’auteur du roman « Notre Dame de Paris » ?
 Eviter le bruit de l’analyse morphologique
 Etablir des règles comprises par le système d’information :
Source : Interstice
© URFIST de Rennes, 2009
66
3.3 Les métadonnées : les triplets RDF

Exemple de recherche sur Victor
Hugo :
Source : Interstice
© URFIST de Rennes, 2009
67
3.3 Le web sémantique : les ontologies

Condition du web sémantique : des
ressources décrites et indexées



langages de description, thésaurus,
classifications, ontologies…
Enjeu : avoir des outils communs,
normalisés, pour permettre une indexation
automatisée et sémantique des ressources
 Analogie avec les thésaurus
© URFIST de Rennes, 2009
68
3.3 Le web sémantique : les ontologies




A l'origine, terme philosophique (science de l'être).
En informatique : ontologie = une représentation des
connaissances et la définition de catégories.
 Une ontologie structure les termes d'un domaine, en
établissant des relations de proximité entre eux, du type
"partie de".
Une ontologie : une vue commune, partagée par une
communauté, sur un domaine de connaissance
Principes :

Définition de concepts, de relations et des règles
contraignant ces relations
© URFIST de Rennes, 2009
69
3.3 Le web sémantique : quelle réalité ?



« Invisibilité » du web sémantique, mais explosion des triplets
RDF : 10 Mrds de triplets en ligne ! (selon F. Gandon)
Nombreux projets de recherche en cours
Les solutions Mondeca

Catalogue d’offres touristiques :




Catalogue Cismef du CHU Rouen :




Agrégation de sources diverses
Utilisation de la géolocalisation
Aspects sémantiques à partir de relations entre des classes d’objets
Intégration de métadonnées Dublin Core
Terminologie du Mesh
Utilisation du langage de formalisation OWL
Projet Scriptures, ENST Bretagne :

Indexation sémantique des médias
© URFIST de Rennes, 2009
70
3.4 Indexation : quelles conséquences
pour la formation des usagers ?

Sensibiliser les étudiants à l’importance de
l’indexation :



Montrer :




Dans la recherche sur les moteurs
Dans les plates-formes web 2.0
l’ancienneté de l’indexation
la diversité des modes d’indexation et d’accès aux
contenus
les enjeux pour la recherche d’information
Expliquer les notions essentielles :

indexation, classification, traitement linguistique,,
métadonnée, indexation automatisée, full-text, indexation
sociale, tag, folksonomie, ontologie…
© URFIST de Rennes, 2009
71
4. La personnalisation de la recherche

Evolution des moteurs vers des services
personnalisés pour fidéliser les internautes



Une tendance lourde de la RI, va en s’amplifiant
Remonte au moins à 2000
Innombrables aspects :



De l’historique des recherches au moteur personnalisable
Innovations permanentes
Possibilité de personnalisation par :



le moteur de recherche
un Plug in, ex : SurfCanyon, plug in firefox et IE
par l’internaute
© URFIST de Rennes, 2009
72
4. La personnalisation de la recherche

9 Modèles de personnalisation par le moteur
(Jeff Quipp)

Personnalisation basée









sur la localisation
Sur l’interface
Sur l’historique des requêtes
Sur le mode entrée / sortie
Sur le temps
Sur le comportement individuel de l’utilisateur
Sur le comportement de groupe
Sur la recherche sociale / graphe social de l’utilisateur
Personnages virtuels / sur les Assistants
© URFIST de Rennes, 2009
73
4. La personnalisation de la recherche

Les différentes facettes de la
personnalisation par l’internaute :





Personnalisation des requêtes
Personnalisation des résultats
Personnalisation des interfaces
Personnalisation des outils
La création de communautés
© URFIST de Rennes, 2009
74
4.1 La personnalisation de la requête

Les bases de la personnalisation de la
requête :




L’historique des requêtes
La définition d’un profil et d’une alerte
La géolocalisation
Le choix des sources d’information
© URFIST de Rennes, 2009
75
4.2 La personnalisation des résultats

Personnalisation des résultats de
recherche :

Possibilité laissée à l’internaute d’influer sur le
classement des résultats de recherche
© URFIST de Rennes, 2009
76
4.2 La personnalisation des résultats

L’exemple du moteur communautaire Wikia
Search

créé en janvier 2008 par Jimmy Wales sur le modèle de
Wikipédia

selon 4 principes :




Transparence
Communauté
Qualité
Protection de la vie privée
© URFIST de Rennes, 2009
77
4.2 La personnalisation des résultats

Appel de Jimmy Wales (2006)

« créer un nouveau type de moteur de recherche, qui
s'appuie sur l'intelligence humaine pour faire ce que les
algorithmes sont incapables de faire ».
(voir : http://search.wikia.com/wiki/Search_Wikia/fr)

Contribution de l’internaute aux tâches de signalement
et d’indexation propres au moteur
© URFIST de Rennes, 2009
78
4.2 La personnalisation des résultats

Personnalisation des résultats sur Wikia
Search

Juin 2008 :


Tous les internautes peuvent mettre en valeur, commenter,
promouvoir, modifier, supprimer ou ajouter (par un lien) un
résultat.
Retours d’usage


Utilisation conséquente des procédures de
personnalisation des résultats
Peu d’utilisation des actions communautaires (annotations,
commentaires)
© URFIST de Rennes, 2009
79
4.2 La personnalisation des résultats

L’exemple de Google SearchWiki

Lancement le 20 novembre 2008 d’un système de
personnalisation des résultats de requêtes

Sur Google.com

Nécessité d’avoir un compte Google

Selon le blog de Google : « reclassement,
suppression, ajout, commentaire des résultats »

Source : Lettre Recherche et référencement (12/08)
© URFIST de Rennes, 2009
80
4.2 La personnalisation des résultats

La personnalisation des résultats sur SearchWiki
permet de :

Modifier l’ordre des résultats de recherche, promouvoir
certains sites en haut de la page

Ajouter un nouveau site aux résultats en proposant une
URL

Supprimer des résultats un site jugé non pertinent

Ajouter des commentaires par la rédaction de notes
liées à un résultat en particulier

+ Favoris : « Preferred sites »
© URFIST de Rennes, 2009
81
4.2 La personnalisation des résultats

Orientation de
Google vers les
communautés

Partage des notes
attachées à chaque
résultat avec la
communauté des
utilisateurs du moteur

Lien « See all notes
for this SearchWiki »
© URFIST de Rennes, 2009
82
4.2 La personnalisation des résultats

Les questions posées par la
personnalisation des résultats :

Impact sur le référencement, sur le classement
des résultats de recherche



Variabilité de la liste de résultats selon les internautes
Mort ou moindre importance du Ranking ?
Impact sur le système des liens sponsorisés

Nettoyage des pages de résultats et déclassement des
sites par les internautes
© URFIST de Rennes, 2009
83
4.2 La personnalisation des résultats

Les questions posées par la
personnalisation des résultats (suite) :

Dérives et abus dans les pratiques des internautes


Notes de certains résultats de recherche
spammées
Espace laissé aux groupes de pression / vote et
classement des résultats de recherche
© URFIST de Rennes, 2009
84
4.3 La personnalisation des interfaces

Notion « d’utilisabilité » des interfaces des
moteurs de recherche



Accessibilité des réponses
En lien avec l’organisation visuelle de la page de
résultats
Interface comme « plan de travail »

« Microsoft Surface », l’avenir ?
© URFIST de Rennes, 2009
85
4.3 La personnalisation des interfaces

Interactivité et dynamisme



Paramétrages classiques des moteurs (langue de
l’interface, affichage des résultats)
Zones mobiles sur la page
Organisation personnalisée de la page :




Ajax
Widgets
Pages personnelles
Présentation visuelle :

Possibilité de choisir le mode de visualisation des résultats
(vignettes, raccourcis, captures d’écrans, cartes…)
© URFIST de Rennes, 2009
86
4.3 La personnalisation des interfaces

Les « pages perso » :



Fourniture gratuite de pages personnalisées pour
la gestion et la recherche d’information
Choix personnel des sources : sites web, blogs,
fils RSS…
Divers services : calendrier, agenda…


Exemple de Netvibes (disponible actuellement en
version anglaise et française)
Portail personnalisé de Google : i-google
© URFIST de Rennes, 2009
87
4.3 La personnalisation des interfaces

Constitution d’espaces de travail complets et intégrés


Intégration recherche / navigation
Page personnelle





Sources d’information favorites
Interface de recherche
Informations diverses
Plateformes de partage et échange de documents, de signets
Outils / Hybridation

Modules de recherche ; recherche universelle : Yahoo Glue,
Google Universal Search




Dispositifs de production d’information : blogs, wikis,
Annotations / tags, recommandations, labellisation, concepts …:
Webzzle
Outils de visualisation et d’analyse des données
Outils bureautiques…
© URFIST de Rennes, 2009
88
4.4 La personnalisation des outils


Paramétrages des moteurs
Construction de moteurs personnalisables : des
moteurs “sur mesure” / recherche verticale


Pour effectuer des recherches sur un ensemble donné de
sites web ou sur une thématique précise
Permet d’établir un système de veille par un compte gratuit




Google Custom Search Engine (http://google.com/coop/cse/)
Live Search macros
(http://search.live.com/macros/default.aspx?FORM=BJRE)
Les Swickis d’Eurekster (http://www.eurekster.com/)
Rollyo (http://rollyo.com/ )
© URFIST de Rennes, 2009
89
4.4 La personnalisation des outils

Les espaces personnels : l’exemple de Mon Web de
Yahoo
Le principe :


Création d’un compte personnel sur Yahoo
Sauvegarde d’une page web jugée pertinente



Mutualisation de la recherche



Création d’un signet avec l’URL de la page et sauvegarde d’une copie
de la page
Possibilité de marquer les pages enregistrées avec des annotations
(tags) pour les catégoriser
Partage des sites avec d’autres internautes
Navigation parmi les pages annotées et partagées par les autres
utilisateurs de Mon Web
Possibilité de lancer des requêtes sur leur contenu
© URFIST de Rennes, 2009
90
4.5 La création de communautés

Utilisation de la force du collectif, des
communautés




Développement de services à la fois :
 individuels : comptes personnels sur Yahoo (Mon Web,
sauvegarde de signets…), sur Google, etc.
 collectifs : partage de signets, « vote » sur des sites, services
questions-réponses…
Les moteurs collaboratifs (Wikia Search, Yoople! )
L’accès aux documents partagés par la communauté des
internautes sur les plateformes de partage
Mutualisation des connaissances dans des wikis
collaboratifs généralistes ou spécialisés
© URFIST de Rennes, 2009
91
4.6 La personnalisation de la recherche :
conséquences pour la formation


Sensibiliser à la notion de pertinence dans le cadre d’une
personnalisation de la recherche
Montrer les enjeux liés :




Pertinence des sources
Veille facilitée
Adéquation aux besoins
Sensibiliser aux risques découlant notamment de la
personnalisation des résultats :



Biais dans les résultats,variabilité en fonction de la personnalisation
Limitation et manque de visibilité
Abus liés aux procédures de recommandation sur les sites affichés en
résultats
© URFIST de Rennes, 2009
92
5. La géolocalisation, les services de
proximité

Géolocalisation, services de cartographie et
recherche de proximité



Une des formes et la base de la personnalisation (avec
l’historique)
Définition de la géolocalisation

« identifier l’emplacement géographique de l’internaute, afin de lui
fournir des informations locales le concernant spécifiquement »
(NetSources)

les moteurs proposent des résultats localisés se basant sur
son adresse IP.
La recherche de proximité sur les moteurs


faire des recherches en incluant des informations locales
pour une recherche : adresses, localisation sur une carte ou
une vue satellite, itinéraire + lien vers les sites.
© URFIST de Rennes, 2009
93
5. La géolocalisation, les services de
proximité

Développement sur les
moteurs :

Google, Yahoo, MSN, Ask,
AOL, A9 …

Fonctionnement




Interfaces


Google Maps
(http://maps.google.fr/ ) /
Google Earth
(http://earth.google.fr/)
Yahoo! Maps


(http://fr.maps.yahoo.com/ )
© URFIST de Rennes, 2009
Termes de la requête
Catégorie éventuellement
Association avec une
localité
Visualisation des résultats
sur une carte, une image
satellite
Liens sponsorisés selon les
requêtes et l’origine
géographique des
internautes
94
5. La géolocalisation, les services
de proximité

Vers une croissance de ces usages ?
 Fort développement


Engouement pour les applications cartographiques

Développement des Mash up
Enjeux pour les moteurs :






Marché des petites entreprises / Annonceurs
Marché de la publicité de proximité
Favorise l’appropriation des web services
Développement d’outils adaptés à l’internaute
Concurrence
Questions qui subsistent :



diversité des catégories selon les outils
fluctuations de ces catégories
lacunes dans la corrélation entre certains termes et la catégorisation.
© URFIST de Rennes, 2009
95
6. Présentations visuelles des moteurs

Multiplication des formes visuelles pour la présentation des
résultats :

Résultats sous forme de carte :



Résultats sous forme de cluster :



Introduction déjà ancienne de présentation cartographique des résultats
sur des moteurs ou métamoteurs, comme Kartoo
extension à des outils récents comme Grokker
Concerne le traitement des résultats + leur présentation
Ex : Clusty
Nouvelles expérimentations sur la présentation des résultats et
la manière d’y naviguer (moteurs « 3D ») :



Feuilletage / défilement des pages par captures d’écran : SearchMe,
Redzee, Tkaap-Galaxy, Spacetime (avec eBay et Google notamment)
Affichage sous forme de cube aux facettes cliquables : Searchcube
Moteur tripartite Tafiti (avec la technologie Silverlight de Microsoft)
© URFIST de Rennes, 2009
96
7.1 La protection des données
personnelles
Source : Googlinside
© URFIST de Rennes, 2009
97
7.1 La protection des données
personnelles : aspects techniques

Quatre types de données
conservées par les moteurs
de recherche :




Fichiers “log” : logs de
requêtes (date, heure,
mots-clés), clics, toutes les
traces de l’utilisateur
Adresse IP
Cookies
Eventuellement comptes
utilisateurs

Voir SeekPort :
http://blogs.seekport.fr/he
lp/privacy.html

Sur Google

Un cookie contenant :







Requêtes
Date
Résultats
N° IP
« Les informations personnelles
peuvent également être utilisées
à des fins d’audit, de recherches
et d’analyse, afin d’assurer le bon
fonctionnement et la qualité des
technologies et des services
Google.
Nous sommes susceptibles de
partager des informations non
personnelles sous forme
collective avec des tiers. »
http://www.google.fr/intl/fr/privacy.ht
ml
© URFIST de Rennes, 2009
98
7.1 La protection des données
personnelles

Problème sur Google :


Regroupements de données des différents services :
 Recherche, messagerie, blogs…
 Disque dur personnel hébergé
Mais Yahoo et MSN collectent plus de données personnelles :
 Comptes utilisateurs


Nom, sexe, date de naissance, poste occupé, code postal,
Les trois portails :

Adresses e-mail, messages, contacts de messagerie
© URFIST de Rennes, 2009
99
7.1 La protection des données
personnelles : les enjeux

Types de données
détenues par les grands
portails :
 Les requêtes sur les
moteurs :


Les blogs :


Mes opinions
Les réseaux sociaux :


Ce qui m’intéresse
Mes réseaux
La messagerie, les
forums, le « chat » :

Avec qui je communique
et sur quoi


Possibilité de créer de
gigantesques base de
données sur les goûts et
habitudes des internautes
Même si actuellement,
données relativement
protégées, problème de
l’avenir :
 Pouvoir considérable
accordé aux outils

© URFIST de Rennes, 2009
Risques d’intrusion
de pouvoirs
totalitaires (cf Chine)
100
7.1 La protection des données
personnelles : aspects juridiques

Notion de « donnée à caractère personnel » :



Définition très large de réglementation française et
européenne
« Toute information relative à une personne physique
identifiée ou qui peut être identifiée, directement ou
indirectement, par référence à un numéro d’identification
ou à un ou plusieurs éléments qui lui sont propres. Pour
déterminer si une personne est identifiable, il convient de
considérer l’ensemble des moyens en vue de permettre
son identification dont dispose ou auxquels peut avoir
accès le responsable du traitement ou toute autre
personne. »
Tout élément d’identification directe ou indirecte = donnée
à caractère personnel :

N° INSEE, adresse e-mail, identifiant quelconque…
© URFIST de Rennes, 2009
101
7.1 La protection des données
personnelles : aspects juridiques

Obligations des responsables du traitement
des données de respecter les droits des
individus sur leurs données personnelles :




Consentement : autorisation préalable ou
consentement tacite
Droit d’opposition : possibilité de refuser de
figurer dans un fichier
Droit d’accès
Droit de rectification
© URFIST de Rennes, 2009
102
7.1 La protection des données
personnelles : aspects juridiques

Problème juridique : l’adresse IP est-elle
une « donnée à caractère personnel » ?


Non, pour la Cour d’appel de Paris, avril 2007
Oui, pour la CNIL et le « Groupe de l’Article 29 » :



Comité consultatif indépendant (dont CNIL), relevant de
la Commission Européenne
G29 : en référence à l’article 29 de directive européenne
du 24 octobre 1995 sur la protection des données
Avis très important, rendu en avril 2008
© URFIST de Rennes, 2009
103
7.2 La protection des données personnelles
: controverse Google / Union Européenne



Hiver 2007 : pression de l’UE sur Google
Mars 2007 : Google accepte de ne conserver les
données issues des logs de requête que pendant 18 / 24
mois
Mai 2007 : réaction négative de l’Union Européenne



Durée de 24 mois « ne semble pas respecter les
exigences » de la législation européenne
Juin 2007 : Adresse IP considérée par l’UE comme
une donnée personnelle
Eté 2007-Février 2008 : travaux du « G29 »
© URFIST de Rennes, 2009
104
7.2 La protection des données personnelles
: controverse Google / Union Européenne

Principales dispositions de l’avis du « G29 » du 4
avril 2008 :




Législation européenne sur les données personnelles
applicable à tous les moteurs de recherche opérant en
Europe
Toutes les données collectées par les moteurs de
recherche : données personnelles, y compris l’adresse IP
Possibilité d’exploiter ces données « pour une finalité
légitime et non excessive »
Obligation d’effacer ces données au bout de 6 mois
maximum
© URFIST de Rennes, 2009
105
7.2 La protection des données personnelles
: controverse Google / Union Européenne

Conséquences pour les moteurs de recherche de
l’avis du G29 :



Autorisation préalable des internautes pour le « profiling » :
 Profiling : exploitation de plusieurs données sur un
utilisateur pour proposer ou optimiser des services
 Concrètement, pour l’envoi de liens sponsorisés à un
utilisateur, obligation de mise en place d’un formulaire
d’autorisation préalable
Effacement des données au bout de 6 mois
Modification des Conditions Générales :
 Explicitation des finalités, etc.
© URFIST de Rennes, 2009
106
7.2 La protection des données personnelles
: controverse Google / Union Européenne

1ers succès de l’UE : réponses positives
grands moteurs :





Google réduit à 9 mois la durée de conservation
(sept. 08)
Microsoft : 6 mois (déc. 08)
Yahoo : 3 mois
Mais persistance des désaccords entre le G29
et les moteurs, notamment Google.
Audition prochaine (février 09) des acteurs par
le G29
© URFIST de Rennes, 2009
107
7.3 La protection des données personnelles
: les réseaux sociaux


Problématique différente sur les réseaux : affichage
volontaire des profils personnels par les internautes
Nombreux problèmes :

Disparition de la frontière public/privé :


Traçabilité généralisée :


Vers un voyeurisme/exhibitionnisme de masse
Cf exemple récent de la vie d’un internaute reconstituée sur
Le Tigre
Utilisation des profils par les réseaux sociaux :

Voir vente des profils sur Facebook en nov. 07
© URFIST de Rennes, 2009
108
En conclusion : rappel de quelques
questions vives de la RI

Nouveaux risques :



Nouvelles valeurs :


Idéologie dominante de la « popularité » sur le web 2.0
Nouveaux usages :


Traçabilité et protection des données personnelles
Réseaux sociaux et transparence généralisée
Risques « d’autarcie informationnelle », d’enfermement
communautaire
Nouveaux enjeux :


Economie de l’attention et emprise du marketing
Economie de la recommandation et problème de la
modélisation des comportements
 En conclusion, former, se former, nous
former…
© URFIST de Rennes, 2009
109