Recherche, évaluation

Download Report

Transcript Recherche, évaluation

Recherche
Évaluation
Extraction d’Information
dans les textes I
Xavier Tannier
[email protected]
Rappels des épisodes précédents
Les acteurs de la Recherche d'Information
Collection :
un ensemble de
documents
Les systèmes de RI
doivent pouvoir traiter :
Utilisateur :
un besoin
d'information
et/ou une tâche
à accomplir
• De grandes masses
d'information
• En langage naturel (et créée
pour des humains)
• De façon rapide et pertinente
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
Recherche d'Information
Indexation
(modèle de document)
Collections dynamiques
vs. statiques
Modèle de
recherche
Évaluation
Requête
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
4
Construction de l’index : vue générale
DOCUMENTS
INDEX
TERMES
Rien ne sert de
courir il faut
partir à point
TERMES
NORMALISÉS
TEXTE
Rien ne sert de courir; il faut partir à point :
Le lièvre et la tortue en sont un témoignage.
«Gageons, dit celle-ci, que vous n'atteindrez point
Sitôt que moi ce but. - Sitôt? Êtes-vous sage ?
Repartit l'animal léger :
Ma commère, il vous faut purger
Avec quatre grains d'ellébore.)
- Sage ou non, je parie encore."
Ainsi fut fait; et de tous deux
On mit près du but les enjeux :
Savoir quoi, ce n'est pas l'affaire,
Ni de quel juge l'on convint.
Notre lièvre n'avait que quatre pas à faire,
J'entends de ceux qu'il fait lorsque, prêt d'être atteint,
Il s'éloigne des chiens, les renvoie aux calendes,
Et leur fait arpenter les landes.
Ayant, dis-je, du temps de reste pour brouter,
Pour dormir et pour écouter
D'où vient le vent, il laisse la tortue
Aller son train de sénateur.
Elle part, elle s'évertue,
Elle se hâte avec lenteur.
Lui cependant méprise une telle victoire,
Tient la gageure à peu de gloire,
Croit qu'il y a de son honneur
De partir tard. Il broute, il se repose,
Il s'amuse à toute autre chose
Qu'à la gageure. A la fin, quand il vit
Que l'autre touchait presque au bout de la carrière,
Il partit comme un trait; mais les élans qu'il fit
Furent vains : la tortue arriva la première.
"Eh bien! lui cria-t-elle, avais-je pas raison ?
De quoi vous sert votre vitesse ?
Moi l'emporter! et que serait-ce
Si vous portiez une maison ?"
rien
courir
partir
sert
faut
point
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
5
Fichier inverse
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
6
Sac de mots
Modèles « sac de mots » pour l’indexation et la recherche :
– On oublie l’ordre des mots
– On raisonne en termes de présence / absence des termes dans un document,
ou en terme de fréquence de ces termes
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
7
tf.idf
• Intuition #1 : plus un document contient d'occurrences
d'un terme, plus il est "à propos" de ce terme
• Intuition #2 : des termes très fréquents dans tous les documents ne
sont pas si importants (ils sont moins discriminants)
• Le poids d’un terme (tf.idf) est la combinaison de ces deux
intuitions pour rendre compte du caractère discriminant d’un terme
dans un document
𝒘𝒕,𝒅 = 𝒕𝒇𝒕,𝒅 × 𝒊𝒅𝒇𝒕
= 𝒕𝒇𝒕,𝒅 × 𝒍𝒐𝒈𝟏𝟎
𝑵
𝒅𝒇𝒕
(ou sa variante)
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
8
Proposition temporaire de similarité
• Proposition pour le score de similarité d’un document D en
fonction d’une requête Q
𝑠𝑖𝑚𝑄,𝐷 =
𝑤𝑡,𝐷
𝑡 ∈𝑄∩𝐷
• On ne la conservera pas!
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
9
Du modèle booléen
aux modèles à listes de
résultats ordonnés
Modèles de recherche : les trois courants
• Modèles fondés sur la théorie des ensembles
► Modèle booléen
• Modèles algébriques
► Modèle vectoriel
• Modèles probabilistes
► Modélisation de la notion de "pertinence"
• Courants fondés à l'aube de la discipline (années 60, 70)
• Passage à l'échelle : des bases documentaires "jouets" au téraoctet
de TREC et au Web
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
11
Modèle booléen
• Le premier et le plus simple des modèles
• Basé sur la théorie des ensembles et l'algèbre de Boole
• Les termes de la requête sont soit présents soit absents
– Poids binaire des termes, 0 ou 1
• Un document est soit pertinent soit non pertinent
– Pertinence binaire, et jamais partielle (modèle exact)
• La requête s'exprime avec des opérateurs logiques
– AND, OR, NOT
– (cyclisme OR natation) AND NOT dopage
– le document est pertinent si et seulement si son contenu respecte la formule
logique demandée
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
12
Modèle booléen : exemple
Requête Q : (cyclisme OR natation) AND NOT dopage
Le document contient
cyclisme
natation
cyclisme OR
natation
dopage
NOT dopage
Pertinence
du
document
0
0
0
0
1
0
0
0
0
1
0
0
0
1
1
0
1
1
0
1
1
1
0
0
1
0
1
0
1
1
1
0
1
1
0
0
1
1
1
0
1
1
1
1
1
1
0
0
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
13
Modèle booléen : avantages et inconvénients
• Avantages :
– Le modèle est transparent et simple à comprendre pour l'utilisateur :
• Pas de paramètres "cachés"
• Raison de sélection d'un document claire : il répond à une formule logique
– Adapté pour les spécialistes (vocabulaire contraint)
• Inconvénients :
– Il est difficile d'exprimer des requêtes longues sous forme booléenne
– Le critère binaire peu efficace
• Il est admis que la pondération des termes améliore les résultats
• cf. modèle booléen étendu
– Il est impossible d'ordonner les résultats
• Tous les documents retournés sont sur le même plan
• L'utilisateur préfère un classement lorsque la liste est grande
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
14
Extensions possibles
• Opérateurs d'adjacence ou de proximité :
– « base NEAR données »
– Nécessite la conservation des positions des mots dans les documents
• Pondération des mots-clés
– « JO AND Pékin AND (natation:3 OR cyclisme:4 OR athlétisme:2) »
– Permet un classement des résultats, mais selon des préférences exprimées par
l'utilisateur
• Voir aussi plus loin le modèle booléen étendu
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
15
Vers des listes ordonnées de résultats
• La plupart des utilisateurs :
– ont du mal à écrire des requêtes booléennes
– ne veulent pas parcourir trop de résultats (des milliers, voire des millions)
 On préfère donc des listes ordonnées
– Du plus utile à l’utilisateur (pertinent) au moins utile
– Le nombre de résultats n’est plus un problème
– L’utilisateur en parcourt autant qu’il le souhaite
• La condition : avoir un algorithme d’ordonnancement efficace
• Modèle statistique :
– Aspect quantitatif des termes et des documents
– Degré de similarité entre une requête et un document
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
16
Modèle vectoriel
Modèle vectoriel
• Mesure de similarité : Plus deux représentations contiennent les mêmes éléments,
plus la probabilité qu’elles représentent la même information est élevée.
• Documents et requête sont représentés par un vecteur
– Les coordonnées du vecteur sont exprimées dans un espace euclidien à n
dimensions (n : nombre de termes)
– La longueur du vecteur (i.e. de sa projection sur chacun des axes/termes) est
proportionnelle au poids des termes.
• La pertinence du document correspond au degré de similarité entre
le vecteur de la requête et celui du document
 On ordonne les documents du plus similaire à la requête
au moins similaire
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
18
Modèle vectoriel
t3
Requête Q :
t1 t2 t3
0.80
D
Q
Document D :
… t1 … t3 …
Poids wD,t1 = 0.45
t1
0.45
Poids wD,t3 = 0.80
t2
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
19
Quelle mesure de similarité ?
Distance euclidienne ?
Produit scalaire ?
t2
t2
D1
D1
Q
Q
D3 D2
D 3 D2
D4
D4
𝑛
sim 𝑄, 𝐷 = 𝑄 ∙ 𝐷 =
t1
Une mauvaise idée…
t1
𝑤𝑖,𝑄 × 𝑤𝑖,𝐷
𝑖=1
… Pourquoi ?
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
20
Quelle mesure de similarité ?
• La solution : travailler avec l’angle entre les vecteurs
t2
D1
Cosinus
Q
sim 𝑄, 𝐷 =
D3
D2
𝑄∙𝐷
𝑄 × 𝐷
=
D4
t1
𝑛
𝑖=1 𝑤𝑖,𝑄
𝑤²𝑖,𝑄 ×
× 𝑤𝑖,𝐷
𝑤²𝑖,𝐷
(Le produit scalaire avec
normalisation de la longueur
des vecteurs)
Quelle est la contribution d’un terme isolé ?
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
21
Quelle mesure de similarité ?
• Autres mesures :
– Dice
𝑅𝑆𝑉 Q, D =
– Jaccard
𝑅𝑆𝑉 Q, D =
2
𝑤𝑖Q × 𝑤𝑖D
𝑤𝑖Q + 𝑤𝑖D
𝑤𝑖Q +
– Overlap
𝑅𝑆𝑉 Q, D =
𝑤𝑖Q × 𝑤𝑖D
𝑤𝑖D − 𝑤𝑖Q × 𝑤𝑖D
𝑤𝑖Q × 𝑤𝑖D
𝑚𝑖𝑛
2∣𝐴∩𝐵 ∣
∣ 𝐴 ∣+∣ 𝐵 ∣
𝑤𝑖D ,
𝑤𝑖Q
∣𝐴∩𝐵 ∣
∣𝐴∪𝐵 ∣
∣𝐴∩𝐵 ∣
𝑚𝑖𝑛 ∣ 𝐴 ∣, ∣ 𝐵 ∣
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
22
Modèle vectoriel – résumé
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
À retenir
pour le
23
projet !
Modèle vectoriel : avantages et inconvénients
• Avantages :
–
–
–
–
Le langage de requête est plus simple (liste de mot-clés)
Les performances sont meilleures grâce à la pondération des termes
Le renvoi de documents à pertinence partielle est possible
La fonction d'appariement permet de trier les documents
• Inconvénients :
– Le modèle considère que tous les termes sont indépendants
(inconvénient théorique)
– Le langage de requête est moins expressif
– L'utilisateur voit moins pourquoi un document lui est renvoyé
 Le modèle vectoriel est le plus populaire en RI
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
24
Autres modèles
Modèle probabiliste (1/4)
• Estimation de la probabilité de pertinence d'un document par
rapport à une requête
• Probability Ranking Principle (Robertson 77)
• R : D est pertinent pour Q
• ¬R : D n'est pas pertinent pour Q
• Le but : estimer
variables indépendantes,
deux ensembles de
documents séparés
– P(R/D) : probabilité que le document D soit contienne de l'information
pertinente pour Q
– P(¬R/D)
si
𝑃 𝑅 D
𝑃 𝑅 D
> 1 ou si log
> 0 alors D est pertinent
𝑃 ¬𝑅 D
𝑃 ¬𝑅 D
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
26
Modèle probabiliste
• Rappel du théorème de Bayes :
P( A / B) 
P ( B / A)  P ( A)
P(B)
• On ne sait pas calculer P(R/D), mais on peut calculer P(D /R)
Probabilité d'obtenir D en
connaissant les pertinents
P(R / D) 
Probabilité d'obtenir un document
pertinent en piochant au hasard
P(D / R)  P(R)
P(D)
Probabilité de piocher D au hasard
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
27
Modèle probabiliste
• En utilisant l'hypothèse d'indépendance des termes :
n
P(D / R) 
 P (t
i
 D / R)
i 1
• Pour estimer les probabilités sur les termes, on peut utiliser des
requêtes déjà résolues (apprentissage) puis des pondérations
• Exemple (système Okapi) :
– le tf.idf
– la longueur du document
– la longueur moyenne des documents
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
28
Modèle probabiliste : conclusion
• Deux modèles phares :
– 2-poisson
– Okapi
• Autres modèles de type probabiliste :
– Réseaux bayésiens
– Modèle de langage
• Conclusion :
– Problème des probabilités initiales
– Termes indépendants
– Résultats comparables à ceux du modèle vectoriel
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
29
Modèle booléen étendu
• Idée : permettre l'utilisation des opérateurs logiques tout en
proposant une pertinence graduée
• Combinaison des modèles booléen et vectoriel
• Utilisation de la pondération des termes dans un document (tf.idf)
• Comme dans le modèle vectoriel, positionnement des documents
dans un espace euclidien dont les axes sont les termes de la
requête
• Calcul de la distance entre les coordonnées du document et :
– les coordonnées idéales (requête ET)
– les coordonnées nulles (requête OU)
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
30
Modèle booléen étendu : exemple (1/2)
Requête Q :
t1 AND/OR t2
Document D1 : ... t1 ... t2 ...
poids wD1,t1 = 0.75
poids wD1,t2 = 0.65
t
1
y1 0,65
y2 0,5
(1,1)
2
D1
D2
Document D2 : ... t1 ... t2 ...
(0,0)
poids wD2,t1 = 0.25
t
0,25
x2
0,75
x1
1
1
poids wD2,t2 = 0.50
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
31
Modèle booléen étendu : exemple (2/2)
t1 OR t2
t1 AND t2
t
1
y1 0,65
y2 0,5
(0,0)
t
(1,1)
2
1
D2
y1 0,65
y2 0,5
D1
x2
x1
0,25
0,75
𝑅𝑆𝑉 D, Q OR =
t
1
(0,0)
1
𝑥2 + 𝑦2
2
(1,1)
2
D2
D1
x2
x1
0,25
0,75
𝑅𝑆𝑉 D, Q AND = 1 −
1−𝑥
t
1
2
1
+ 1−𝑦
2
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
32
2
Modèle booléen étendu : formule finale
𝑝
𝑅𝑆𝑉 D, QOR =
𝑝
𝑖=1..m 𝑐𝑚
𝑚
𝑝
𝑅𝑆𝑉 D, Q AND = 1 −
avec :
• c les coordonnées des mots
• m le nombre de termes
de la requête
•1≤p≤∞
𝑖=1..m 1 − 𝑐
𝑚
𝑝
𝑚
p = 1  modèle booléen classique
p = 2  exemple précédent
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
33
Autres modèles algébriques
• Modèle vectoriel généralisé
– Représente les dépendances entre termes
– Théoriquement intéressant, mais efficacité non démontrée
• Latent Semantic Indexing
– Propose d'étudier les "concepts" plutôt que les termes, car ce sont eux qui
relaient les idées d'un texte.
– Lie les documents entre eux et avec la requête
– Permet de renvoyer des documents ne contenant aucun mot de la requête
– Moins de dimensions
• Réseaux de neurones
• ...
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
34
Pour aller plus loin...
(Dominik Kuropka 04)
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
35
Quelques outils
• lucy/zettair
• cheshire
• dataparksearch engine
• lemur
• lucene (et solr)
• terrier
• wumpus
• xapian
http://www.seg.rmit.edu.au/zettair/
http://cheshire.lib.berkeley.edu/
http://www.dataparksearch.org/
http://www.lemurproject.org/
http://jakarta.apache.org/lucene/docs/
http://ir.dcs.gla.ac.uk/terrier/
http://www.wumpus-search.org/
http://www.xapian.org/
liste et liens sur http://www.emse.fr/~mbeig/IR/tools.html
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
36
Relevance feedback
Relevance feedback (1/2)
• "Réinjection de la pertinence"
• Hypothèse : la requête initiale de l'utilisateur n'est pas la requête
idéale pour obtenir les documents qu'il cherche
• But : déplacer le vecteur de la requête pour la rapprocher des
documents pertinents
documents non pertinents
documents pertinents
Q
Q'
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
38
Relevance feedback (2/2)
• "Manuel explicite" :
– L'utilisateur visualise les n premiers résultats
– Il estime la pertinence de chacun (0 ou 1)
– Nouvelle requête obtenue à partir des documents jugés pertinents et non
pertinents
• Automatique (blind relevance feedback) :
– Les n premiers résultats du premier run sont supposés pertinents
– Même processus que pour le relevance feedback manuel (sans les documents
non pertinents)
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
39
Relevance feedback : formule de Rocchio
𝑄′ = α𝑄 + β𝑃 + γ𝑁𝑃
moyenne des vecteurs
des documents non pertinents
valeur négative (ex : -0,25)
moyenne des vecteurs
des documents pertinents
valeur positive (ex : 0.5)
vecteur requête initial
valeur positive supérieure aux autres (ex : 1)
nouveau vecteur requête
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
40
Formule de Rocchio : exemple
𝑄′ = α𝑄 + β𝑃 + γ𝑁𝑃
𝑄 = 5,0,3,0,1
𝑃 = 2,1,2,0,0 = D1
𝑁𝑃 = 1,0,0,0,2 = D2
𝑄′ = 𝑄 + 𝑃 − 𝑁𝑃
𝑄′ = 5.75,0.5,4,0,0.5
cosinus
D1
D2
Q1
0,90
0,53
Q2
0,95
0,43
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
41
Divers
42
Recherche multimédia
• Texte et/ou image et/ou audio et/ou vidéo...
• Des collections très volumineuses :
– ex : collection Wikipédia pour INEX
– 4.6 Go en texte seul, 60 Go avec les images
• Documents structurés (MPEG-7...)
• Utilisation :
– des métadonnées
– du texte "environnant" les images (légende, point de référence...)
– des caractéristiques propres des documents autres que le texte :
• Analyse d'image
• Speech-to-text
• ...
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
43
Quels résultats présenter ?
• Il est inutile et coûteux de présenter trop de résultats
• Où s'arrêter ?
• Un seuil :
– Fixe
• Difficile à trouver
• Risque de ne rien présenter
– Fonction du meilleur score
• Quelle signification ?
• Comportement variable
cosinus
• Augmentation brutale de la pente
• La méthode du « coude »
rang
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
44
Expansion de la requête
• Ajouter des mots pertinents à la requête initiale et les pondérer
efficacement
• Méthodes pour palier les problèmes liés au langage naturel
–
–
–
–
« bateau » ne ramène pas le mot « navire »
« thermodynamique » ne ramène pas « chaleur »
« félin » ne ramène pas « chat »
…
• Le relevance feedback sert aussi à ça (en partie)
Pourquoi ?
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
45
Expansion de la requête
• Les thesaurus « manuels »
• Les thesaurus automatiques (voir page suivante)
• L’analyse des logs de requêtes
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
46
Génération automatique de thesaurus
• Fondée sur la similarité entre deux mots
• Co-occurrence de deux mots : deux mots qui apparaissent
fréquemment ensemble possèdent une relation sémantique entre
eux
– Ex: « location » et « appartement »
– Conduit à des relations sémantiques non spécifiées
• Co-occurrence des contextes : deux mots sont similaires s’ils cooccurrent avec des mots similaires
– Ex: « bateau » et « navire », « chat » et « félin », mais aussi « chat » et
« chien », « PS » et « UMP », etc.
– Conduit plutôt à des relations lexicales de synonymie ou hyperonymie, mais
peut également être plus large
– Possibilité d’utiliser les relations syntaxiques également
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
47
Génération automatique de thesaurus
• chat  animal de compagnie, siamois, client IRC, persan, chien, …
• télévision  TV, séries, programme, radio, images, …
• Expansion de requêtes à base de thesaurus :
– Ajouter les mots jugés similaires à la requête
– Éventuellement, donner des pondérations en fonction du niveau de similarité
• Quand s’arrête-t-on d’étendre la requête ?
Quels sont les effets de ces expansions de
requêtes sur la précision et le rappel ?
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
48
Évaluation
Recherche d'Information
Indexation
(modèle de document)
Collections dynamiques
vs. statiques
Modèle de
recherche
Évaluation
Requête
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
50
Qu’est-ce qu’un bon moteur de recherche ?
• Il est rapide !
 Une analyse rapide de la requête
 Une recherche rapide dans l’index
 Un tri rapide des résultats
• Il est complet et à jour !
– Tous les (ou de nombreux) documents de la collection sont traités
– Les nouveaux documents sont incorporés rapidement aux résultats
 Une construction rapide de l’index
 (sur le Web) Une découverte permanente, efficace et rapide des nouveaux
documents
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
51
Qu’est-ce qu’un bon moteur de recherche ?
• Son langage de requêtes est simple et expressif
– Ces notions dépendent des types d’utilisateurs
 Un modèle de recherche et d’indexation approprié
• Son interface est sympa
 De nombreuses recherches dans ce domaine
• Il est gratuit ou pas cher
 Les moteurs de recherche (sur le Web mais pas seulement) sont un enjeu
économique très important (et il faut trouver des recettes)
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
52
Qu’est-ce qu’un bon moteur de recherche ?
• Mais surtout… il est pertinent !
– Ses résultats doivent satisfaire le besoin d’information de l’utilisateur
– Mais ce point est plus difficile à mesurer
– Il n’est pas indépendant des autres points
(la satisfaction de l’utilisateur dépend de l’ensemble
des critères)
• Ce point dépend des utilisateurs
– Les humains sont subjectifs
– Ils ont leurs propres connaissances
– Ils ont des besoins différents qui n’apparaissent
pas toujours dans leur expression de ces besoins
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
53
Comment mesurer la pertinence ?
• Un moteur sur le Web
– L’utilisateur clique sur certains liens et pas sur d’autres
– L’utilisateur retourne sur le moteur
– L’utilisateur effectue une certaine tâche
• Un site de e-commerce
– L’utilisateur achète (mais alors de qui mesure-t-on la satisfaction ?)
– Il achète vite
– Une forte proportion de visiteurs achètent
• Un site d’entreprise
– L’utilisateur gagne-t-il en productivité ?
– L’accès est-il sécurisé ?
– Etc.
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
54
Qu’est-ce qu’une bonne évaluation ?
• Évaluer un système sert à :
– Savoir s’il remplit la tâche assignée
– Savoir s’il est meilleur que la concurrence
– Savoir où on peut l’améliorer
• Il faut donc une évaluation :
– Reproductible
• Pour évaluer plusieurs systèmes de la même façon
• Pour estimer les progrès accomplis
– Interprétable
• Pour identifier les zones de progrès possible
– Rapide
• Pour pouvoir évaluer chaque modification du système indépendamment
– Objective
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
55
Comment rendre la pertinence objective ?
• Rappel :
– Le besoin de l’utilisateur est d’abord transformé en requête, ce qui comporte
déjà une perte d’information.
– On mesure la pertinence des résultats par rapport au besoin d’information
initial, pas par rapport à la requête ! (ex: « java »)
– Des résultats peuvent être « très pertinents », « pas du tout pertinent », mais
aussi « un peu pertinents », « moui » ou « je le savais déjà »
• Pour rendre la pertinence objective :
– On en simplifie la définition
• Les documents sont traités indépendamment les uns des autres
• La pertinence est transformée en notion binaire
– On utilise des « collections de test »
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
56
Collections de test
La collection de test rend les expériences reproductibles
• On met au point un protocole
• On juge manuellement un nombre significatif d’exemples
– « Gold standard »
– Une partie peut également servir d’ensemble de « développement » et/ou
d’ « apprentissage »
• On calcule un accord inter-annotateurs
– Pour valider le caractère objectif
• On compare les résultats du système aux résultats attendus
• On définit des mesures imparfaites mais précises
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
57
Évaluation : précision et rappel
Documents
renvoyés ET pertinents
Documents
pertinents P
bruit
Retour du
système S
silence
Précision

PS
S
Rappel 
PS
P
Silence
 1 - Rappel
Bruit  1 - Précision
Indexation et Recherche d'Information
 Recherche, évaluation
Xavier Tannier
58
Précision et rappel
• Pourquoi pas juste la précision ?
– La précision évalue la capacité d’un système à renvoyer SURTOUT des
documents pertinents
– Renvoyer un seul document pertinent suffit à obtenir 100 % de précision
 Ce n’est pas compatible avec la satisfaction de l’utilisateur !
• Pourquoi pas juste le rappel ?
– Le rappel évalue la capacité d’un système à renvoyer TOUS les documents
pertinents
– Renvoyer tous les documents de la collection permet d’obtenir 100 % de
rappel
 Ce n’est pas compatible avec la satisfaction de l’utilisateur !
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
59
Courbe rappel/précision
• Le rappel augmente bien sûr avec le nombre de réponses
• La précision diminue (en général)
• On utilise la courbe rappel/précision pour caractériser les systèmes
de recherche d'information
1
0,8
0,6
0,4
0,2
0
,1 ,2 ,3 ,4 ,5 ,6 ,7 ,8 ,9 1
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
60
Évaluation : F-mesure
• Pour obtenir une valeur unique entre 0 et 1, on utilise la F-mesure
(moyenne harmonique)
F 

1
p
(   1)  P  R
2
1
 (1   )
1

 PR
2
avec
 
1
 1
2
R
• Pour donner autant d'importance à la précision qu'au rappel, on
choisit  = 1
F 
2 P .R
PR
•  < 1 favorise la précision,  > 1 favorise le rappel
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
61
Évaluation : autres mesures
• MAP (Mean Average Precision) : aire sous la courbe R/P
• P@5, P@10 : précision après 10 documents retrouvés favorise la
haute/très haute précision
• P@100, ...
• Taux d'erreur = (faux positifs + faux négatifs) / pertinents
• et de nombreuses autres...
MAP
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
62
Le pooling (1/3)
• Problème du rappel dans les collections importantes
– Le rappel impose en théorie de connaître tous les documents pertinents
– Impossible en pratique
• Le pooling :
– Une fusion "intelligente" des résultats
– Les n premiers documents produits par les systèmes sont fusionnés
(n = 100 ou plus)
– Seuls ces documents sont jugés par les experts humains
– Les documents non jugés sont considérés comme non pertinents
– Le calcul du rappel fait comme si tout avait été jugé
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
63
Le pooling (2/3)
• L’accord inter-annotateurs est d'environ 80%
• Au mieux 50 à 70 % des documents pertinents seraient retrouvés par
cette méthode (Zobel 98)
• Le biais qui en résulte :
– Le rappel est surévalué
– La précision est sous-évaluée
– Les systèmes "originaux" qui s'entraînent sur ces collections peuvent être
pénalisés
• Mais :
– Le biais est faible s'il y a suffisamment de requêtes et de systèmes
– L'évaluation "relative" (comparaison entre systèmes) reste valable
– On n'a pas le choix
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
64
Le pooling (3/3)
Documents
pertinents
Précision perdue
Documents
pertinents
pooling
Retour
du
Système
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
65
Campagnes d'évaluation
• TREC (Text REtrieval Conference) :
– Événement phare du domaine, tous les ans depuis 1992
– Sponsorisée par la DARPA
– De nombreux axes de recherche :
• Multimédia : image, vidéo, Web
• Types de recherche spécifiques : questions-réponses, interactif, filtrage,
"cross-language", "home page«
• Domaines spécifiques : génomique, légal
• Modes d'expression spécifiques : blogs, spams
• ...
• CLEF (Cross-Language Evaluation Forum), spécialisée dans les
langages européens
• NTCIR, spécialisée dans les langages asiatiques
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
66
Retour sur la
normalisation
Influence de la normalisation
Quelle est l’influence des techniques de
normalisation sur la précision et le rappel ?
•
•
•
•
Utilisation des mots vides
Lemmatisation
Racinisation
…
Quelle peut être l’influence d’autres techniques sur la
précision et le rappel ?
• Ajout de synonymes ?
• Utilisation de la syntaxe des phrases ?
• Requête
Extraction d’Information dans les Textes I
 Recherche, évaluation
Xavier Tannier
68