Transcript Document
•Βασική πηγη το βιβλίο R. Baeza-Yates, B. Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999 (second edition, 2011, http://mir2ed.org/)
Μετρικές Εκτίμησης Απόδοσης
Βασική πηγη το βιβλίο και οι διαφάνειες R. Baeza-Yates, B. Ribeiro-Neto,
Modern Information Retrieval, Addison Wesley, 1999 (second edition,
2011, http://mir2ed.org/)
Κλασσικές Μετρικές
(Εκτίμηση Απόδοσης)
Χωρικές/χρονικές πολυπλοκότητες δομών δεικτοδότησης
Επικοινωνία με το Λειτουργικό Σύστημα
Καθυστερήσεις στους διαύλους επικοινωνίας
Επιβαρύνσεις από ύπαρξη πολλών επιπέδων λογισμικού
Ειδικές Μετρικές
(Εκτίμηση Απόδοσης Ανάκτησης)
Συλλογή Κειμένων Αναφοράς
συλλογή κειμένων
συλλογή προτύπων πληροφοριακών αναγκών Q
συλλογή σχετικών κειμένων για κάθε q Q
Κατάλληλη μετρική απόδοσης ανάκτησης
Κείμενα Αναφοράς
TREC (TREC evaluation collections: WSJ (Wall Street
Journal, AP (Associated Press), ZIFF, FR, DOE, PATents)
GOV2 (25 million page GOV2 web page collections –
terabyte track)
NTCIR (NII Test Collections for IR systems, focusing on
East Asian, cross language information retrieval)
CLEF (Cross Language Evaluation Forum:
http://www.clef-campaign.org)
Reuters (Reuters-21578 and Reuters Corpus Volume 1
collection)
Cranfield (1398 abstract of aerodynamics journal articles,
225 queries)
CACM collection
ISI (Institute of Scientific Information) collection
Newsgroups
Ανάκληση (Recall) και Ακρίβεια (Precision)
Έστω Ι μία πρότυπη πληροφοριακή ανάγκη και R το σύνολο των
σχετικών της κειμένων. Υποθέστε ότι μία δοσμένη στρατηγική
ανάκτησης παράγει ένα σύνολο κειμένων απάντησης Α. Έστω Rα
το σύνολο των κειμένων που είναι κοινά στα σύνολα R και A.
Ανάκληση =
Ακρίβεια=
| Ra |
|R|
| Ra |
| A|
Σχέση Ακρίβειας/Ανάκλησης
D
R
Rα
A
Σχέση Ακρίβειας/Ανάκλησης
P
1
R
0
1
Σχεδίαση Διαγράμματος
Έστω ερώτημα q το οποίο ανήκει στη συλλογή των προτύπων
πληροφοριακών αναγκών και έστω Rq το σύνολο των σχετικών
κειμένων για το ερώτημα q όπως έχει καθοριστεί από ειδικούς.
Για παράδειγμα ας υποθέσουμε ότι το σύνολο Rq περιέχει τα
ακόλουθα κείμενα Rq={d1, d3, d5,d7, d9,d13, d21, d41, d43, d45}.
1.
2.
3.
4.
5.
d7
d2
d3
d6
d8
6.
7.
8.
9.
10.
d5
d28
d12
d22
d13
11.
12.
13.
14.
15.
d4
d40
d10
d36
d1
Σχεδίαση Διαγράμματος
Θεωρώντας ότι ο αριθμός των επιστρεφόμενων κειμένων είναι 30, σχεδιάστε τα
γραφήματα ανάκλησης ακρίβειας, για τα ακόλουθα ερωτήματα (δίνονται ο
αριθμός των σχετικών κειμένων και η θέση τους στο αποτέλεσμα) :
Μηχανή1,Αριθμός: 10,
Θέση:
1, 5, 7, 8, 9, 13, 17, 26, 27, 28
Μηχανή2.Αριθμός: 10,
Θέση:
2, 3, 4, 5, 7, 10, 11, 12, 16, 27.
Με βάση τα δύο προκύπτοντα γραφήματα συγκρίνετε μεταξύ τους τις δύο
μηχανές.
Σχεδίαση Διαγράμματος
Συνήθως το διάγραμμα αυτό βασίζεται σε 11 πρότυπα επίπεδα ανάκλησης τα 0%,
10%, ..., 100%, όπου σε κάθε επίπεδο η ακρίβεια υπολογίζεται με χρήση μίας
διεργασίας παρεμβολής (interpolation) της ακόλουθης μορφής: έστω rj,
j{0,1,2,…,10} το j-οστό επίπεδο ανάκλησης τότε:
P(rj)=max rjrrj+1 P(r)
Βήματα Ανάλυσης (τυπικό για TREC)
1.Υπολόγισε interpolated precision για recall levels 0.0, 0.1, …
2.Υπολόγισε για κάθε ερώτηση σε κάθε evaluation benchmark
3.Υπολόγισε μέσες τιμές για κάθε ερώτημα
Σύνοψη Διαγραμμάτων
Μέση ακρίβεια για κάθε σχετικό κείμενο που ανακτάται (Mean
Average Precision (latest TREC Conferences)) -- μπορεί να θεωρηθεί
και ότι αναπαριστά το συνολικό εμβαδόν
R-Ακρίβεια
παράγεται μία τιμή σύνοψης που υπολογίζεται ως η ακρίβεια
στη R-οστή θέση διάταξης, όπου R είναι ο συνολικός αριθμός
των σχετικών κειμένων για την τρέχουσα ερώτηση (δηλαδή ο
αριθμός των κειμένων στο σύνολο Rq).
Ιστογράμματα Ακρίβειας
Έστω RPA(i) και RPB(i) οι τιμές της R-ακρίβειας για δύο
αλγόρίθμους ανάκτησης A,B για το i-οστό ερώτημα. Ορίζουμε
την ακόλουθη διαφορά: RPA/B(i)=RPA(i)-RPB(i).
Receiver Operating Characteristics
- true positives (tp): retrieved and relevant
- false positives (fp): retrieved and non relevant
- true negatives (tn): non relevant and non-retrieved
- false negatives (fn): non relevant and retrieved
sensitivity=tp/(tp+fn),
P=tp/(tp+fp), R=tp/(tp+fn)
false-positive rate or 1-specificity=fp/(fp+tn).
Καταλληλότητα Ακρίβειας/Ανάκλησης
Απαιτείται λεπτομερή γνώση όλων των κειμένων της συλλογής που
σε μεγάλες συλλογές δεν είναι διαθέσιμη
Η καταγραφή μίας μόνο μετρικής αντί για δύο είναι συνήθως
εύχρηστη
Σε μοντέρνα συστήματα η διεπαφή και η αλληλεπίδραση με τον
χρήστη αποτελούν σημείο κλειδί στην επεξεργασία ενός ερωτήματος,
κάτι που καθιστά επιτακτική την υιοθέτηση μετρικών που τις
λαμβάνουν υπόψη.
Oι μετρικές ανάκλησης και ακρίβειας είναι κατάλληλες όταν
υπάρχει μία γραμμική διάταξη στα ανακτώμενα κείμενα, διαφορετικά
μπορεί να είναι ανακριβείς.
Εναλλακτικές Μετρικές
Αρμονικός Μέσος Όρος
Η Μετρική Ε
Μετρικές Προσανατολισμένες προς τον Χρήστη
Αρμονικός Μέσος Όρος
Ο αρμονικός μέσος όρος F ανάκλησης και ακρίβειας ορίζεται ως
εξής:
2
F ( j)
1
1
R( j ) P( j )
όπου R(j) είναι η ανάκληση για το j-οστό κείμενο στη διάταξη, P(j) είναι η
ακρίβεια για το j-οστό κείμενο στη διάταξη και F(j) είναι ο αρμονικός μέσος όρος
των R(j), P(j).
Αιτία για την επιλογή αυτή, είναι ότι ο αρμονικός μέσος όρο προσεγγίζει το
ελάχιστο των δύο τιμών και όχι το μέγιστο.
Η Μετρική Ε
Η μετρική Ε ορίζεται ως εξής:
E( j) 1
1 b2
b2
1
R( j ) P( j )
-- R(j) είναι η ανάκληση για το j-οστό κείμενο στη διάταξη, P(j) είναι η ακρίβεια για το jοστό κείμενο στη διάταξη και F(j) είναι ο αρμονικός μέσος όρος των R(j), P(j).
-- τιμές b>1, σημαίνει ότι ο χρήστης ενδιαφέρεται πιο πολύ για ακρίβεια, τιμές b<1 ότι
ενδιαφέρεται για ανάκληση.
Μετρικές Προσανατολισμένες προς τον Χρήστη (1)
Έστω R το σύνολο των σχετικών κειμένων για την πληροφοριακή
ανάγκη I, A το σύνολο των κειμένων που έχει ανακτηθεί και U R το
σύνολο των κειμένων που είναι γνωστό στο χρήστη ότι είναι σχετικά
προς το ερώτημα του. Έστω Rk η τομή των συνόλων Α και U και|Ru| o
αριθμός των σχετικών κειμένων, που δεν γνώριζε πριν ο χρήστης και
τα οποία έχουν ανακτηθεί.
| Rk |
Βαθμός κάλυψης (coverage ratio) =
|U |
| Ru |
Bαθμός καινοτομίας (novelty ratio)=
| Ru | | Rk |
Άλλες Μετρικές
Σχετική ανάκληση (relative recall) ορίζεται ως το πηλίκο ανάμεσα
στον αριθμό των σχετικών κειμένων που έχουν ανακτηθεί και των
σχετικών κειμένων που ο χρήστης περιμένει να ανακτηθούν.
Κόστος ανάκλησης (recall effort) ορίζουμε το πηλίκο ανάμεσα στα
σχετικά κείμενα που ο χρήστης αναμένει να εντοπίσει και τα
κείμενα που εξετάζει μέχρις ότου εντοπίσει αυτά που αναμένει.
‘Αλλες Μετρικές Μηχανής Ψαξίματος
Πόσο γρήγορα δεικτοδοτεί
– Αριθμός κειμένων/ώρα
– μέσο μέγεθος κειμένου
Πόσο γρήγορα απαντά
Εκφραστικότητα γλώσσας ερώτησης
– Ικανότητα διατύπωσης πολύπλοκων πληροφοριακών
αναγκών
– Ταχύτητα πολύπλοκων ερωτήσεων
Μέτρηση Ικανοποίησης Χρήστη
Θέμα: ποιον χρήστη θέλουμε να ικανοποιήσουμε;
εξαρτάται από την εφαρμογή
Web engine: ο χρήστης εντοπίζει αυτό που θέλει και
επιστρέφει στην ίδια μηχανή
– Καταγραφή ρυθμού επιστροφής χρήστη
eCommerce site: ο χρήστης βρίσκει αυτό που θέλει και
κάνει αγορά
– Είναι ο end-user, ή το eCommerce site το οποίο
μετράμε;
– Μέτρηση χρόνου αγοράς, η ποσοστό χρηστών που
έγιναν αγοραστές;
Μέτρηση Ικανοποίησης Χρήστη
Enterprise (company/govt/academic): Care about “user
productivity”
– How much time do my users save when looking for
information?
– breadth of access, secure access, etc.
Web Search Evaluation
- H ανάκληση είναι δύσκολο να υπολογιστεί στο Web
- Οι μηχανές ψαξίματος συχνά χρησιμοποιούν ακρίβεια στα πρώτα k, π.χ., k = 10 κείμενα
ή μετρικές που πριμοδοτούν, την γρήγορη ανάκτηση κορυφαίων σελίδων
- Οι μηχανές χρησιμοποιούν επίσης non-relevance-based μετρικές.
Παράδειγμα 1: clickthrough στο πρώτο αποτέλεσμα (αν και όχι πολύ αξιόπιστη μετρική
είναι αξιόπιστη κατά μέσο όρο).
Παράδειγμα 2: Νέες τεχνικές που ακόμη δεν έχουν κυριαρχήσει στη περιοχή
Παράδειγμα 3: A/B testing
Α/Β Μετρική
Τεστάρισμα Καινοτόμου Αλγορίθμου
Προαπαιτούμενο: ύπαρξη μίας μηχανής ψαξίματος
Μετατόπιση ενός μικρού ποσοστού της κυκλοφορίας (περίπου 1%) σε ένα νέο
σύστημα, που συμπεριλαμβάνει την καινοτομία
Αξιολόγηση με μία “αυτόματη” μετρική όπως clickthrough στο πρώτο αποτέλεσμα
Παραλλαγή: δώστε στους χρήστες τη δυνατότητα να μετακινηθούν στο νέο
αλγόριθμο.
Benchmark collection
Συλλογή κειμένων
- αντιπροσωπευτική των κειμένων που διαχειριζόμαστε
Συλλογή πληροφοριακών αναγκών
- ... λανθασμένα αναφέρονται ως ερωτήματα
- αντιπροσωπευτικά αυτών που αναμένουμε
Καταγραφή σχετικότητας
- απαραίτητη η χρήση κριτών ή διαφορετικά εκτιμητών συσχέτισης
- διαδικασία ακριβή και χρονοβόρα
- οι κρίσεις πρέπει να είναι αντιπροσωπευτικές της εκτίμησης των
χρηστών
- οι κρίσεις πρέπει να είναι μεταξύ τους συνεπείς
- πως μπορεί να αξιολογηθεί η συνέπεια των χρηστών (kappa μετρική)
- τιμές του k από 2/3 ως 1 θεωρούνται ικανοποιητικές.
K μετρική
-K είναι μετρική που αξιολογεί κατά πόσο δύο κριτές συμφωνούν ή διαφωνούν
- Σχεδιασμένη για κατηγορικά ορίσματα
-P(A) είναι το ποσοστό συμφωνίας των δύο κριτών
- P(E) είναι το ποσοστό συμφωνίας από τύχη
-Η μετρική K υπολογίζεται ως εξής:
K=(P(A)-P(E))/(1-P(E))
-Και οι δύο πιθανότητες υπολογίζονται από πίνακες αξιολογήσεων των δύο κριτών.
Πιο συγκεκριμένα P(E)=P(relevant)2+P(non_relevant)2
όπου και στις δύο
αξιολογήσεις παίρνουμε υπόψην μας όλες τις αξιολογήσεις των referee.
Συλλογή Cranfield
- Από τις πρώτες συλλογές δεδομένων, με παροχή αντιποσωπευτικών
μέτρων για καταγραφή ποσοτική της αποτελεσματικότητας συλλογής.
-Τέλη 1950, UK
-1938 abstracts άρθρων σε περιοδικά αεροδυναμικής, σύνολο 225
ερωτημάτων, εξαντλητικές κρίσεις σχετικότητας για όλα τα ζεύγη
ερωτημάτων-κειμένων
- Αρκετά μικρή, και όχι τόσο τυπική για σοβαρή αξιολόγηση ανάκτηση
πληροφορίας σήμερα.
Συλλογή TREC
-TREC (Text Retrieval Conference)
-Οργανώθηκε από U.S. National Institute of Standards Organization (NIST)
- TREC είναι μία συλλογή από διαφορετικά benchmarks
- Γνωστή ως TREC Ad Hoc, χρησιμοποιήθηκε για τις πρώτες 8 TREC αξιολογήσεις
1992-1999.
- 1.89 εκατομμύρια κείμενα, κυρίως άρθρα, 450 πληροφοριακές ανάγκες
- Όχι εξαντλητικές αξιολογήσεις, αρκετά ακριβές
- Βασικά εκτιμήσεις αξιολόγησης υπάρχουν μόνο για κείμενα που ήταν ανάμεσα στα
k πρώτα που ήταν στην TREC συλλογή και επιστράφηκαν στη διάρκεια απάντησης
μίας πληροφοριακής ανάγκης.
Συλλογές
-
GOV2
-- μία άλλη TREC/NIST συλλογή
-- 25 εκατομμύρια web σελίδες
-- από τις μεγαλύτερες διαθέσιμες συλλογές
-- 3 τάξεις μεγέθους μικρότερη από Google/Yahho/MSN
-
NTCIR
-- East Asian Language και Cross Language Information Retrieval
-
Cross Language Evaluation Forum (CLEF)
-- Αυτή η συλλογή έχει επικεντρωθεί σε Ευρωπαϊκές γλώσσες και cross
language information retrieval
Λίστα Αποτελεσμάτων
Πιο συχνά: title, url, λίστα μεταδεδομένων
Μία περίληψη
Πως υπολογίζεται η περίληψη;
Δύο βασικά είδη περίληψης, στατικά και δυναμικά:
- στατική:
ανεξάρτητη ερώτησης
- δυναμική: εξαρτώμενη από ερώτηση.
Στατική Περίληψη
Περίληψη του περιεχομένου του κειμένου
Οι πρώτες περίπου 50 λέξεις του κειμένου
Πιο πολύπλοκες περιλήψεις, χρήση τεχνικών NLP
- NLP heuristics για μαρκάρισμα προτάσεων
- περίληψη παράγεται από τις κορυφαίες προτάσεις
Πιο πολύπλοκες προσεγγίσεις εφαρμόζουν NLP για
παραγωγή προτάσεων:
- όχι έτοιμη για χρήση σε εφαρμογές
Δυναμικές Περιλήψεις
Παρουσίαση ενός ή περισσοτέρων παράθύρων ή snippets στο κείμενο που
παρουσιάζουν μερικούς από τους όρους ερώτησης
Παράγονται σε συνδυασμό με την απάντηση στους όρους ερώτησης
Συνήθως προτιμώνται snippets όπου οι όροι εμφανίζονται σαν μία φράση ή
όπου η εγγύτητά τους μέσα στη φράση πραγματοποιείται σε ένα παράθυρο που
ορίζεται από τον χρήστη
Η περίληψη η οποία υπολογίζεται έτσι εμφανίζει όλους τους όρους του
παραθύρου, όχι μόνο αυτούς που εμπεριέχονται στην ερώτηση.
Τεχνικά Θέματα
Για την γρήγορη υλοποίηση υπολογισμού των snippets θα πρέπει να
κάνουμε cache documents στα οποία θα γίνει ο υπολογισμός
(επικινδυνότητα τελικά αυτά να είναι outdated)
Λύση το caching να γίνεται σε ένα prefix του κειμένου κατάλληλου
μεγέθους
Ιδανικά: τα snippets θα πρέπει να είναι μικρά και να μεταφέρουν
ιδανικά το περιεχόμενο του κειμένου
Η ύπαρξη δυναμικών περιλήψεων είναι σημαντικό θέμα το οποίο
πρέπει να προσεχθεί έτσι ώστε να είναι ευχαριστημένος ο τελικός
χρήστης.
Μοντελοποίηση
Τα Συστήματα Α.Π. χρησιμοποιούν όρους δεικτοδότησης για
να αντιμετωπίσουν τις πληροφοριακές ανάγκες του χρήστη.
Όρος Δεικτοδότησης:
– ένα keyword ή ομάδα επιλεγόμενων λέξεων
– κάθε λέξη (πιο γενικά)
Απομάκρυνση καταλήξεων (stemming) μπορεί να
χρησιμοποιηθεί:
– connect: connecting, connection, connections
Ένα ανεστραμμένο αρχείο χτίζεται για τους δοσμένους
όρους δεικτοδότησης.
Κείμενα
Όροι Δεικτοδότησης
Κείμενο
Ταίριασμα
Πληροφοριακή Ανάγκη
Κατάταξη
Ερώτημα
Ad-Hoc Ανάκτηση και Φιλτράρισμα
Ad hoc ανάκτηση:
Q1
Q2
Συλλογή
Πεπερασμένου Μεγέθους
Q3
Q4
Q5
Ad-Hoc Ανάκτηση και Φιλτράρισμα
Φιλτράρισμα
Κείμενα για
Χρήστη2
Χρήστης2
Προφίλ
Χρήστης1
Προφίλ
Κείμενα για
Χρήστη1
Ροή Κειμένων
Κατάταξη είναι μία ταξινόμηση των ανακτημένων κειμένων που
αναπαριστά τη σχετικότητα των κειμένων με το ερώτημα του
χρήστη.
Μία κατάταξη βασίζεται σε υποθέσεις σχετικά με την έννοια της
σχετικότητας όπως:
– Κοινό σύνολο όρων δεικτοδότησης
– Διαμοίραση ζυγισμένων όρων
– Πιθανότητα συσχέτισης
– Διαφορετικά σύνολο υποθέσεων οδηγούν σε διαφορετικά
μοντέλα Α.Π.
Τυπικός Ορισμός Μοντέλων Α.Π.
Ένα μοντέλο ανάκτησης πληροφορίας είναι η τετράδα [D, Q, F, R(qi, dj)] όπου:
1)
- D είναι ένα σύνολο από λογικές αναπαραστάσεις για τα κείμενα της
συλλογής
2)
- Q είναι ένα σύνολο από λογικές αναπαραστάσεις για τις
πληροφοριακές ανάγκες του χρήστη. Αυτές οι αναπαραστάσεις
καλούνται ερωτήματα
3)
- F είναι ένα υπόβαθρο για την μοντελοποίηση της αναπαράστασης των
κειμένων, των ερωτημάτων και των σχέσεων μεταξύ τους
- R(qi, dj) είναι μια συνάρτηση κατάταξης, η οποία συνδέει
έναν
πραγματικό αριθμό με ένα ερώτημα qi Q και μια αναπαράσταση
κειμένου dj D. Μια τέτοια κατάταξη ορίζει μια διάταξη πάνω στα
κείμενα πάντα με βάση το ερώτημα. qi.
Μοντέλα Α.Π.
Συνολοθεωρητικό
Διαδικασία Χρήστη
Κλασσικά Μοντέλα
Ανάκτηση:
Ad-hoc
Φιλτράρισμα
Boolean
Vector space
Πιθανοτικό
Δομημένα Μοντέλα
Φυλλομέτρηση
Μη επικαλυπτόμενες λίστες
Κοντινοί κόμβοι
Φυλλομέτρηση
Επίπεδη
Καθοδηγούμενη από δομή
Υπερκειμένου
Ασαφές (Fuzzy)
Επεκτεταμένο Boolean
Αλγεβρικό
Γενικευμένο Vector Space
Λανθ. Σημασ. Δεικτοδότηση
Νευρωνικά Δίκτυα
Πιθανοτικό
Δίκτυα Εξαγ. Συμπεράσματος
Δίκτυα Πεποίθησης
Μοντέλα Α.Π.
Το Μοντέλο Α.Π., η λογική όψη των κειμένων και η διεργασία
ανάκτησης αποτελούν διακριτές όψεις του συστήματος.
LOGICAL
U
S
E
R
Retrieval
T
A
S
K
Browsing
VIEW
OF
DOCUMENTS
Index Terms
Full Text
Classic
Set Theoretic
Algebraic
Probabilistic
Classic
Set Theoretic
Algebraic
Probabilistic
Flat
Flat
Hypertext
Full Text +
Structure
Structured
Structure Guide
Hypertext