Transcript ppt

Information Retrieval Modelle: Vektor-Modell
Karin Haenelt
25.10.2012
1
Inhalt
 Information Retrieval-Modelle: Systemarchitektur und Definition
 Überleitung vom Booleschen Modell zum Vektormodell
 Vektormodell
 Ziele
 Dokument- und Anfrage-Repräsentation
 Termgewichtungen: tf und idf
 Rankingfunktion
 Ähnlichkeitsmaße für Vektoren
 Ähnlichkeitsmaß Cosinus
 Bedeutung des Vektormodells
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
2
Grundkomponenten des Information Retrieval
D
Dokumente
D1
Analyse
Repräsentation
R(qk,dm)
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
Analyse
Ähnlichkeit:
- Matching
- Ranking
Dokumente
D2
D2
Q
Anfrage
Komponenten
der Modelldefinition
D1
Repräsentation
3
Information-Retrieval-Modell: Definition
Ein Information-Retrieval-Modell ist ein Quadrupel (D,Q,F,R(qk,dm))
Dokument-Repräsentation
Menge logischer Sichten auf Dokumente
Query-Repräsentation
Q
Menge logischer Sichten auf Anfragen (Queries
Modellierungsrahmen (Framework) für
F
- Dokumentrepräsentationen D
- Queries Q
- Beziehungen zwischen D und Q
R(qk,dm) Ranking-Funktion
ordnet einer Query qk aus Q und einem Dokument dm aus D einen
Wert zu, der die Reihenfolge der Dokumente aus D bezüglich
einer Query qk definiert
D
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
4
Inhalt
 Information Retrieval-Modelle: Systemarchitektur und Definition
 Überleitung vom Booleschen Modell zum Vektormodell
 Vektormodell
 Ziele
 Dokument- und Anfrage-Repräsentation
 Termgewichtungen: tf und idf
 Rankingfunktion
 Ähnlichkeitsmaße für Vektoren
 Ähnlichkeitsmaß Cosinus
 Bedeutung des Vektormodells
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
5
Boolesches Modell und Vektormodell
Dokument- und Anfrage-Repräsentation
binär (Boolesches Modell)
Dokumentvektor:
Anfragevektor:
(1,1,0)
(1,1,0)
Term 1
Öl
Term 2
Preis
Term 3
Alaska
1
1
0
1
1
0
4
8
0
3
6
0
Frequenz (Vektormodell)
Dokumentvektor:
Anfragevektor:
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
(4,8,0)
(3,6,0)
6
Boolesches Modell und Vektormodell
Illustration der Dokumentvektoren durch
geometrische Interpretation
Term 1
Öl
Term 2
Preis
Term 3
Alaska
binär (Boolesches Modell)
1
1
0
Frequenz (Vektormodell)
2
4
0
Preis
Öl
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
7
Boolesches Modell und Vektormodell
Vergleich
Boolesches Modell Vektormodell
D, Q
Repräsentation
Termvorkommen
Termfrequenz
F
Framework
Boolesche Algebra
Vektoralgebra
R
Ranking –
Berechnung der
Ähnlichkeit
zwischen
Anfragevektor und
Dokumentvektor
Wahrheitswert der
konjunktiven
Verknüpfung von D
und Q
Ähnlichkeitsmaß
für Vektoren D und
Q
- Passt / passt nicht
zur Anfrage
- Menge
-Numerische
Ähnlichkeitswerte
- geordnete Liste
Ergebnis
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
8
Inhalt
 Information Retrieval-Modelle: Systemarchitektur und Definition
 Überleitung vom Booleschen Modell zum Vektormodell
 Vektormodell
 Ziele
 Dokument- und Anfrage-Repräsentation
 Termgewichtungen: tf und idf
 Rankingfunktion
 Ähnlichkeitsmaße für Vektoren
 Ähnlichkeitsmaß Cosinus
 Bedeutung des Vektormodells
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
9
Vektormodell
Ziele
 Berücksichtigung partieller Übereinstimmung zwischen
 Anfragetermen und
 Dokumenttermen
durch nicht-binäre Werte für Termgewichtung
 Berechnung der Ähnlichkeit zwischen Anfragetermen und
Dokumenttermen
 Sortierung von Dokumenten nach Grad der Ähnlichkeit
 Präzisere Beantwortung der Anfrage als Boolesches Modell
(Baeza-Yates/Ribeiro-Neto, 1999,27)
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
10
Inhalt
 Information Retrieval-Modelle: Systemarchitektur und Definition
 Überleitung vom Booleschen Modell zum Vektormodell
 Vektormodell
 Ziele
 Dokument- und Anfrage-Repräsentation
 Termgewichtungen: tf und idf
 Rankingfunktion
 Ähnlichkeitsmaße für Vektoren
 Ähnlichkeitsmaß Cosinus
 Bedeutung des Vektormodells
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
11
Vektormodell
Dokument- und Query-Vektoren: Definition
wi,m
Gewicht für des Terms i in
Dokument m;
positiv, nicht binär
wi,k
Gewicht des Terms i in Query k
x
Anzahl der Index-Terme im
System
dm  (w1, m, w2, m,...,wx, m)
qk  (w1, k , w2, k ,...,wx, k )
Dokument-Vektor
Query-Vektor
(Baeza-Yates/Ribeiro-Neto, 1999,27)
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
12
Vektormodell
Termgewichtungen
 einfache Häufigkeit
 berücksichtigt Dokumentlänge nicht
 ergibt keine normalisierten Termvektoren
 nur mit normalisierenden Ähnlichkeitsmaßen (z.B. Cosinus) sinnvoll
verwendbar
 tf: normalisierte Termfrequenz (Term-Frequenz)
 berücksichtigt Dokumentlänge
 ergibt normalisierte Termvektoren
 tf-idf-Gewichtung (Term-Frequenz–inverse Dokument-Frequenz)
 berücksichtigt die Häufigkeitsverteilung von Termen im Corpus
 Terme, die in vielen Dokumenten vorkommen
 haben möglicherweise wenig Unterscheidungswert
 werden abgewertet
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
13
Vektormodell
Termgewichtungen: tf, idf


tf
Termfrequenz-Faktor
 Bedeutung:
relative Anzahl der Vorkommen von
Term ti in Dokument dm
 Zweck:
soll besagen, wie gut ein Term den
Inhalt eines Dokuments beschreibt
idf inverse Dokument-Frequenz
 Sinn:
Terme, die in vielen Dokumenten vorkommen,
sind möglicherweise nicht nützlich zur
Differenzierung relevanter und irrelevanter Dokumente
(Baeza-Yates/Ribeiro-Neto, 1999,29)
 Beispiel: ein
d1 200
d2 150
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
Brot
50
50
und
100
150
Bier
50
50
bei ungewichteter Anfrage
„ein, Brot. und, ein, Bier“
würden hier die Vorkommen
von „ein“ und „und“ über die
Ähnlichkeit entscheiden
14
Vektormodell
Termgewichtungen: tf, idf
normalisierte Termfrequenz
tf-Formel
inverse
Dokumentfrequenz
wi , m 
freqi , m
tfi , m 
max l freql , m
idf i  log
N
ni
Termgewichtung mit
tf-idf-Formel
wi,m  tfi,m  idfi
mit dieser Formel erhält man für alle Terme
Gewichte mit den Werten 0 ≤ wi,m ≤ 1
N
ti
ni
freqi,m
maxl freql,m
tfi,m
idfi
Gesamtzahl der Dokumente im System
Indexterm
Anzahl der Dokumente, in denen Term ti vorkommt
Anzahl der Erwähnungen von Term ti in Dokument dm
Frequenz des höchstfrequenten Terms in Dok. dm
normalisierte Frequenz von Term ti in Dokument dm
inverse Dokumentfrequenz von Term i
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
15
Gesamtzahl der Dokumente im System:
Index-Terme:
„Öl“
„Mexiko“
„Raffinerie“
N=2048
in
in
in
128 Dokumenten
16 Dokumenten
1024 Dokumenten
Beispiel-Dokument:
Öl M. R.
4 8 10
Termfreq
normalisierte
Termfreq tf
freqi , m
fi , m 
max l freql , m
4 8 10
( , , )
10 10 10
0.4 0.8 1.0
N
inverse
idf i  log
Dokfreq idf
ni
tf-idfGewichtg.
2048
2048
2048
 (2 log
,2 log
,2 log
)
128
16
1024
 (2 log16,2 log128,2 log 2) 
N
wi , m  fi , m  log
 (0.4  4,0.8  7,1.0 1) 
ni
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
4
7
1
1.6 5.6 1.0
16
Vektormodell
Termgewichtungen – inverse Dokumentfrequenz
Termgwicht
Mexiko
.
.
Öl
.
.
Raffinerie
0
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
200
400
600
800
1000
1200
Dok.Frequenz
des
Terms
17
Vektormodell
Termgewichtungen – Erläuterungen des Beispiels
 Der signifikanteste Term für das Beispieldokument ist „Mexiko“,
da „Mexiko“ außer im Beispieldokument nur in 15 weiteren
Dokumenten vorkommt
 Der am häufigsten im Beispieldokument vorkommende Term
„Raffinerie“ ist weniger signifikant, da er in 50% der Dokumente
vorkommt
(Kowalski, 1997, 105)
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
18
Inhalt
 Information Retrieval-Modelle: Systemarchitektur und Definition
 Überleitung vom Booleschen Modell zum Vektormodell
 Vektormodell
 Ziele, Definitionen
 Dokument- und Anfrage-Repräsentation
 Termgewichtungen: tf und idf
 Rankingfunktion
 Ähnlichkeitsmaße für Vektoren
 Ähnlichkeitsmaß Cosinus
 Bedeutung des Vektormodells
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
19
Vektormodell
Rankingfunktion
 Berechnung der Ähnlichkeit zwischen Anfrage und Dokument
nach einem Ähnlichkeitsmaß zwischen Vektoren
 Am häufigsten verwendetes Ähnlichkeitsmaß:
Cosinus des Winkels zwischen zwei Vektoren
 Andere Ähnlichkeitsmaße
 Dice-Koeffizient, Jaccard-Koeffizient,
Overlap-Koeffizient
 Euklidische Distanz
 …
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
20
Vektormodell
Ranking-Funktion: Cosinus-Formel
 Berechnung der Ähnlichkeit zweier Vektoren
nach dem Cosinus des Winkels zwischen den beiden Vektoren
b
a
a
Wertebereich
-1 <= cos <= 1
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
Winkel: Aussage über den Grad der
Gemeinsamkeit der Richtung
der Vektoren
(Richtung: ~ Thema im IR)
Cosinus: Aussage über einen Winkel
mit Wertebereich von
-1 bis +1
(bei Vektoren mit positiven Zahlen
von 0 bis +1)
Cosinus besser geeignet für Ranking-Angabe
als Winkel
21
Vektormodell
Ranking-Funktion: Cosinus-Formel
 Ähnlichkeit von Dokument dm und Anfrage q
sim(dm, q) 
dm  q
| dm |  | q |
 w w
 w   w
x

i 1
i, m
i, q
x
2
x
2
i 1
i ,m
i 1
i ,q
Anmerkung:
der Operator
steht grundsätzlich für die
eindeutige positive Lösung x2 = a
2
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
22
Vektormodell
Cosinus-Formel: Berechnungsbeispiel
 w w
 w   w
t1
4
3
1
x
sim(dm, q ) 
sim(d 1, q) 
i 1
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
i, q
x
2
x
2
i 1
i ,m
i 1
i ,q
(4 1)  (8  2)  (0  0)
2
4
sim(d 2, q) 
i, m
8  0 
2
2
2
1
2 0
2
2
(3 1)  (6  2)  (0  0)
3 6 0
2
2
2

1 2 0
2
2
2
t2
8
6
2
t3
0 d1
0 d2
0 q
1
d1
q
1
d2
q
23
Cosinus-Formel: Ableitung
sim(dm, q) 
dm  q
| dm |  | q |
 w w
 w   w
x

i, m
i 1
i, q
x
2
x
2
i 1
i ,m
i 1
i ,q
(1) Skalarprodukt
geometrische Formel
ab | a || b | cosa
(2) Skalarprodukt
arithmetische Formel
ab  a1b1  a2b2 ...anbn
(3) Umformung von (1)
cos a 
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
cos a 
a
a
a b
| a ||b |

 a
n
(4) Einsetzen von (2)
in (3)
b
i 1
n
2
i 1
i
ai  bi

 b
n
2
i 1
i
24
Vektormodell
Ein Beispiel
Dokumentvektor1:
Dokumentvektor2:
Queryvektor:
(4,8,0)
(3,6,0)
(1,2,0)
Term 1
Öl
4
3
1
Term 2
Preis
8
6
2
Term 3
Alaska
0
0
0
(vgl. Kowalski, 1997,153)
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
25
Vektormodell
Kommentar zum Beispiel
Ähnlichkeitsmaß: Cosinus-Formel
 Wenn Dokument- und Query-Vektor völlig ohne Beziehung sind,
sind die Vektoren orthogonal und der Cosinus-Wert ist 0
 Die Länge der Vektoren bleibt unberücksichtigt
Daher ist die Formel verschiedentlich weiterentwickelt worden
(Kowalski, 1997,153)
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
26
Inhalt
 Information Retrieval-Modelle: Systemarchitektur und Definition
 Überleitung vom Booleschen Modell zum Vektormodell
 Vektormodell
 Ziele, Definitionen
 Dokument- und Anfrage-Repräsentation
 Termgewichtungen: tf und idf
 Rankingfunktion
 Ähnlichkeitsmaße für Vektoren
 Ähnlichkeitsmaß Cosinus
 Bedeutung des Vektormodells
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
27
Vektormodell
Vorteile
 Termgewichtungsschema verbessert Retrievalergebnisse
 Strategie der partiellen Übereinstimmung ermöglicht Retrieval
von Dokumenten, die der Retrievalanfrage nahe kommen
 Cosinus-Ranking-Funktion ermöglicht Sortierung nach Grad der
Ähnlichkeit
(Baeza-Yates/Ribeiro-Neto, 1999,30)
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
28
Vektormodell
Nachteile
Annahme der Unabhängigkeit der Index-Terme
 Fall 1: Ist in der Praxis ein Vorteil
 Viele Abhängigkeiten sind lokal
 Lokale Eigenschaften würden Gesamtauswertung negativ
beeinflussen
(Baeza-Yates/Ribeiro-Neto, 1999,30)
 Fall 2: Ist problematisch
 Beispiel: Dokument mit zwei Schwerpunkten:
„Öl in Mexiko“
und
„Kohle in Pennsylvania“
hohe Werte für Anfrage: „Kohle in Mexiko“
(Kowalski, 1997, 105)
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
29
Vektormodell
Bedeutung




Mindestens genauso gut wie andere Modelle
Möglicherweise besser
Einfach
Schnell
(Baeza-Yates/Ribeiro-Neto, 1999,30)
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
30
Vielen Dank
Für das Aufspüren von Fehlern in früheren Versionen und für
Verbesserungsvorschläge danke ich
 Christian Roth
 Anand Mishra
Versionen:
25.10.2012, 25.10.2009, 13.10.2008, 20.12.2006, 24.10.2006,20.10.2006,26.10.2001
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
31
Literatur
 Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (1999):
Modern Information Retrieval.Essex: Addison Wesley Longman
Limited
 Ferber, Reginald (2003)
 Information Retrieval. Suchmodelle und Data-Mining-Verfahren für
Textsammlungen und das Web. Heidelberg: dpunkt-Verlag.
http://information-retrieval.de/irb/ir.html
 frühere Fassung (1998): Data Mining und Information Retrieval.
Skript zur Vorlesung an der TH Darmstadt WS 1998/99
 Kowalski, Gerald (1997): Information Retrieval Systems: Theory
and Implementation. Kluwer Academic Publishers:
Boston/Dordrecht/London.
 Robertson, S.E.; Sparck Jones, Karen (1976): Relevance
Weighting of Search Terms. In: Journal of the American Society
for Information Science. May-June, 129-146
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
32
Copyright

© Karin Haenelt, 2006
All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63 , etc.). shall
be applied to these slides. In accordance with these laws these slides are a
publication which may be quoted and used for non-commercial purposes, if the
bibliographic data is included as described below.

Please quote correctly.







If you use the presentation or parts of it for educational and scientific purposes, please include
the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course
slides, etc.).
please add a bibliographic reference to copies and quotations
Deletion or omission of the footer (with name, data and copyright sign) is not permitted
if slides are copied
Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Vektormodell.
Kursfolien. 25.10.2009 (1 26.10.2001)
http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_IR_Modelle_Vektor.pdf
graphics, texts or other objects which have not been created by me are marked
as quotations
For commercial use: In case you are interested in commercial use please
contact the author.
Court of Jurisdiction is Darmstadt, Germany
© Karin Haenelt, IR-Modelle:
Vektor-Modell, 25.10.2012
33