Transcript ppt
Information Retrieval Modelle: Vektor-Modell Karin Haenelt 25.10.2012 1 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 2 Grundkomponenten des Information Retrieval D Dokumente D1 Analyse Repräsentation R(qk,dm) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 Analyse Ähnlichkeit: - Matching - Ranking Dokumente D2 D2 Q Anfrage Komponenten der Modelldefinition D1 Repräsentation 3 Information-Retrieval-Modell: Definition Ein Information-Retrieval-Modell ist ein Quadrupel (D,Q,F,R(qk,dm)) Dokument-Repräsentation Menge logischer Sichten auf Dokumente Query-Repräsentation Q Menge logischer Sichten auf Anfragen (Queries Modellierungsrahmen (Framework) für F - Dokumentrepräsentationen D - Queries Q - Beziehungen zwischen D und Q R(qk,dm) Ranking-Funktion ordnet einer Query qk aus Q und einem Dokument dm aus D einen Wert zu, der die Reihenfolge der Dokumente aus D bezüglich einer Query qk definiert D © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 4 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 5 Boolesches Modell und Vektormodell Dokument- und Anfrage-Repräsentation binär (Boolesches Modell) Dokumentvektor: Anfragevektor: (1,1,0) (1,1,0) Term 1 Öl Term 2 Preis Term 3 Alaska 1 1 0 1 1 0 4 8 0 3 6 0 Frequenz (Vektormodell) Dokumentvektor: Anfragevektor: © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 (4,8,0) (3,6,0) 6 Boolesches Modell und Vektormodell Illustration der Dokumentvektoren durch geometrische Interpretation Term 1 Öl Term 2 Preis Term 3 Alaska binär (Boolesches Modell) 1 1 0 Frequenz (Vektormodell) 2 4 0 Preis Öl © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 7 Boolesches Modell und Vektormodell Vergleich Boolesches Modell Vektormodell D, Q Repräsentation Termvorkommen Termfrequenz F Framework Boolesche Algebra Vektoralgebra R Ranking – Berechnung der Ähnlichkeit zwischen Anfragevektor und Dokumentvektor Wahrheitswert der konjunktiven Verknüpfung von D und Q Ähnlichkeitsmaß für Vektoren D und Q - Passt / passt nicht zur Anfrage - Menge -Numerische Ähnlichkeitswerte - geordnete Liste Ergebnis © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 8 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 9 Vektormodell Ziele Berücksichtigung partieller Übereinstimmung zwischen Anfragetermen und Dokumenttermen durch nicht-binäre Werte für Termgewichtung Berechnung der Ähnlichkeit zwischen Anfragetermen und Dokumenttermen Sortierung von Dokumenten nach Grad der Ähnlichkeit Präzisere Beantwortung der Anfrage als Boolesches Modell (Baeza-Yates/Ribeiro-Neto, 1999,27) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 10 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 11 Vektormodell Dokument- und Query-Vektoren: Definition wi,m Gewicht für des Terms i in Dokument m; positiv, nicht binär wi,k Gewicht des Terms i in Query k x Anzahl der Index-Terme im System dm (w1, m, w2, m,...,wx, m) qk (w1, k , w2, k ,...,wx, k ) Dokument-Vektor Query-Vektor (Baeza-Yates/Ribeiro-Neto, 1999,27) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 12 Vektormodell Termgewichtungen einfache Häufigkeit berücksichtigt Dokumentlänge nicht ergibt keine normalisierten Termvektoren nur mit normalisierenden Ähnlichkeitsmaßen (z.B. Cosinus) sinnvoll verwendbar tf: normalisierte Termfrequenz (Term-Frequenz) berücksichtigt Dokumentlänge ergibt normalisierte Termvektoren tf-idf-Gewichtung (Term-Frequenz–inverse Dokument-Frequenz) berücksichtigt die Häufigkeitsverteilung von Termen im Corpus Terme, die in vielen Dokumenten vorkommen haben möglicherweise wenig Unterscheidungswert werden abgewertet © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 13 Vektormodell Termgewichtungen: tf, idf tf Termfrequenz-Faktor Bedeutung: relative Anzahl der Vorkommen von Term ti in Dokument dm Zweck: soll besagen, wie gut ein Term den Inhalt eines Dokuments beschreibt idf inverse Dokument-Frequenz Sinn: Terme, die in vielen Dokumenten vorkommen, sind möglicherweise nicht nützlich zur Differenzierung relevanter und irrelevanter Dokumente (Baeza-Yates/Ribeiro-Neto, 1999,29) Beispiel: ein d1 200 d2 150 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 Brot 50 50 und 100 150 Bier 50 50 bei ungewichteter Anfrage „ein, Brot. und, ein, Bier“ würden hier die Vorkommen von „ein“ und „und“ über die Ähnlichkeit entscheiden 14 Vektormodell Termgewichtungen: tf, idf normalisierte Termfrequenz tf-Formel inverse Dokumentfrequenz wi , m freqi , m tfi , m max l freql , m idf i log N ni Termgewichtung mit tf-idf-Formel wi,m tfi,m idfi mit dieser Formel erhält man für alle Terme Gewichte mit den Werten 0 ≤ wi,m ≤ 1 N ti ni freqi,m maxl freql,m tfi,m idfi Gesamtzahl der Dokumente im System Indexterm Anzahl der Dokumente, in denen Term ti vorkommt Anzahl der Erwähnungen von Term ti in Dokument dm Frequenz des höchstfrequenten Terms in Dok. dm normalisierte Frequenz von Term ti in Dokument dm inverse Dokumentfrequenz von Term i © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 15 Gesamtzahl der Dokumente im System: Index-Terme: „Öl“ „Mexiko“ „Raffinerie“ N=2048 in in in 128 Dokumenten 16 Dokumenten 1024 Dokumenten Beispiel-Dokument: Öl M. R. 4 8 10 Termfreq normalisierte Termfreq tf freqi , m fi , m max l freql , m 4 8 10 ( , , ) 10 10 10 0.4 0.8 1.0 N inverse idf i log Dokfreq idf ni tf-idfGewichtg. 2048 2048 2048 (2 log ,2 log ,2 log ) 128 16 1024 (2 log16,2 log128,2 log 2) N wi , m fi , m log (0.4 4,0.8 7,1.0 1) ni © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 4 7 1 1.6 5.6 1.0 16 Vektormodell Termgewichtungen – inverse Dokumentfrequenz Termgwicht Mexiko . . Öl . . Raffinerie 0 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 200 400 600 800 1000 1200 Dok.Frequenz des Terms 17 Vektormodell Termgewichtungen – Erläuterungen des Beispiels Der signifikanteste Term für das Beispieldokument ist „Mexiko“, da „Mexiko“ außer im Beispieldokument nur in 15 weiteren Dokumenten vorkommt Der am häufigsten im Beispieldokument vorkommende Term „Raffinerie“ ist weniger signifikant, da er in 50% der Dokumente vorkommt (Kowalski, 1997, 105) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 18 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele, Definitionen Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 19 Vektormodell Rankingfunktion Berechnung der Ähnlichkeit zwischen Anfrage und Dokument nach einem Ähnlichkeitsmaß zwischen Vektoren Am häufigsten verwendetes Ähnlichkeitsmaß: Cosinus des Winkels zwischen zwei Vektoren Andere Ähnlichkeitsmaße Dice-Koeffizient, Jaccard-Koeffizient, Overlap-Koeffizient Euklidische Distanz … © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 20 Vektormodell Ranking-Funktion: Cosinus-Formel Berechnung der Ähnlichkeit zweier Vektoren nach dem Cosinus des Winkels zwischen den beiden Vektoren b a a Wertebereich -1 <= cos <= 1 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 Winkel: Aussage über den Grad der Gemeinsamkeit der Richtung der Vektoren (Richtung: ~ Thema im IR) Cosinus: Aussage über einen Winkel mit Wertebereich von -1 bis +1 (bei Vektoren mit positiven Zahlen von 0 bis +1) Cosinus besser geeignet für Ranking-Angabe als Winkel 21 Vektormodell Ranking-Funktion: Cosinus-Formel Ähnlichkeit von Dokument dm und Anfrage q sim(dm, q) dm q | dm | | q | w w w w x i 1 i, m i, q x 2 x 2 i 1 i ,m i 1 i ,q Anmerkung: der Operator steht grundsätzlich für die eindeutige positive Lösung x2 = a 2 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 22 Vektormodell Cosinus-Formel: Berechnungsbeispiel w w w w t1 4 3 1 x sim(dm, q ) sim(d 1, q) i 1 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 i, q x 2 x 2 i 1 i ,m i 1 i ,q (4 1) (8 2) (0 0) 2 4 sim(d 2, q) i, m 8 0 2 2 2 1 2 0 2 2 (3 1) (6 2) (0 0) 3 6 0 2 2 2 1 2 0 2 2 2 t2 8 6 2 t3 0 d1 0 d2 0 q 1 d1 q 1 d2 q 23 Cosinus-Formel: Ableitung sim(dm, q) dm q | dm | | q | w w w w x i, m i 1 i, q x 2 x 2 i 1 i ,m i 1 i ,q (1) Skalarprodukt geometrische Formel ab | a || b | cosa (2) Skalarprodukt arithmetische Formel ab a1b1 a2b2 ...anbn (3) Umformung von (1) cos a © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 cos a a a a b | a ||b | a n (4) Einsetzen von (2) in (3) b i 1 n 2 i 1 i ai bi b n 2 i 1 i 24 Vektormodell Ein Beispiel Dokumentvektor1: Dokumentvektor2: Queryvektor: (4,8,0) (3,6,0) (1,2,0) Term 1 Öl 4 3 1 Term 2 Preis 8 6 2 Term 3 Alaska 0 0 0 (vgl. Kowalski, 1997,153) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 25 Vektormodell Kommentar zum Beispiel Ähnlichkeitsmaß: Cosinus-Formel Wenn Dokument- und Query-Vektor völlig ohne Beziehung sind, sind die Vektoren orthogonal und der Cosinus-Wert ist 0 Die Länge der Vektoren bleibt unberücksichtigt Daher ist die Formel verschiedentlich weiterentwickelt worden (Kowalski, 1997,153) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 26 Inhalt Information Retrieval-Modelle: Systemarchitektur und Definition Überleitung vom Booleschen Modell zum Vektormodell Vektormodell Ziele, Definitionen Dokument- und Anfrage-Repräsentation Termgewichtungen: tf und idf Rankingfunktion Ähnlichkeitsmaße für Vektoren Ähnlichkeitsmaß Cosinus Bedeutung des Vektormodells © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 27 Vektormodell Vorteile Termgewichtungsschema verbessert Retrievalergebnisse Strategie der partiellen Übereinstimmung ermöglicht Retrieval von Dokumenten, die der Retrievalanfrage nahe kommen Cosinus-Ranking-Funktion ermöglicht Sortierung nach Grad der Ähnlichkeit (Baeza-Yates/Ribeiro-Neto, 1999,30) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 28 Vektormodell Nachteile Annahme der Unabhängigkeit der Index-Terme Fall 1: Ist in der Praxis ein Vorteil Viele Abhängigkeiten sind lokal Lokale Eigenschaften würden Gesamtauswertung negativ beeinflussen (Baeza-Yates/Ribeiro-Neto, 1999,30) Fall 2: Ist problematisch Beispiel: Dokument mit zwei Schwerpunkten: „Öl in Mexiko“ und „Kohle in Pennsylvania“ hohe Werte für Anfrage: „Kohle in Mexiko“ (Kowalski, 1997, 105) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 29 Vektormodell Bedeutung Mindestens genauso gut wie andere Modelle Möglicherweise besser Einfach Schnell (Baeza-Yates/Ribeiro-Neto, 1999,30) © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 30 Vielen Dank Für das Aufspüren von Fehlern in früheren Versionen und für Verbesserungsvorschläge danke ich Christian Roth Anand Mishra Versionen: 25.10.2012, 25.10.2009, 13.10.2008, 20.12.2006, 24.10.2006,20.10.2006,26.10.2001 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 31 Literatur Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (1999): Modern Information Retrieval.Essex: Addison Wesley Longman Limited Ferber, Reginald (2003) Information Retrieval. Suchmodelle und Data-Mining-Verfahren für Textsammlungen und das Web. Heidelberg: dpunkt-Verlag. http://information-retrieval.de/irb/ir.html frühere Fassung (1998): Data Mining und Information Retrieval. Skript zur Vorlesung an der TH Darmstadt WS 1998/99 Kowalski, Gerald (1997): Information Retrieval Systems: Theory and Implementation. Kluwer Academic Publishers: Boston/Dordrecht/London. Robertson, S.E.; Sparck Jones, Karen (1976): Relevance Weighting of Search Terms. In: Journal of the American Society for Information Science. May-June, 129-146 © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 32 Copyright © Karin Haenelt, 2006 All rights reserved. The German Urheberrecht (esp. § 2, § 13, § 63 , etc.). shall be applied to these slides. In accordance with these laws these slides are a publication which may be quoted and used for non-commercial purposes, if the bibliographic data is included as described below. Please quote correctly. If you use the presentation or parts of it for educational and scientific purposes, please include the bibliographic data (author, title, date, page, URL) in your publication (book, paper, course slides, etc.). please add a bibliographic reference to copies and quotations Deletion or omission of the footer (with name, data and copyright sign) is not permitted if slides are copied Bibliographic data. Karin Haenelt. Information Retrieval Modelle. Vektormodell. Kursfolien. 25.10.2009 (1 26.10.2001) http://kontext.fraunhofer.de/haenelt/kurs/folien/Haenelt_IR_Modelle_Vektor.pdf graphics, texts or other objects which have not been created by me are marked as quotations For commercial use: In case you are interested in commercial use please contact the author. Court of Jurisdiction is Darmstadt, Germany © Karin Haenelt, IR-Modelle: Vektor-Modell, 25.10.2012 33