Generalisiertes Vektorraummodell (Generalized Vector Space Model)
Download
Report
Transcript Generalisiertes Vektorraummodell (Generalized Vector Space Model)
Generalisiertes Vektorraummodell
(Generalized Vector Space Model, GSVM)
Karin Haenelt
15.1.2014
Abkürzungen
n
di
t
ki
Anzahl der Dokumente in der Dokumentsammlung
Dokument in der Dokumentsammlung, 1 ≤ i ≤ n
Anzahl der Terme in einer Dokumentsammlung
Indexterm, 1 ≤ i ≤ t
Vektor zu Indexterm i , 1 ≤ i ≤ t
∊ , Gewicht des Term-Dokumentpaares [ki,di]
mini
minterm i, 1 ≤ i ≤ 2t
gi(mini) Funktion, die das Gewicht {0,1} des Indexterms ki im minTerm mj liefert.
vi
assoziierter Basis-Vektor zu minterm i, 1 ≤ i ≤ 2t
wi,j
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
2
Vektorraummodell
Annahme: Indexterme sind voneinander unabhängig
Formale Darstellung der Annahme der Unabhängigkeit
Darstellung der Terme durch Termvektoren k i
(Dimensionen sind Terme)
Kennzeichnung der Abhängigkeiten:
k ij 1 falls Term j von Term i abhängig ist
k ij 0 andernfalls
Annahme des Vektorraummodells:
kii = 1
kij = 0 ; i j
k 1 (1, 0 , 0 ,..., 0 )
k 2 ( 0 ,1, 0 ,..., 0 )
...
k t ( 0 , 0 , 0 ,..., 1)
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
3
Vektorraummodell
Annahme: Indexterme sind voneinander unabhängig
Definition: Sei k i ein Vektor zum Indexterm ki. Die Annahme der
Unabhängigkeit im Vektorraummodell impliziert, dass die Menge der
Vektoren k1 , k 2 ,..., k n linear unabhängig ist und eine Basis für den
betrachteten Unterraum bildet. Die Dimension dieses Raumes
entspricht der Anzahl t der Indexterme in der Dokumentsammlung.
Zumeist Annahme der paarweisen Orthogonalität zwischen
Indextermen, so dass für jedes Paar k i und k j gilt: k k 0
i
j
Baeza-Yates/Ribeiro-Neto, 1999, 41
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
4
Vektorraummodell
Dokument-Term-Vektoren
Dokumentrepräsentationen sind Linearkombinationen von
Termvektoren
sei { t i } die Menge der Termvektoren, 1 ≤ i ≤ t
sei n die Anzahl der Dokumente in einer Kollektion, 1 ≤ j ≤ n
sei dj ein Dokument der Kollektion
dann gibt es für jedes dj in der Kollektion eine Linearkombination
von Termvektoren, die dj repräsentiert
Beispiel
Linearkombination
Tupel-Schreibweise
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
d 5 1 t1 4 t 2 3 t 3 8 t 4
d 5 (1, 4 ,3,8 )
5
Vektorraummodell
Beispiel: Ranking-Ergebnis für Beispieldokumente
d1
d2
d3
d4
d5
d6
d7
q
k1
2
1
0
2
1
1
0
1
k2
0
0
1
0
2
2
5
2
k3
1
0
3
0
4
0
0
3
sim(di,q) (Cosinus)
0.5976
0.2673
0.9297
0.2673
0.9915
0.5976
0.5345
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
Rang
3
6
2
7
1
4
5
6
Generalisiertes Vektorraummodell
S. K. M. Wong, Woijciech Ziarko, Patrick C. N. Wong (1985).
Generalized Vector Spaces Model in Information Retrieval. In: SIGIR
'85 Proceedings of the 8th annual international ACM SIGIR conference
on Research and development in information retrieval. S. 18-25
Indexterme können abhängig sein
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
7
Generalisiertes Vektorraummodell
Annahme: Indexterme sind voneinander abhängig
Formale Darstellung der Annahme der Abhängigkeit
Termvektoren k i
sind keine orthogonalen Vektoren
bilden nicht die Basis des Vektorraumes
sind aus kleineren Komponenten zusammengesetzt, die
jeweils aus einer Kollektion hergeleitet werden
orthonormale Basis des Generalisierten Vektorraumes:
Modellierung der Term-Kookkurrenzen durch Minterme
Einführung einer Menge paarweise orthogonaler Vektoren v i ,
die den Mintermen zugeordnet werden
die Menge dieser paarweise orthogonalen Vektoren bildet die
orthonormaliserte Basis des Generalisierten Vektorraumes
Baeza-Yates/Ribeiro-Neto, 1999, 42
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
8
Generalisiertes Vektorraummodell
Modellierung von Term-Kookkurrenzmustern durch
Minterme
minterm
min1
min2
min3
min4
min5
min6
min7
min8
k1
0
1
0
1
0
1
0
1
k2
0
0
1
1
0
0
1
1
k3
0
0
0
0
1
1
1
1
…
Dokumente, die Term 1 und Term 2 enthalten
…
Dokumente, die alle Terme enthalten
wenn in einer Dokumentkollektion Dokumente enthalten sind,
deren Termkookkurrenz einem Minterm mini entspricht,
gilt der Minterm mini als aktiv.
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
9
Generalisiertes Vektorraummodell
Mintermen mini, Vektoren vi und
Zuordnung der Vektoren vi zu den Mintermen mini
minterm
min1
min2
min3
min4
min5
min6
min7
min8
k1
0
1
0
1
0
1
0
1
k2
0
0
1
1
0
0
1
1
k3
0
0
0
0
1
1
1
1
Minterme
modellieren
Termkookkurrenzmuster
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
Vektor
v1
v2
v3
v4
v5
v6
v7
v8
min1
1
0
0
0
0
0
0
0
min2
0
1
0
0
0
0
0
0
min3
0
0
1
0
0
0
0
0
min4
0
0
0
1
0
0
0
0
min5
0
0
0
0
1
0
0
0
min6
0
0
0
0
0
1
0
0
min7
0
0
0
0
0
0
1
0
min8
0
0
0
0
0
0
0
1
Vektoren vi,
orthonormale Basis
des Vektorraumes
10
Minterm
Definition
Definition: Sei (B,+, , ,0,1) eine Boolesche Algebra. Seien x1, x2, …, xn
n Variablen. Eine Konjunktion (Produkt) der Form y1 y2 … yn mit
yi = xi oder xi für 1 ≤ i ≤ n heißt Minterm in n Variablen x1, x2, … ,xn. ∎
n Variablen erzeugen 2n Minterme.
Beispiel für drei Variablen
Minterme erfüllen die folgenden
Bedingungen
mini minj = 0 für i j
2
n
min i 1
i 1
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
min1
min2
min3
min4
min5
min6
min7
min8
x1
1
1
1
1
0
0
0
0
x2
1
1
0
0
1
1
0
0
x3
1
0
1
0
1
0
1
0
Minterme modellieren Termkookkurrenzmuster
11
Generalisiertes Vektorraummodell
Annahme: Indexterme sind voneinander abhängig
Definition: Sei k1 , k 2 ,..., k n die Menge der Indexterme einer Kollektion,
sei wi,j das einem Term-Dokumentpaar [ki,dj] zugeordnete Gewicht.
Wenn die Gewichte alle binär sind, können alle möglichen TermKookkurrenz-Muster (innerhalb der Dokumente) durch eine Menge
von 2t Mintermen repräsentiert werden mit min1 = (0,0,…,0), min2 =
(1,0,…,0), …, min2t = (1,1, …, ).
Sei gi(mini) eine Funktion, die das Gewicht {0,1} des Indexterms ki im
Minterm minj liefert.
Baeza-Yates/Ribeiro-Neto, 1999, 42
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
12
Generalisiertes Vektorraummodell
Annahme: Indexterme sind voneinander abhängig
Definition:
vi
ist die folgende Menge von Vektoren
v 1 (1, 0 , 0 ,..., 0 )
v 2 ( 0 ,1, 0 ,..., 0 )
...
v 2 t ( 0 , 0 , 0 ,..., 1 )
und jeder Vektor v i ist dem entsprechenden Minterm mini
zugeordnet.
Es gilt v i v j 0 für alle i j . Die Vektoren sind paarweise othogonal.
Die Menge der Vektoren v i bildet die orthonormale Basis des
Generalsierten Vektorraummodells
Baeza-Yates/Ribeiro-Neto, 1999, 42
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
13
Generalisiertes Vektorraummodell
Berechnung des Termkookkurrenzfaktors cir
l
w
ci ,r
i, j
d j | g l ( d j ) g l ( min r ) für alle l
g l (d j )
Gewicht {0,1} von Term l in Dokument j
= Termokkurrenz von Term l in Dokument j
g l ( d j ) für alle l
Termokkurrenzmuster von Dokument j
g l ( min r )
Gewicht {0,1} von Term l in Minterm minr
g l ( min r ) für alle l
Termokkurrenzmuster von Minterm minr
g l ( d j ) g l ( min r ) für alle l
Termokkurrenzmuster von Dokument j
entspricht Minterm minr
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
14
Generalisiertes Vektorraummodell
Bestimmung des Termvektors ki zu Term ki
l
ki
r , g i ( min r ) 1
ci ,r v r
r , g i ( min r ) 1
ci ,r
2
Baeza-Yates/Ribeiro-Neto, 1999, 43
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
15
Generalisiertes Vektorraummodell
Beispiel
d1
d2
d3
d4
d5
d6
d7
q
k1
2
1
0
2
1
1
0
1
k2
0
0
1
0
2
2
5
2
k3
1
0
3
0
4
0
0
3
minterm
min6
min2
min7
min2
min8
min4
min3
minterm
min1
min2
min3
min4
min5
min6
min7
min8
k1
0
1
0
1
0
1
0
1
k2
0
0
1
1
0
0
1
1
k3
0
0
0
0
1
1
1
1
Wong, Ziarko, Wong, 1985 V: 6
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
16
Generalisiertes Vektorraummodell
Beispiel – Berechnung des Termkookkurrenzfaktors ci,r
ci ,r
w
i, j
d j | g l ( d j ) g l ( min r ) für alle l
k1
2
1
0
2
1
1
0
1
d1
d2
d3
d4
d5
d6
d7
q
cTerm1, Termkookkurrenzmuster2
cTerm1, Termkookkurrenzmuster4
cTerm1, Termkookkurrenzmuster6
cTerm1, Termkookkurrenzmuster6
=
=
=
=
k2
0
0
1
0
2
2
5
2
k3
1
0
3
0
4
0
0
3
minterm
min6
min2
min7
min2
min8
min4
min3
minterm
min1
min2
min3
min4
min5
min6
min7
min8
wTerm1,Dok2 + w1,4 = 1 + 2
w1,6
w1,1
w1,5
=
=
=
=
k1
0
1
0
1
0
1
0
1
k2
0
0
1
1
0
0
1
1
k3
0
0
0
0
1
1
1
1
3
1
2
1
Wong, Ziarko, Wong, 1985 V: 6
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
17
Generalisiertes Vektorraummodell
Beispiel: Berechnung des Termvektors ki zu Term ki
k1
k1
k1
c1 , 2 v 2 c1 , 4 v 4 c1 , 6 v 6 c1 , 8 v 8
2
2
2
c1 , 2 c1 , 4 c1 , 6 c1 , 8
2
ki
r , g i ( min r ) 1
ci ,r v r
r , g i ( min r ) 1
ci ,r
2
3 v 2 1v 4 2 v 6 1v 8
3 1 2 1
2
2
2
2
3 v 2 1v 4 2 v 6 1v 8
15
3
1
2
1
k1 0,
,0 ,
,0 ,
,0 ,
15
15
15
15
Wong, Ziarko, Wong, 1985 V: 6
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
18
Generalisiertes Vektorraummodell
Ranking
kombiniert die Gewichte des Standard-Vektorraummodells wi,j (TermDokument-Gewicht) mit dem Termkorrelationsfaktor ci,r
Umrechnung der Vektoren des klassischen Vektorraummodells
q w i ,q k i
i
und
in Vektoren des Generalisierten Vektorraummodells mit Formel
dj
ki
i
wi, j k i
r , g i ( min r ) 1
ci ,r v r
r , g i ( min r ) 1
ci ,r
2
Anwendung der Rankingfunktion auf diese Vektoren mit
Ähnlichkeitsfunktionen wie im Standard-Vektorraummodell
Baeza-Yates/Ribeiro-Neto, 1999, 43
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
19
Generalisiertes Vektorraummodell
Beispiel – Umrechnung der Dokumentvektoren
dj
i
wi, j k i
ki
r , g i ( min r ) 1
ci ,r v r
r , g i ( min r ) 1
ci ,r
2
d 1 w 1 ,1 k 1 w 2 , 1 k 2 w 3 , 1 k 3
d 1 2 k 1 0 k 2 1k 3
3
1
2
1
d 1 2 0,
,0 ,
,0 ,
,0 ,
1k 3
15
15
15
15
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
20
Generalisiertes Vektorraummodell
Bedeutung
unklar, in welchen Fällen das Generalisierte Vektorraummodell
bessere Ergebnisse liefert als das Standard-Vektormodell
erheblich höherer Rechenaufwand als für das StandardVektorraummodell
Anzahl der aktiven Minterme kann proportional zur Anzahl der
Dokumente in der Kollektion werden
alle aktiven Minterme müssen bei der Berechnung der kiVektoren berücksichtigt werden (maximale Anzahl = Anzahl der
Dokumente in der Kollektion)
Einführung einer Formalisierung, die theoretisch interessant ist
Baeza-Yates/Ribeiro-Neto, 1999, 44
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
21
Literatur
Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985). Generalized Vector Spaces Model in
Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR
conference on Research and development in information retrieval. S. 18-25
Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985V). Generalized Vector Spaces Model in
Information Retrieval. Vortragsfolien SIGIR 1985.
http://berlin.csie.ntnu.edu.tw/PastCourses/2003FInformationRetrievalandExtraction/Present_2003F/2003F_Generalized%20Vector%20Space%20Mo
del%20In%20Information%20Retrieval_%E5%BC%B5%E5%BF%97%E8%B1%AA.pdf
Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010). Modern Information Retrieval. Essex:
Addison Wesley Longman Limited.
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
22