Generalisiertes Vektorraummodell (Generalized Vector Space Model)

Download Report

Transcript Generalisiertes Vektorraummodell (Generalized Vector Space Model)

Generalisiertes Vektorraummodell
(Generalized Vector Space Model, GSVM)
Karin Haenelt
15.1.2014
Abkürzungen
n
di
t
ki
Anzahl der Dokumente in der Dokumentsammlung
Dokument in der Dokumentsammlung, 1 ≤ i ≤ n
Anzahl der Terme in einer Dokumentsammlung
Indexterm, 1 ≤ i ≤ t
Vektor zu Indexterm i , 1 ≤ i ≤ t
∊ , Gewicht des Term-Dokumentpaares [ki,di]
mini
minterm i, 1 ≤ i ≤ 2t
gi(mini) Funktion, die das Gewicht {0,1} des Indexterms ki im minTerm mj liefert.
vi
assoziierter Basis-Vektor zu minterm i, 1 ≤ i ≤ 2t
wi,j
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
2
Vektorraummodell
Annahme: Indexterme sind voneinander unabhängig
 Formale Darstellung der Annahme der Unabhängigkeit
 Darstellung der Terme durch Termvektoren k i
(Dimensionen sind Terme)
 Kennzeichnung der Abhängigkeiten:
 k ij  1 falls Term j von Term i abhängig ist
 k ij  0 andernfalls
 Annahme des Vektorraummodells:
 kii = 1
 kij = 0 ; i j
k 1  (1, 0 , 0 ,..., 0 )
k 2  ( 0 ,1, 0 ,..., 0 )
...
k t  ( 0 , 0 , 0 ,..., 1)
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
3
Vektorraummodell
Annahme: Indexterme sind voneinander unabhängig
 Definition: Sei k i ein Vektor zum Indexterm ki. Die Annahme der
Unabhängigkeit im Vektorraummodell impliziert, dass die Menge der
Vektoren  k1 , k 2 ,..., k n  linear unabhängig ist und eine Basis für den
betrachteten Unterraum bildet. Die Dimension dieses Raumes
entspricht der Anzahl t der Indexterme in der Dokumentsammlung.
 Zumeist Annahme der paarweisen Orthogonalität zwischen
Indextermen, so dass für jedes Paar k i und k j gilt: k  k  0
i
j
Baeza-Yates/Ribeiro-Neto, 1999, 41
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
4
Vektorraummodell
Dokument-Term-Vektoren
 Dokumentrepräsentationen sind Linearkombinationen von
Termvektoren
 sei { t i } die Menge der Termvektoren, 1 ≤ i ≤ t
 sei n die Anzahl der Dokumente in einer Kollektion, 1 ≤ j ≤ n
 sei dj ein Dokument der Kollektion
 dann gibt es für jedes dj in der Kollektion eine Linearkombination
von Termvektoren, die dj repräsentiert
 Beispiel
 Linearkombination
 Tupel-Schreibweise
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
d 5  1  t1  4  t 2  3  t 3  8  t 4
d 5  (1, 4 ,3,8 )
5
Vektorraummodell
Beispiel: Ranking-Ergebnis für Beispieldokumente
d1
d2
d3
d4
d5
d6
d7
q
k1
2
1
0
2
1
1
0
1
k2
0
0
1
0
2
2
5
2
k3
1
0
3
0
4
0
0
3
sim(di,q) (Cosinus)
0.5976
0.2673
0.9297
0.2673
0.9915
0.5976
0.5345
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
Rang
3
6
2
7
1
4
5
6
Generalisiertes Vektorraummodell
 S. K. M. Wong, Woijciech Ziarko, Patrick C. N. Wong (1985).
Generalized Vector Spaces Model in Information Retrieval. In: SIGIR
'85 Proceedings of the 8th annual international ACM SIGIR conference
on Research and development in information retrieval. S. 18-25
 Indexterme können abhängig sein
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
7
Generalisiertes Vektorraummodell
Annahme: Indexterme sind voneinander abhängig
 Formale Darstellung der Annahme der Abhängigkeit
 Termvektoren k i
 sind keine orthogonalen Vektoren
 bilden nicht die Basis des Vektorraumes
 sind aus kleineren Komponenten zusammengesetzt, die
jeweils aus einer Kollektion hergeleitet werden
 orthonormale Basis des Generalisierten Vektorraumes:
 Modellierung der Term-Kookkurrenzen durch Minterme
 Einführung einer Menge paarweise orthogonaler Vektoren v i ,
die den Mintermen zugeordnet werden
 die Menge dieser paarweise orthogonalen Vektoren bildet die
orthonormaliserte Basis des Generalisierten Vektorraumes
Baeza-Yates/Ribeiro-Neto, 1999, 42
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
8
Generalisiertes Vektorraummodell
Modellierung von Term-Kookkurrenzmustern durch
Minterme
minterm
min1
min2
min3
min4
min5
min6
min7
min8
k1
0
1
0
1
0
1
0
1
k2
0
0
1
1
0
0
1
1
k3
0
0
0
0
1
1
1
1
…
Dokumente, die Term 1 und Term 2 enthalten
…
Dokumente, die alle Terme enthalten
wenn in einer Dokumentkollektion Dokumente enthalten sind,
deren Termkookkurrenz einem Minterm mini entspricht,
gilt der Minterm mini als aktiv.
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
9
Generalisiertes Vektorraummodell
Mintermen mini, Vektoren vi und
Zuordnung der Vektoren vi zu den Mintermen mini
minterm
min1
min2
min3
min4
min5
min6
min7
min8
k1
0
1
0
1
0
1
0
1
k2
0
0
1
1
0
0
1
1
k3
0
0
0
0
1
1
1
1
Minterme
modellieren
Termkookkurrenzmuster
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
Vektor
v1
v2
v3
v4
v5
v6
v7
v8
min1
1
0
0
0
0
0
0
0
min2
0
1
0
0
0
0
0
0
min3
0
0
1
0
0
0
0
0
min4
0
0
0
1
0
0
0
0
min5
0
0
0
0
1
0
0
0
min6
0
0
0
0
0
1
0
0
min7
0
0
0
0
0
0
1
0
min8
0
0
0
0
0
0
0
1
Vektoren vi,
orthonormale Basis
des Vektorraumes
10
Minterm
Definition
 Definition: Sei (B,+, , ,0,1) eine Boolesche Algebra. Seien x1, x2, …, xn
n Variablen. Eine Konjunktion (Produkt) der Form y1 y2 … yn mit
yi = xi oder xi für 1 ≤ i ≤ n heißt Minterm in n Variablen x1, x2, … ,xn. ∎
 n Variablen erzeugen 2n Minterme.
 Beispiel für drei Variablen
 Minterme erfüllen die folgenden
Bedingungen
 mini minj = 0 für i j
 2
n
 min i  1
i 1
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
min1
min2
min3
min4
min5
min6
min7
min8
x1
1
1
1
1
0
0
0
0
x2
1
1
0
0
1
1
0
0
x3
1
0
1
0
1
0
1
0
Minterme modellieren Termkookkurrenzmuster
11
Generalisiertes Vektorraummodell
Annahme: Indexterme sind voneinander abhängig
 Definition: Sei  k1 , k 2 ,..., k n  die Menge der Indexterme einer Kollektion,
sei wi,j das einem Term-Dokumentpaar [ki,dj] zugeordnete Gewicht.
Wenn die Gewichte alle binär sind, können alle möglichen TermKookkurrenz-Muster (innerhalb der Dokumente) durch eine Menge
von 2t Mintermen repräsentiert werden mit min1 = (0,0,…,0), min2 =
(1,0,…,0), …, min2t = (1,1, …, ).
Sei gi(mini) eine Funktion, die das Gewicht {0,1} des Indexterms ki im
Minterm minj liefert.
Baeza-Yates/Ribeiro-Neto, 1999, 42
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
12
Generalisiertes Vektorraummodell
Annahme: Indexterme sind voneinander abhängig
 Definition:
vi
ist die folgende Menge von Vektoren
v 1  (1, 0 , 0 ,..., 0 )
v 2  ( 0 ,1, 0 ,..., 0 )
...
v 2 t  ( 0 , 0 , 0 ,..., 1 )
und jeder Vektor v i ist dem entsprechenden Minterm mini
zugeordnet.
 Es gilt v i  v j  0 für alle i  j . Die Vektoren sind paarweise othogonal.
 Die Menge der Vektoren v i bildet die orthonormale Basis des
Generalsierten Vektorraummodells
Baeza-Yates/Ribeiro-Neto, 1999, 42
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
13
Generalisiertes Vektorraummodell
Berechnung des Termkookkurrenzfaktors cir
 l
w
ci ,r 
i, j
d j | g l ( d j )  g l ( min r ) für alle l
g l (d j )
Gewicht {0,1} von Term l in Dokument j
= Termokkurrenz von Term l in Dokument j
g l ( d j ) für alle l
Termokkurrenzmuster von Dokument j
g l ( min r )
Gewicht {0,1} von Term l in Minterm minr
g l ( min r ) für alle l
Termokkurrenzmuster von Minterm minr
g l ( d j )  g l ( min r ) für alle l
Termokkurrenzmuster von Dokument j
entspricht Minterm minr
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
14
Generalisiertes Vektorraummodell
Bestimmung des Termvektors ki zu Term ki
 l
ki 

 r , g i ( min r )  1

ci ,r v r
 r , g i ( min r )  1
ci ,r
2
Baeza-Yates/Ribeiro-Neto, 1999, 43
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
15
Generalisiertes Vektorraummodell
Beispiel
d1
d2
d3
d4
d5
d6
d7
q
k1
2
1
0
2
1
1
0
1
k2
0
0
1
0
2
2
5
2
k3
1
0
3
0
4
0
0
3
minterm
min6
min2
min7
min2
min8
min4
min3
minterm
min1
min2
min3
min4
min5
min6
min7
min8
k1
0
1
0
1
0
1
0
1
k2
0
0
1
1
0
0
1
1
k3
0
0
0
0
1
1
1
1
Wong, Ziarko, Wong, 1985 V: 6
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
16
Generalisiertes Vektorraummodell
Beispiel – Berechnung des Termkookkurrenzfaktors ci,r
ci ,r 
w
i, j
d j | g l ( d j )  g l ( min r ) für alle l
k1
2
1
0
2
1
1
0
1
d1
d2
d3
d4
d5
d6
d7
q
cTerm1, Termkookkurrenzmuster2
cTerm1, Termkookkurrenzmuster4
cTerm1, Termkookkurrenzmuster6
cTerm1, Termkookkurrenzmuster6
=
=
=
=
k2
0
0
1
0
2
2
5
2
k3
1
0
3
0
4
0
0
3
minterm
min6
min2
min7
min2
min8
min4
min3
minterm
min1
min2
min3
min4
min5
min6
min7
min8
wTerm1,Dok2 + w1,4 = 1 + 2
w1,6
w1,1
w1,5
=
=
=
=
k1
0
1
0
1
0
1
0
1
k2
0
0
1
1
0
0
1
1
k3
0
0
0
0
1
1
1
1
3
1
2
1
Wong, Ziarko, Wong, 1985 V: 6
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
17
Generalisiertes Vektorraummodell
Beispiel: Berechnung des Termvektors ki zu Term ki
k1 
k1 
k1 
c1 , 2 v 2  c1 , 4 v 4  c1 , 6 v 6  c1 , 8 v 8
2
2
2
c1 , 2  c1 , 4  c1 , 6  c1 , 8
2
ki 

 r , g i ( min r )  1

ci ,r v r
 r , g i ( min r )  1
ci ,r
2
3 v 2  1v 4  2 v 6  1v 8
3 1  2 1
2
2
2
2
3 v 2  1v 4  2 v 6  1v 8
15
3
1
2
1 

k1   0,
,0 ,
,0 ,
,0 ,

15
15
15
15 

Wong, Ziarko, Wong, 1985 V: 6
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
18
Generalisiertes Vektorraummodell
Ranking
 kombiniert die Gewichte des Standard-Vektorraummodells wi,j (TermDokument-Gewicht) mit dem Termkorrelationsfaktor ci,r
 Umrechnung der Vektoren des klassischen Vektorraummodells

q   w i ,q k i
i
und
in Vektoren des Generalisierten Vektorraummodells mit Formel
dj 
ki 
i

wi, j k i
 r , g i ( min r )  1

ci ,r v r
 r , g i ( min r )  1
ci ,r
2
 Anwendung der Rankingfunktion auf diese Vektoren mit
Ähnlichkeitsfunktionen wie im Standard-Vektorraummodell
Baeza-Yates/Ribeiro-Neto, 1999, 43
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
19
Generalisiertes Vektorraummodell
Beispiel – Umrechnung der Dokumentvektoren
dj 

i
wi, j k i
ki 

 r , g i ( min r )  1

ci ,r v r
 r , g i ( min r )  1
ci ,r
2
d 1  w 1 ,1 k 1  w 2 , 1 k 2  w 3 , 1 k 3
d 1  2 k 1  0 k 2  1k 3
3
1
2
1 

d 1  2  0,
,0 ,
,0 ,
,0 ,
  1k 3
15
15
15
15


© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
20
Generalisiertes Vektorraummodell
Bedeutung
 unklar, in welchen Fällen das Generalisierte Vektorraummodell
bessere Ergebnisse liefert als das Standard-Vektormodell
 erheblich höherer Rechenaufwand als für das StandardVektorraummodell
 Anzahl der aktiven Minterme kann proportional zur Anzahl der
Dokumente in der Kollektion werden
 alle aktiven Minterme müssen bei der Berechnung der kiVektoren berücksichtigt werden (maximale Anzahl = Anzahl der
Dokumente in der Kollektion)
 Einführung einer Formalisierung, die theoretisch interessant ist
Baeza-Yates/Ribeiro-Neto, 1999, 44
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
21
Literatur



Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985). Generalized Vector Spaces Model in
Information Retrieval. In: SIGIR '85 Proceedings of the 8th annual international ACM SIGIR
conference on Research and development in information retrieval. S. 18-25
Wong, S. K. M., Woijciech Ziarko, Patrick C. N. Wong (1985V). Generalized Vector Spaces Model in
Information Retrieval. Vortragsfolien SIGIR 1985.
http://berlin.csie.ntnu.edu.tw/PastCourses/2003FInformationRetrievalandExtraction/Present_2003F/2003F_Generalized%20Vector%20Space%20Mo
del%20In%20Information%20Retrieval_%E5%BC%B5%E5%BF%97%E8%B1%AA.pdf
Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (Eds.) (2010). Modern Information Retrieval. Essex:
Addison Wesley Longman Limited.
© Karin Haenelt, Generalisiertes
Vektorraummodell, 15.1.2014
22