Bau effizienter und effektiver Metasuchmaschinen

Transcript Bau effizienter und effektiver Metasuchmaschinen

Bau effizienter und effektiver
Metasuchmaschinen
von Daniel Weichert
FU-Berlin
WS 03/04
Definition
„Eine Meta-Suchmaschine ist eine
Suchmaschine, deren wesentliches Merkmal
darin besteht, dass sie eine Suchanfrage an
mehrere andere Suchmaschinen weiterleitet,
die Ergebnisse sammelt und aufbereitet…“
(www.net-lexikon.de)
Global Interface
Search Engine
Daniel Weichert
Search Engine
FU-Berlin
Search Engine
2
Übersicht (1)





Vorteile von Metasuchmaschinen
Generelle Probleme durch unterschiedliche
Suchmaschinen
Architektur und Aufbau von MSMs
Funktionsweise einzelner MSMKomponenten
Weitere Herausforderungen
Daniel Weichert
FU-Berlin
3
Vorteile von Metasuchmaschinen




Erreichung höherer Internet-Abdeckung
Vorteile der Skalierbarkeit durch Nutzung
kleinerer (Spezial-)Suchmaschinen
Einfachere Benutzung bei „verstreuten
Daten“
Effizienteres Aussortieren nicht relevanter
Dokumente
Daniel Weichert
FU-Berlin
4
Übersicht (2)





Vorteile von Metasuchmaschinen
Generelle Probleme durch
unterschiedliche Suchmaschinen
Architektur und Aufbau von MSMs
Funktionsweise einzelner MSMKomponenten
Weitere Herausforderungen
Daniel Weichert
FU-Berlin
5
Generelle Probleme durch
unterschiedliche Suchmaschinen







Indexierungsmethode
Dokument-Term-Gewichtung
Anfrage-Term-Gewichtung
Vergleichs-Funktion
Dokument-Datenbank
Dokument-Version
Unvergleichbarkeit untereinander und
proprietäres Unwissen
Daniel Weichert
FU-Berlin
6
Übersicht (3)





Vorteile von Metasuchmaschinen
Generelle Probleme durch unterschiedliche
Suchmaschinen
Architektur und Aufbau von MSMs
Funktionsweise einzelner MSMKomponenten
Weitere Herausforderungen
Daniel Weichert
FU-Berlin
7
Aufbau einer Metasuchmaschine
„Architektur“ (1) User
1
User Interface
2
Database Selector
Search Engine
Daniel Weichert
Search Engine
FU-Berlin
8
Aufbau einer Metasuchmaschine
„Database Selector“

Auswahl nur sinnvoller Suchmaschinen



bei großer Suchmaschinenzahl
bei geringer Anzahl auszugebender Ergebnisse
Ressourceneinsparung




bei Anfrage-Weiterleitung in MSM-Umgebung
bei Anfrage-Auswertung in KomponentenSuchmaschine
durch weniger Netz-Verkehr
bei Rückgabe-Auswertung in MSM-Umgebung
Daniel Weichert
FU-Berlin
9
Aufbau einer Metasuchmaschine
„Architektur“ (2) User
1
User Interface
2
Database Selector
3
3
Document Selector
Search Engine
Daniel Weichert
Search Engine
FU-Berlin
10
Aufbau einer Metasuchmaschine
„Document Selector“

Auswahl zurückzugebender Dokumente





Direkte Beeinflussung der Rückgabe-Anzahl
Vergleich gegen einen „Ähnlichkeits-Grenzwert“
Maximale Anzahl sinnvoller Dokumente
Minimale Anzahl unnützer Dokumente
Durchführung für jede ausgewählte
Suchmaschine
Daniel Weichert
FU-Berlin
11
Aufbau einer Metasuchmaschine
„Architektur“ (3) User
1
User Interface
2
Database Selector
3
3
Document Selector
4
Query Dispatcher
5
5
Search Engine
Daniel Weichert
Search Engine
FU-Berlin
12
Aufbau einer Metasuchmaschine
„Query Dispatcher “

Verbindungsaufbau zu KomponentenSuchmaschinen



HTTP-Anfrage-Methode (GET/POST)
Suchanfrage-Format
Verändern der Suchanfrage


(Relative) Gewichtung der Anfrage-Terme
Anzahl der zurückzugebenden Dokumente
Daniel Weichert
FU-Berlin
13
Aufbau einer Metasuchmaschine
„Architektur“ (4) User
1
8
User Interface
2
Database Selector
3
7
3
Document Selector
Result Merger
4
Query Dispatcher
6
5
5
Search Engine
Daniel Weichert
Search Engine
FU-Berlin
14
Aufbau einer Metasuchmaschine
„Result Merger “

Verschmelzung der Rückgabe-Ergebnisse in
sinnvoller Weise



EINE Liste mit Ergebnissen
Beachtung der Dokument-Rückgabezahl der
MSM
Bewertung (ranking) auf Basis einer globalen
Vergleichsfunktion (gegeben durch MSM)
Daniel Weichert
FU-Berlin
15
Aufbau einer Metasuchmaschine
„Architektur“ (5) User
1
8
User Interface
2
Database Selector
3
7
3
Document Selector
Result Merger
4
Query Dispatcher
6
5
5
Search Engine
Daniel Weichert
Search Engine
FU-Berlin
16
Übersicht (4)





Vorteile von Metasuchmaschinen
Generelle Probleme durch unterschiedliche
Suchmaschinen
Architektur und Aufbau von MSMs
Funktionsweise einzelner MSMKomponenten
Weitere Herausforderungen
Daniel Weichert
FU-Berlin
17
Einzelne MSM-Komponenten
„Übersicht“ (1)



Suchmaschinen-Auswahl (database
selection)
Dokument-Auswahl (document selection)
Ergebnis-Verschmelzung (result merging)
Daniel Weichert
FU-Berlin
18
Einzelne MSM-Komponenten
„Database Selection“ (1)

Auswahl nur nützlicher Datenbanken mit Hilfe
von



einfachen Repräsentanten
statistischen Repräsentanten
lern-basierten Methoden
Daniel Weichert
FU-Berlin
19
Database Selection
„Einfache Repräsentanten“ (1)




Text-Beschreibung des Datenbank-Inhalts
Oftmals manuell erstellt
Vergleich Anfrage – Beschreibung
Verschiedene Techniken




Beschreibung des DB-Inhalts
Fachgebiets-Angabe plus Anfrage
Restrukturierung der Anfrage
Automatisch erstellte Repräsentanten (Bsp.:
Termvektoren als Repräsentanten)
Daniel Weichert
FU-Berlin
20
Database Selection
„Einfache Repräsentanten“ (2)
Beispiele:
NetSerf
ALIWEB
topic:
DOCUMENT
Perl
/public/perl/perl.html
Information on the Perl
Programming
Language. Includes a
local Hypertext Perl
Manual, and the latest
FAQ in Hypertext.
Keywords:
perl, perl-faq, language
Author-Handle: [email protected]
country
synset: [nation,
nationality, land,
country,
a_people]
synset: [state, nation,
country, land,
common-wealth,
res_publica,
body_politic]
synset: [country, state,
land, nation]
info-type: facts
Template-Type:
Title:
URI:
Description:
Daniel Weichert
FU-Berlin
21
Database Selection
„Einfache Repräsentanten“ (3)

Vorteile




Einfache Handhabung
Ressourcenschonend
Einsetzbar bei hoch spezialisierten Datenbanken
Nachteile



Datenbank-Beschreibung unzureichend
Eventuell Eingriff des Nutzers nötig bei DBAuswahl
Nicht gut einsetzbar bei umfassenden DB
Daniel Weichert
FU-Berlin
22
Einzelne MSM-Komponenten
„Database Selection“ (2)

Auswahl nur nützlicher Datenbanken mit Hilfe
von



einfachen Repräsentanten
statistischen Repräsentanten
lern-basierten Methoden
Daniel Weichert
FU-Berlin
23
Database Selection
„Statistische Repräsentanten“ (1)

Nutzung detaillierter Informationen einer KSM



Vorteil


über Dokument-Frequenz jedes Terms
über Durchschnitts-Gewicht eines Terms über alle
Dokumente …
Hohe Genauigkeit in Bestimmung der
Ähnlichkeiten von Dokumenten zu einer Anfrage
in einer KSM
Nachteil

Skalierbarkeit nicht immer optimal
Daniel Weichert
FU-Berlin
24
Database Selection
„Statistische Repräsentanten“ (2)

Methoden

Relative KSM-Bewertung


Absolute KSM-Bewertung



Relativer KSM-Ranking-Wert
Unabhängiger Ranking-Wert
Schätzung der Anzahl nützlicher Dokumente
Schätzung der globalen Ähnlichkeit des der
Anfrage am ähnlichsten Dokumentes
Daniel Weichert
FU-Berlin
25
Statistische Repräsentanten
„Ähnlichstes Dokument“ (1)

Definition:
Eine Menge von M Datenbanken ist optimal
gewichtet [D1, D2, …, DM], wenn es ein k gibt,
sodass D1, D2, …, Dk die m ähnlichsten
Dokumente beinhalten und jede Di (1<= i <= k)
mindestens eines der m Dokumente enthält.

Bedingung: msim(q, D1) > msim(q, D2) > …
msim(q, Di) = Globaler Vergleichswert des der
Anfrage ähnlichsten Dokumentes

Auswahl der ersten k KSMs
Daniel Weichert
FU-Berlin
26
Statistische Repräsentanten
„Ähnlichstes Dokument“ (2)

Bestimmung von msim(q, D):

Zwei Repräsentanten


Global: Globales inverses Dokument-Frequenz-Gewicht
gidfi für jeden Term ti
Lokal: Wertepaar (mnwi, anwi) mit
mnwi = Maximales normalisiertes Gewicht von ti
anwi = Durchschnittliches normalisiertes Gewicht von ti
Normalisiertes Gewicht = di / |d|
di = Gewicht von Term ti in Dokument d
|d| = Länge von Dokument d
Daniel Weichert
FU-Berlin
27
Statistische Repräsentanten
„Ähnlichstes Dokument“ (3)

Anfrage-Vektor q = (q1, q2, …, qk)
msim(q, D) =



Links: Anfrage-ähnlichstes Dokument hat
Maximumgewicht des i-ten Anfrage-Terms
/ |q|: Normalisierung von msim
Sortierung der KSMs nach msim(q, D)
Daniel Weichert
FU-Berlin
28
Statistische Repräsentanten
„Ähnlichstes Dokument“ (4)


Einfache Anpassung bei Wortzusammenhängen
Maximales normalisiertes Gewicht dominiert



üblicherweise um 2 oder mehr Ordnungen
wegen Einberechnungen der Null-Werte im
durchschnittlichen Gewicht
Einschränkung der Formel für msim(q, D) auf
msim(q, D) = max1<=i<=k {qi * ami} mit
ami = gidfi * mnwi [Angepasstes
normalisiertes Gewicht]
Daniel Weichert
FU-Berlin
29
Einzelne MSM-Komponenten
„Database Selection“ (3)

Auswahl nur nützlicher Datenbanken mit Hilfe
von



einfachen Repräsentanten
statistischen Repräsentanten
lern-basierten Methoden
Daniel Weichert
FU-Berlin
30
Database Selection
„Lern-basierte Methoden“


Nutzenbestimmung einer Datenbank durch
Erfahrungswerte
Verschiedene Techniken

Statisches Lernen


Dynamisches Lernen


MRDD (modeling relevant document distribution)
Ranking-Wert-Bestimmung u.a. durch „Maus-Klicks“
Kombination aus statischem und dynamischem
Lernen
Daniel Weichert
FU-Berlin
31
Statisches Lernen
„MRDD“ (1)



Bilden einer Menge von Trainings-Anfragen
Weiterleitung der T-Anfragen an alle KSM
Bilden eines Verteilungs-Vektors aus
relevanten Dokumenten pro T-Anfrage und
KSM


Identifikation der relevanten Dokumente aus
Rückgabeliste
Aufbau: Pro VV-Dimension Anzahl zu holender
Dokumente für nächstes relevantes Dokument
Daniel Weichert
FU-Berlin
32
Statisches Lernen
„MRDD“ (2)




Vergleich Benutzer-Anfrage/TrainingsAnfragen
Bestimmung der k ähnlichsten T-Anfragen
Pro KSM Errechnung eines DurchschnittsVerteilungs-Vektors der k T-Anfragen
Nutzung dieser Durchschnittsvektoren zur
KSM-Auswahl mit Blick auf PrecisionMaximierung
Daniel Weichert
FU-Berlin
33
Statisches Lernen
„MRDD“ (3)

Beispiel (Aufbau eines Verteilungsvektors):
Für T-Anfrage wurden 100 Dokumente in KSM
gefunden
(d1, d2, …, d100) [in dieser Reihenfolge]
Relevante Dokumente: d1, d6, d20, d88
Verteilungsvektor: {1, 6, 20, 88}
Daniel Weichert
FU-Berlin
34
Statisches Lernen
„MRDD“ (4)

Beispiel-Fortsetzung (KSM-Auswahl):
Durchschnitts-Vektoren:
D1: {1, 4, 6, 7, 10, 12, 17}
D2: {3, 5, 7, 9, 15, 20}
D3: {2, 3, 6, 9, 11, 16}
Anzahl auszugebender Dokumente:
m=3
Dokumentzahl pro KSM:
m1 = 1; m3 = 3
=>
Precision = 0,75
KSM-Auswahl:
D1, D3
Daniel Weichert
FU-Berlin
35
Suchmaschinen-Auswahl
„Zusammenfassung“


Einfache Repräsentanten
Statistische Repräsentanten


„Ähnlichstes Dokument“
Lern-basierte Methoden

MRDD
Daniel Weichert
FU-Berlin
36
Einzelne MSM-Komponenten
„Übersicht“ (2)



Suchmaschinen-Auswahl (database
selection)
Dokument-Auswahl (document selection)
Ergebnis-Verschmelzung (result merging)
Daniel Weichert
FU-Berlin
37
Einzelne MSM-Komponenten
„Document Selection“

Einschränkung der Ergebnis-DokumentenAnzahl




Entscheidung durch Benutzer
(Datenbank-)Gewichtete Auswahl
Lern-basierte Methoden
Garantierte Rückgabe (guaranteed retrieval)
Daniel Weichert
FU-Berlin
38
Document Selection
„Benutzer-Entscheidung“

Benutzer-Entscheidung über Maximalanzahl
der Rückgabe-Dokumente pro KSM

Vorteil


Einfachst-Implementierung
Nachteile


Nur bei kleiner KSM-Zahl und großem Wissen
über selbige günstig
Uneffektiv, wenn Dokument-Anzahl pauschal
angegeben (pro KSM
Dokumente)
Daniel Weichert
FU-Berlin
39
Document Selection
„Gewichtete Auswahl“

Mehr Dokumente von gewichtigeren (nach
‚database selection‘) KSM
Basierend auf ‚ranking score‘ oder ‚db rank‘

Vorteile




Einfache Implementierung
Vernünftige Grundlage
Nachteil

Möglicherweise zu wenig nützliche Dokumente
Daniel Weichert
FU-Berlin
40
Document Selection
„Lern-basierte Methoden“

Rückblick auf Retrieval-Erfahrungen


MRDD (modeling relevant document distribution)
QC (query clustering)
Daniel Weichert
FU-Berlin
41
Document Selection
„Lern-basiertes Query Clustering“ (1)


Trainingsphase mit „Übungs-Anfragen“
Clustering dieser Anfragen innerhalb jeder
KSM
Anfragen
Rückgabe-Dokumente
T-Anfrage 1
Dokument A, Dokument C, Dokument D
T-Anfrage 2
Dokument B, Dokument C, Dokument D
T-Anfrage 3
Dokument E, Dokument F, Dokument G
T-Anfrage 4
Dokument E, Dokument H, Dokument I
T-Anfrage 5
Dokument E, Dokument F, Dokument I
Daniel Weichert
FU-Berlin
Cluster
T-Anfrage 1
T-Anfrage 2
T-Anfrage 3
T-Anfrage 5
T-Anfrage 4
T-Anfrage 5
42
Document Selection
„Lern-basiertes Query Clustering“ (2)


Bilden des Durchschnittsvektors (centroid)
der Anfrage-Vektoren pro Cluster
Gewichtung der Cluster auf Basis



der Durchschnitts-Anzahl der relevanten
Dokumente
aus den besten T ausgegebenen Dokumenten
Clustergewicht ~ ‚Precision‘ der Anfragen
innerhalb des Clusters
Daniel Weichert
FU-Berlin
43
Document Selection
„Lern-basiertes Query Clustering“ (3)


Wahl des Clusters pro KSM nach Ähnlichkeit
mit Benutzer-Anfrage m.H. des ‚centroid‘
Nutzung aller ausgewählten ClusterGewichtungen zur Dokument-Auswahl
Dokumentanzahl aus KSM Di =
m = Gesamtzahl zurückzugebender Dokumente
wi = Gewicht des Anfrage-Clusters von Di
N = Anzahl der KSMs
Daniel Weichert
FU-Berlin
44
Document Selection
„Lern-basiertes Query Clustering“ (4)

Vorteile


Gute Ergebnisse bei großer Ähnlichkeit von
Trainings- und Benutzer-Anfragen
Nachteile



Schlechte Anpassungsfähigkeit des Verfahrens
Schwierige Auswahl der Trainings-Anfragen
Großer Zeitaufwand beim Filtern der relevanten
Dokumente bei hoher Zahl von TrainingsAnfragen
Daniel Weichert
FU-Berlin
45
Document Selection
„Garantierte Rückgabe“

Mitbetrachtung der globalen Vergleichsfunktionen




Umgehung von KSM-Unterschiedlichkeits-Problemen
Effektivitäts-Steigerung bei Filterung nützlicher und
unnützer Dokumente
Ziel: Rückgabe aller nützlichen bei Minimierung von
nutzlosen Dokumenten
Methoden


Anfrage-Modifikation
Berechnung des kleinsten lokalen Grenzwertes
Daniel Weichert
FU-Berlin
46
Garantierte Rückgabe
„Anfrage-Modifikation“



Veränderung der Anfrage vor Weiterleitung
an KSM
Ziel: Rückgabe der KSM-Dokumente in
Reihenfolge der globalen Ähnlichkeiten
Nachteile


Nicht jede Kombination von lokalen und globalen
Vergleichs-Funktionen möglich
Wissen über Vergleichs-Funktion und TermGewichtungs-Formel nötig
Daniel Weichert
FU-Berlin
47
Garantierte Rückgabe
„Kleinster lokaler Grenzwert“

Finden eines Ähnlichkeits-Grenzwertes pro
KSM, bei dem



alle relevanten Dokumente ausgegeben werden
keine unnützen Dokumente zurückgegeben
werden
Nachteile


Lösungsfindung für jedes Globale-LokaleVergleichsfunktions-Paar einzeln
Lösung existiert nicht immer
Daniel Weichert
FU-Berlin
48
Dokument-Auswahl
„Zusammenfassung“



Benutzer-Entscheidung
Gewichtete Auswahl
Lern-basierte Methoden


Query Clustering
Garantierte Rückgabe
Daniel Weichert
FU-Berlin
49
Einzelne MSM-Komponenten
„Übersicht“ (3)



Suchmaschinen-Auswahl (database
selection)
Dokumenten-Auswahl (document selection)
Ergebnis-Verschmelzung (result merging)
Daniel Weichert
FU-Berlin
50
Einzelne MSM-Komponenten
„Result Merging“ (1)

Verschmelzung der Such-Ergebnisse in



eine Liste
mit Bewertungen nach globaler Ähnlichkeit
Schwierigkeiten



KSM-Ranking mit eigener Vergleichsfunktion
Ähnlichkeitswert nicht unbedingt öffentlich
Mehrfache Rückgabe von Dokumenten
Daniel Weichert
FU-Berlin
51
Einzelne MSM-Komponenten
„Result Merging“ (2)

Lokale Ähnlichkeits-Anpassung



Nutzung zusätzlicher Informationen (KSMBewertung o.ä.)
Umwandlung von Dokument-Rang in
Vergleichswert
Globale Ähnlichkeits-Schätzung


Berechnung oder
Schätzung globaler Vergleichswerte von
Dokumenten
Daniel Weichert
FU-Berlin
52
Result Merging
„Local Similarity Adjustment“ (1)

Überlappungs-Möglichkeiten



Keine Überlappungen -> KSMs paarweise
disjunkt
Überlappungen, aber KSMs nicht identisch
KSMs sind identisch



Daniel Weichert
‚Data Fusion‘ – Nutzung verschiedener RankingMethoden für höhere Rückgabe-Effektivität
Ergebnis-Findung durch Anwendung einfacher
Funktionen (max, Summe, …)
Tritt nicht in MSMs auf
FU-Berlin
53
Result Merging
„Local Similarity Adjustment“ (2)

Einfach bei gegebenen lokalen
Vergleichswerten


Normalisierung der Vergleichswerte (0 < s <= 1)
Bsp.:
sd = Lokaler Vergleichswert von Dokument d
wD = Ranking-Wert von KSM D
Daniel Weichert
FU-Berlin
54
Result Merging
„Local Similarity Adjustment“ (3)

Nutzung des Dokument-Ranges ohne lokalen
Vergleichswert


Direkte Nutzung des Dokument-Ranges
Umwandlung von Dokument-Rängen in
Vergleichswerte
Daniel Weichert
FU-Berlin
55
Result Merging
„Local Similarity Adjustment“ (4)

Direkte Nutzung des Dokument-Ranges



Reihum nächst bestes Dokument der nächst besten KSM
in Liste einfügen
„Zufällige“ Auswahl (MRDD KSM-Auswahl)
Umwandlung von Dokument-Rängen
r = Lokaler Dokument-Rang
ri = Ranking-Wert von KSM Di
rmin = Niedrigster KSM-Ranking-Wert
m = Anzahl aller auszugebender Dokumente
Daniel Weichert
FU-Berlin
56
Result Merging
„Local Similarity Adjustment“ (5)


Problem: Vorhandensein eines Dokumentes
in mehreren KSMs
Lösungen



Nicht unbedingt sinnvoll bei MSM



Durchführung von LSA-Verfahren
danach Ergebnis-Behandlung wie in Pro-Fusion
KSM sieht Dokument nicht als sinnvoll an
Dokument eventuell in KSM nicht vorhanden
Forschungsgebiet
Daniel Weichert
FU-Berlin
57
Result Merging
„Global Similarity Estimation“

Berechnung oder Schätzung von globalen
Vergleichswerten


Dokument-Download (document fetching)
Nutzen von „gefundenem Wissen“




Daniel Weichert
Herausfinden von Indizierungs-Methode und VergleichsFunktion möglich
Wissen über Vergleichbarkeit von Vergleichsfunktionen,
Anpassungs-Möglichkeiten von Vergleichsfunktionen,
Bewertung von lokalen Vergleichsfunktionen in Hinblick
auf die globalen
FU-Berlin
58
Global Similarity Estimation
„Document Fetching“ (1)

Dokument wird normalerweise nicht
„mitgeliefert“



URL
höchstens eine Zusammenfassung
Download der KSM-Dokumente


Errechnung sämtlicher globaler VergleichsFunktionsparameter möglich (Kosinus-Funktion)
Globale Dokument-Frequenz ist Summe aller
lokalen Dokument-Frequenzen (bei wenig
Überlappung)
Daniel Weichert
FU-Berlin
59
Global Similarity Estimation
„Document Fetching“ (2)

Vorteile




Herausfiltern von nicht erreichbaren URLs
Ranking auf Basis aktueller Dokumente
Markierung der Suchwörter möglich
Nachteile

Zeit- und Ressourcenaufwendig


Daniel Weichert
Viele Dokumente (aber paralleles Downloaden)
Große Dokumente (aber nur Download des
Dokumentanfangs)
FU-Berlin
60
Ergebnis-Verschmelzung
„Zusammenfassung“


Lokale Vergleichswert-Anpassung
Globale Vergleichswert-Schätzung
Daniel Weichert
FU-Berlin
61
Übersicht





Vorteile von Metasuchmaschinen
Generelle Probleme durch unterschiedliche
Suchmaschinen
Architektur und Aufbau von MSMs
Funktionsweise einzelner MSMKomponenten
Weitere Herausforderungen
Daniel Weichert
FU-Berlin
62
Weitere Herausforderungen (1)





Integration lokaler Systeme mit
verschiedenen Indexierungsmethoden
Integration lokaler Systeme mit
verschiedenen Anfrage-Mustern
Informationsfindung zu KomponentenSuchmaschinen
Effektivere Ergebnis-Verschmelzung
Zusammenarbeit von MSM und
Komponenten-Suchmaschinen
Daniel Weichert
FU-Berlin
63
Weitere Herausforderungen (2)




Neue Indexierungs- und
Gewichtungsmethoden
Verbesserung der Effektivität der Metasuche
Verteilung der MSM-Komponenten
Standard-Fälle für Tests von „database
selection“, „document selection“ und „result
merging“
Daniel Weichert
FU-Berlin
64
Zusammenfassung


Aufbau einer Metasuchmaschine
MSM-Bauteil-Funktionen



Database Selector
Document Selector
Result Merger
Daniel Weichert
FU-Berlin
65
Quellenangaben


Weiyi Meng, Clement Yu, King-Lup Liu
“Building efficient and effective metasearch
engines” (ACM Computing Surveys, Volume
34 Issue 1. March 2002)
www.net-lexikon.de
Daniel Weichert
FU-Berlin
66

Bau effizienter und effektiver Metasuchmaschinen

Transcript Bau effizienter und effektiver Metasuchmaschinen

Directory