Aufbau Integrierter Informationssysteme Datenintegration

Transcript Aufbau Integrierter Informationssysteme Datenintegration

Aufbau Integrierter
Informationssysteme
Suchmaschinen
Michael Schmidt, Marco Schopp
Martin-Luther-Universität Halle-Wittenberg
Hauptseminar - Halle - 16.07.2015
Gliederung
• Warum
• Arten von
Suchmaschinen
• Architektur von
• Aufgaben von
• Suchmodi und Suchoperatoren
• Zusammenfassung
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Warum Suchmaschinen?
• Existieren über 320 Mio. Seiten
• um in dieses „Chaos“ eine gewisse Ordnung zu bringen, kam es
zur Entwicklung der Suchmaschinen
• Suchmaschinen sind die meist besuchten Seiten im WWW
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Arten von Suchmaschinen
I.
Suchmaschinen und Suchindizes
II.
Kataloge
III. Metasuchmaschinen
IV. Spezialsuchmaschinen
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Suchmaschinen und Suchindizes
Bestehen aus
Die
Suchsoftware
mehreren
Informationen
Komponenten,
die
scannt WWW-werden
Beispiele:
automatisch
Adressen
in
der Datenbank
der
Dokumente
und
im
Internet
einlesen
Google
&
AltaVista
Suchmaschine
verfolgt die
gespeichert
enthaltenen Links
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Kataloge
Besteht aus
Die
Navigation erfolgt
hierarchisch
Kataloge
arbeiten
aufgebauten
durch Anklicken der
Beispiel:
nicht
mit einem Index,
Sachgebieten
Hauptkategorien und
(Linksammlungen)
Yahoo
sondern legen
danach der
Linklisten an
Unterkategorien
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Metasuchmaschinen
Sind Abfragesysteme,
Sie besitzen keinen
die
mit mehreren
Beispiele:
eigenen
Suchmaschinen oder
Datenbestand,
Metager
& arbeiten
Katalogen
sondern nutzen die
Metacrawler
Daten der
angeschlossenen
Suchdienste
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Charakteristik „echter“
Metasuchdienste
•
Mehrere Suchdienste werden automatisch über eine
Schnittstelle (Suchformular) befragt
•
Verschiedene Suchdienste werden vorgegeben, können aber
auch manchmal vom Benutzer ausgewählt werden
•
Eliminierung von Mehrfachtreffern aus den Ergebnissen der
verschiedenen Suchdienste
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Spezialsuchmaschinen
• Beschränken ihre Arbeit auf ein fest umrissenes
Fachgebiet
• Zu diesem Zweck wird eine eigene Datenbank
gepflegt
• Solche Maschinen suchen zum Beispiel Personen,
Software oder Businessinformationen
• Beispiel ist "Quoka" eine Produktsuchmaschine
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Die Architektur von Suchmaschinen
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Struktur des World Wide Web
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Schematischer Aufbau
Crawler
Crawler
URL Server
Parser
Crawler
Store Server
URL
Server
Store
Server
Lexicon
Crawler
Hit
List
Repository
Searcher
Crawler
Crawler II
III
WebCrawler-Komponente
Parser
Store Server
-WWW
Seite
wird zur Analyse vorbereitet
-verwaltet
URLs
-Speicherung
aller
Wörter
des
Webs
--Webserver,
Suche
nach
neuen
Wörtern

in DB
-holt
gegebene
URL
aus
dem
Internet
-je
Wort
in welcher
Lexicon
- Infos
Menge
von
-Abspeicherung
aller
für
Frontend
für
-wichtige
Informationen
aus
Ableitungsbäumen
-ein
Crawler
bearbeitet
immer
mehrere
URLs gleichzeitig
-Problem:
ernorme
Netzlast
bei Crawlersystem
und
Lexicon
Hit List
Repository
-Erstellung
eines
Ableitungsbaum
-Jedes
Wort
enthält
Zeiger
auf
die
-entscheidet
Reihenfolge
Zeigern
auf
Seiten
im
Repository
LEXICON
indizierten
Seiten
-Wandelt
URL
in IPauf
um
ist
extrahieren
-mehrere
Crawler
verschiedenen
Systemen
Zielserver
entsprechende
Hitlist
-Kann
komplex werden – aufgrund der vielzahl der
-Problem
der
isolierten
Seiten/
Teilgraphen
-Je
WortAnfragemaske
pro Seite
 Vermerk
in sehr
-bietet
-Verbindungsaufnahme
über
http
-Bsp.:
>typischerweise
300
Verbindungen
pro Crawler
-Reaktion
der
Betreiber:z.B.
Freude über
„regen“
Besuch
-Designziel:
effiziente
Datenstruktur
-dadurch
schnell
Berechnung
der
HIT
LIST
Sprachversionen
und
“Dialekte”
-z.B
nur
Titel,
erste
20
Zeilen
oder
-Anfragen
über
CGI
übermittelt
-verlangt >mit
Seite 4und
wartet
auf
Erhalt
-Links
andere
Seiten
(mit Link-Auswahlmöglichkeit
Cawlern
ca.auf
100
Seitendurch
pro Sekunde
-schneller
Zugriff
–mgl.
Hashtabelle
oder
verhindern
von -HTML
Seitenindizierung
Robots
-Teil
gesuchten
der Seite
URLs
 Abspeicherung
Volltext
Fehler werden
vom
Browser übergangen, nicht
sog.
Filter
z.B.
für
lokale
Suchmaschinen)
-Bsp.
Google:
ca
14
Millionen
Wörter
REPOSITORY
in
Exclusion Protokol
- Ergebnissmenge
über Rankingjedoch vom Parser
Searcher
auf
256MB
-zusätzliche
Speichermöglichkeit
-bei
Volltext:sortiert
Notwendigkeit
der
Algorithmus
und ausgegeben
-temporäre
Probleme
-es dürfen keine dyna. generierte Seiten angefordert
Komprimierung
werden:-)
© 2002 Mischa Schmüdd, Marggo Schobb
MLU-Halle-Wittenberg
Maße für Retrieval-Systeme
Precision
Recall
-von a indizierten Seiten seien b
Seiten für Suchanfrage relevant
-Precision Rate ist definiert als d/c
- c sei Anzahl der zurückgegeben
Seiten, von denen d relevant sind
-Maß für Rauschen im Ergebnis
-Recall Rate ist definiert als d/b
-Precision Rate = 0.0 nur irrelevante
Seiten zurückgegeben
-Precision Rate = 1.0 alle
zurückgegbenen Seiten relevant.
-Misst Leistung, wieviele relevante
Seiten erkannt und zurückgegeben
werden
-Ideal RR und PR möglichst hoch
-Recall Rate = 1.0 alle rel. Seiten
gefunden
-In Praxis: oft gegenläufige
Veränderung
-Recall Rate = 0.0 keine gefunden
-Vergleich verschiedener
Architekturen mit diesen Maßen
unmöglich
- Problem des Rauschens
-Jedoch: Ansätze, zur Erhöhung
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Techniken zum Durchlaufen des Webs
Breitensuche
Tiefensuche
- alleBacklink
Links derCount
ersten Seite verfolgt
Page
Ranking
- gesamter
Graph des ersten links
-erschöpfende
Indizierung
in Nachbarschaft
der
- wenigstens
die „wichtigsten“
Seiten erfassen
Startseite
-direkte Nachbarschaft
wirdPage
schnell verlassen
-Ranking-Maß
von Lawrence
-Entspricht dem citation index von
-Realisierung
mit FIFO-Queue
-Implementierung
mit Stack
wissenschaftliche
Veröffentlichungen
-Erweiterung
des Backlink
Count
-Auswirkungen
auf
Recall
und
Precicion
hängt
-Auswirkungen
auf
Recall
und
Precicion
hängt
-URLbeim
Server
merkt
sich
Anzahl
der Links
auf
-Werte
Indizieren
berechenbar
vonvon
Struktur
Struktur
eine
Seiteab ab
-häufige Verwendung in Praxis
-Je häufiger desto höhere Priorität
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Techniken zur Steigerung der
Recall Rate
1.Indexgröße
2. Natural Language
Processing
3. Art des Indexes
2.1 Stemming | 2.2 Thesaurus
-lange Zeit: Vector Space Model
-Zufügen
Synonymen
zur Suchanfrage
(„Virus“„Krankheitserreger“)
-trivialste von
Methode:
Vergrößerung
des Indexes
-Reduzierung
-bei
Suchmaschinen:
der Wörter
Repräsentation
auf ihren Wortstamm
durch x häufigsten
(Bsp: „rennen“
vorkommenden
zu „renn“ Wörter
-Problemthematisch
-Finden
bei älterenrelevanter
Suchmaschinen:
Seiten Grenze des Möglichen erreicht
-Gefahr
-x
zw. 40
derund
Mehrdeutigkeit
100
(Bsp: engl. „informal“ „information“)
 Adreßraum
-Problem von Mehrdeutigkeiten
Folge:
derusw.
Precision Rate
-keine
„und“,Reduzierung
„oder“, Artikel
 keine besserer
Anzahl
Recall der
aberFilehandles
schlechterer
desPrecision
Betriebssystems
- Nachteil: keine Zusatzinformationen für den Searcher  Volltextrepräsentation
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Techniken zur Steigerung der
Precision Rate
Weitere Ranking Methoden:
-wichtiger
Ansatzpunkt
Verbesserung der
Precision
-wichtige
Technik
für Benutzer
-Teilung
-Grundidee:
des
Vergleich
Ergebnisses
deszur
inSuchergebnisses
Kategorien
mitPractical
Seiten die
relevant sind
-da oft große Menge an Ergebnissseiten
-Setzen
einer
logischen
Beziehung
zw. Suchwörtern
Listung
Geld
???
-Bsp: Themenbaum
--Seiten
desgegen
eines
selben
Suchkataloges
Servers
-Seiten
(„science:biology“
der selben Sprache
von YAHOO)
- einfachste Ausdrücke
Variante – höchstes Ranking
für Seite mit größter Worthäufigkeit
Boolesche
Phrasensuche
-Begriff der Practical Precision
=
Fähigkeit
+Wörter vom Anfang der Seite, der
Titel, Suchmaschine,
Überschriften, Fettschrift
Trunkierung
Abstandsoperationen
-Methode
-Suchemaschine
für
hohen
NORTHENLIGHT:
Practical
Precision
- Nutzerverhalten
Precision
Rate der ersten Suchergebnisse hoch zu halten
Methoden
der
KI was
 teilt
in Klassen und Unterklassen
Groß-/Kleinschreibung
-Nachteil:
großer
Zeitaufwand
„Relevant
ist,
allesemantisch
suchen“
-Manipulation
durch
Seitenbetreiber
(„Wettrüsten“)
-Backlink-Ranking
Count undnach
PageKlickhäufigkeit
Rank
(Nachteil für junge Seiten)
1.Anfragesprache
3.Nachbearbeitung
2.RankingAlgorithmen
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
4.Clustering
Techniken zur Wartung des Indexes
Aktualisierung
-Seite wird 1 bis 2 mal im Jahr neu indiziert
-Häufigkeit bestimmt Aktualisierungsfrequenz
Tote Links
-Ca. 10%-15% im Index
-Lösung: höhere Aktualisierungsfrequenz
-Bei Google: Anwender kann Volltextseite aus
Index bekommen
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Aufgaben von Suchmaschinen
I.
Dokumentenbeschaffung
(Akquisition)
II.
Indexierung
III.
Aktualisierung
IV.
Anfragebearbeitung
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Dokumentenbeschaffung (1)
Unterscheidung in 2 URL-Quellen:
1. Angabe der URL eines bekannten Dokumentes,
von dem die Roboter ihre automatische Suche
beginnen
2. Manuelle Eintragung von URL-Vorschlägen in eine
dafür eingerichtete Web-Seite
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Dokumentenbeschaffung (2)
Probleme bei der Dokumentenbeschaffung:
1. Link-Bilder
2. Nicht-verlinkte Dokumente
3. Zugriffsgeschützte Dokumente
4. Geschützte Seiten nach dem Roboter-ExclusionStandard
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Indexierung
•
Das Angebot von Suchmethoden ist in erster Linie
von der Indizierung und der daraus resultierenden
Datenbank abhängig
•
Indizierungsstrategien:
1. 2.Volltext
3.Teilindex
Spezielle inhaltsbeschreibende Bereiche
• • Inhaltsbedeutende
• Indizieren
Meta-Tags
von URL,
Begriffe
Titel und
oderÜberschriften
Elemente
werden
oder auch
aus der
dergesamten
ersten paar
HTML-Seite
Zeilen der
indiziert
HTML-Seite
(Mehrsprachige Stoppwortlisten)
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Aktualisierung
•
Aktualisiert wird meist mit einer zeitabhängigen
Frequentierung
•
Probleme bei der Aktualisierung:
a) Dead-Links (Dangled-Links)
b) Neue Inhalte an der angegebenen URL
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Anfragebearbeitung
•
Verschiedene Suchmodi
(Einfache/ Erweiterte Suche)
•
Formularbasierte Suchmasken mit diversen
Einstellmöglichkeiten
•
Voreinstellungen werden teilweise über Buttons,
Menüs und Listen ausgewählt
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Suchoperatoren & Suchmodi
1. Suchmodi
2. Groß- und
a) Einfache
Suche
3. Trunkierung
Kleinschreibung
4. Boolesche Operatoren
b) Erweiterte
Suche
• Ist5.diePhrasensuche
Suche nach und Abstandsoperatoren
• Wird
bei
den
meisten
• AND, OR,
NOT
verschieden Wortvariationen
• Suche
nach der exakten Reihenfolge der
Diensten
nicht beachtet
• Müssen bei vielen
• Benutzung
des *-Operators
angegebenen
Suchbegriffe
Suchdiensten über ein
• Bsp.
“hand*“
•Pull-Down
Suchbegriffe
in Hochkomma eingeschlossen
Menümüssen
ausgewählt
sein
werden
• Als Abstandsoperator existiert der NEAR-Operator
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
Zusammenfassung
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg
ENDE
© 2002 Mischa Schmüdd, Marggo Schobb
:-)
MLU-Halle-Wittenberg

Aufbau Integrierter Informationssysteme Datenintegration

Transcript Aufbau Integrierter Informationssysteme Datenintegration

Directory