Transcript Web Mining

Web Mining
Inhaltsverzeichnis
1. Was ist Web Mining – Theoretische
Einführung
2. Tools
3. Anwendungsbeispiele
2
Was ist Web Mining – Theoretische
Einführung
1.
2.
3.
4.
Einleitung
Web Mining Strategien
Informationsbedarf im E-Business
Informationsgewinnung durch Web
Mining
5. Richtungen des Web Mining
6. Web Mining Methoden
7. Web Mining-Prozess
3
Einleitung
Web = Datenbank
Structure
Content
Logs
Leider versteht das Internet kein SQL
4
Einleitung (1)
•
•
•
•
•
•
•
Web Mining ist Anwendung von Data Mining Methoden auf
Datenstrukturen des Internet
Analyse von Online-Kundeninformationen hat wichtige
Bedeutung
Wissen über Kunden und deren Bedürfnisse
Erkenntnisse über Gestaltung von Internetauftritten
Personalisierung von Seiteninhalten
Kaufwahrscheinlichkeiten
Identifizierung von Bewegungspfaden und Kaufmuster
5
Einleitung (2)
6
Web Mining Strategien
•
•
•
Verstehen, was die Besucher wollen
Vorhersagen, wie sie sich verhalten
sollen
In Echtzeit anwenden, was man über
die Kunden weiss
7
Informationsbedarf im E-Business (1)
•
•
•
•
•
Trotz riesigen Investitionen wurden Erwartungen nicht erfüllt
Viele gescheiterte Online Projekte
Zahl der Internetteilnehmer steigt noch immer an, aber nur
der Traffic bedeutet kein Erfolg  massgebend ist eher die
Intensität der Kundenbeziehung
Nur Bruchteil der Kunden sind Wiederholungskäufer
Grosse Kosten für Neugewinnung von Kunden (150 – 300$)
8
Informationsbedarf im E-Business (2)
•
•
•
•
Unternehmen versuchen Kundenbeziehungen im Internet
zu intensivieren  CRM (Customer Relationship
Management)
Grundlage für erfolgreiches Management der
Kundenbeziehung ist das Wissen über die Kunden und ihre
Bedürfnisse
Grundsätzlich haben Betreiber von Internetangeboten nur
wenige Informationen über Online Besucher und die
Wirkung ihres Internetauftrittes
Es stellen sich aus diesen Gründen interessante Fragen:
9
Informationsbedarf im E-Business (3)
Fragen über Fragen
•
Zusammensetzung der Besucher
–
–
–
•
Wie viele Besucher erhält meine Seite? Woher kommen sie? Wie
lange bleiben sie?
Wie sehen die typischen Bewegungspfade aus? Wie lassen sich
diese Verbessern?
An welcher Stelle verlassen die Besucher meine Seite und warum?
Welche Profile haben meine wichtigsten Kundensegmente
Wirkung von Online Werbung
–
–
–
Welche Werbebanner erwecken das meiste Interesse bzw. führen zu
Käufen?
An welche Stelle sollen die Banner platziert werden? Welche Partner
generieren die meisten Besucher?
Wie lange bleiben die Besucher und wie viele kaufen etwas?
10
Informationsbedarf im E-Business (4)
Fragen über Fragen
•
Bewertung der Seiteninhalte
–
–
–
•
Für welche Inhalte interessieren sich die einzelne
Kundensegmente?
Welche Inhalte werden weniger beachtet und warum?
Wie lässt sich eine Personalisierung der Inhalte
erreichen/verbessern?
Online-Kaufverhalten der Besucher
–
–
–
Wie unterscheiden sich Besucher von Käufern?
Was machen die Besucher bevor sie etwas einkaufen?
Welches Verhalten auf der Site lässt auf Wiederholungskäufe
schliessen?
11
Informationsgewinnung durch Web
Mining (1)
Es gibt verschiedene Möglichkeiten Wissen über die Nutzung
und die Nutzer der Webseiten zu generieren
•
In erster Linie werden deskriptive Statistiken (LogfileAnalyse) erstellt.
•
Diese liefern erste wichtige Anhaltspunkte zur Nutzung der
Site – liefern aber keine Informationen zur individuellen
Verhaltensweise und Interessen der Online-Nutzer.
•
Insbesondere sind diese nicht in der Lage Muster in den
Nutzungsdaten aufzufinden
•
Aber gerade die Muster sind von hoher Bedeutung für die
Informationsgewinnung!
12
Informationsgewinnung durch Web
Mining (2)
•
•
•
Es müssen automatische Mustererkennungsverfahren
(Data Mining) angewendet werden um aus den Daten
Informationen über die Besucher einer Web Site zu
gewinnen
Zur Unterstützung derartiger Analysen gibt es
verschiedenartige Softwarelösungen. Anfänglich waren
diese nur für die deskriptive Analyse von Logdateien
geeignet
Heute existieren Datamining Toos die spezielle
Funktionalitäten für Web-Mining besitzten.
13
Richtungen des Web Mining (1)
Web
Mining
Web Content
Mining
Web Structure
Mining
Web Usage
Mining
Web Log
Mining
Integrated Web
Usage Mining
• Web Mining bezeichnet die allgemeine Anwendung von
Verfahren des Data Mining auf Datenstrukturen des Internet
14
Richtungen des Web Mining (2)
Web Content Mining
• Befasst sich mit der Analyse des Inhaltes von Webseiten und
kann diese klassifizieren
• Seiten können damit für die weitere Analyse zu Gruppen
zusammengefasst werden
• Zielsetzung:
– Erleichterung der Suche nach Informationen im Netz
• Aufgabe:
– Klassifizierung und Gruppierung von Online-Dokumenten
– Auffindung von Dokumenten nach bestimmten Suchbegriffe
• Kommen insbesondere Verfahren des Text Mining zum
Einsatz
15
Richtungen des Web Mining (3)
Web Structure Mining
• Untersucht die Anordnung einzelner Elemente innerhalb einer
Webseite
• Untersucht die Anordnung verschiedener Seiten zueinander
• Interessant sind Verweise von einer Webseite auf andere,
häufig inhaltlich verwandte Webseiten, mit Hilfe von
Hyperlinks
• Hilft Überblick über Sitestruktur und die Anordnung der
einzelnen Seiten zueinander zu gewinnen, um auf dieser
Basis das Bewegungsverhalten der Nutzer im Netz
nachvollziehen zu können
16
Richtungen des Web Mining (4)
Web Usage Mining
• Beschäftigt sich mit dem Verhalten von Internet-Nutzern
• Es werden Data Mining Methoden auf die Logfiles des
Webservers angewendet.
• Ergibt Aufschlüsse über Verhaltensmuster und Interessen von
Online Kunden
• Web Log Mining  Analyse beschränkt sich auf Analyse des
Logfiles
• Integrated Web Usage Mining  es werden noch weitere
Daten wie Registrierungsdaten, Kaufhistorie etc. verwendet
17
Richtungen des Web Mining (5)
Probleme mit Web Server Logs / Ereignisse
• Aktionen des Servers und nicht des Besuchers
• IP Adressen sind (noch) nicht einzigartig
• Seite besteht oft aus mehreren Objekten  mehrere Zugriffe
 Logs müssen bearbeitet werden
Wichtige Ereignisse die für Web Mining wichtig sind:
• Erstbesuch
• Anschauen von Produktinformationen
• Registrierungen  müssen clever gemacht sein
• Downloads
• Suchabfragen
• Sachen in Einkaufswagen legen
• Seite verlassen
18
Webminig Techniken (1)
• Clustern / Segmentierung
– Unterschiedliche Gruppe von Kunden und Besuchern
• Warenkorbanalyse
– Assoziationen zwischen Produkten und Dienstleistungen
• Sequenzanalysen
– Pfade, Muster über Zeit, Bestellung
• Klassifikation und Vorhersage
– Spezielle Verhaltensmuster, Profile
19
Webminig Techniken (2)
Clustern / Segmentierung
Identifikation grundlegender Kundenbedürfnisse
• Clusteranalyse, Neuronale Netze
• Identifikaton von Kunden mit ähnlichem Verhalten
– Modellierung der besten Kunden nach Lifetime, Value,
Profitabilität und Kaufverhalten
– Wer kündigt bzw. kauft nicht mehr und warum
• Entwicklung von Key-Content
• Effektivere Positionierung des Contents
20
Webminig Techniken (3)
Warenkorbanalyse
Effektiveres Cross-Selling
• Analyse spezieller Zusammenhänge zwischen
Produkten und Dienstleistungen (zB. Notebook und
Garantieverlängerung)
• Aufdecken von Trends und Beziehungen zwischen
Webseiten und Produkten
• Empfehlung der Produkte, die am wahrscheinlichsten
gekauft werden (zB. Bei Amazon)
21
Webminig Techniken (4)
Sequenzanalysen
Den richtigen Content zur richtigen Zeit anbieten
• Eine der häufigsten Frage im Web Mining: Welche
Seiten werden in welcher Reihenfolge besucht?
• Modellieren, in welche Produkte und Dienstleistungen in
einer Sequenz erworben werden.
• Welche Sequenzen führen zum Kaufabbruch?
• Welche Sequenzen sind typisch für Hacker oder für
betrügerisches Verhalten (Schwachstellen erkennen)
22
Webminig Techniken (5)
Klassifikation und Vorhersage
Profitabilität durch Personalisierung
• Entscheidungsbaum, künstliche Neuronale Netze
• Erforschen komplexes Kaufverhalten
• Wie wahrscheinlich ist es, dass eine Person:
–
–
–
–
Antwortet
Kauft
Mehr ausgibt
Nicht mehr kauft
• Voraussagen von Verhalten  proaktives Handeln!
23
Web Mining-Prozess (1)
Aufgabendefinition
DatenAuswahl
DatenAufbereitung
DatenIntegration
MusterSuche
Interpretation und
Umsetzung
24
Web Mining-Prozess (2)
•
Aufgabendefinition
–
•
Wichtig ist, dass zuerst genau spezifiziert wird
Datenauswahl
–
–
–
–
•
Erhebung der Internetnutzungsdaten
Ev. weitere Kundendaten
zB. Logfiles, Cookies, Server-, Networkmonitor/Sniffer
Datenschutz
Datenaufbereitung
–
–
–
–
Preprocessing
Identifikation von Seitenaufrufen (Frames)
Identifikation von Besuchern
Identifikation von Sessions
25
Web Mining-Prozess (3)
•
Datenintegration
–
–
•
Einbeziehen von Zusatzinformationen zB. Benutzerdaten,
Kundenstammdaten, Transaktionsdaten etc.
Datenschutz!
Mustersuche
–
•
Anwendung der Data Mining Methoden
Interpretation und Umsetzung
–
–
–
Webcontrolling  Verschiedene Kennzahlen
Website Optimierung
Personalisierung von Webseiten
26
Web Mining Software und
Dienstleistungen im Vergleich
•
•
•
•
Typische Fragestellungen der Betreiber
Produktekategorien
Analog
SAS
– WebHound
– Enterprise Miner
– Data Warehousing
• SPSS
– Clementine
• Tools im Einsatz
• Bewertung
27
Arten des Web Mining
Web
Mining
Web Content
Mining
Web Structure
Mining
Web Usage
Mining
Web Log
Mining
Integrated Web
Usage Mining
Dieser Vergleich behandelt das Web Usage Mining. Also das
Auswerten von Web Server Log Files, um Bewegungen der
Benutzer, auf einer Web Site, zu analysieren.
28
Typische Fragestellungen der Web-Site
Betreiber
• Log File Statistik
• Erweiterung um einfache Analyse
• Genaue Analyse der Benutzer
29
Log File Statistik
·
·
·
·
Welche Seiten sind besonders beliebt/attraktiv?
Woher kommen die User (Länder/Regionen)?
Wann kommen die User?
Welcher Browser, welches Betriebssystem wird
verwendet?
· Von welcher Web-Site kommen die User auf die Site
(Suchmaschine, Werbung, Konkurrenz)?
· Wie gut ist die Performance meines Web-Servers?
· Welche Suchwörter führen, über welche Suchmaschinen,
auf meine Seite?
30
Erweiterung um einfache Analyse
· Welche Seiten haben welche Verweildauer (stickiness)?
· Welche Seiten führen zum Verlassen der Site (ExitPages)?
· Welche Seiten sind beliebt, welche sollten entfernt
werden?
· Wer kommt auf meine Seite?
· Wie ist die Wirtschaftlichkeit der Seite?
· Welche meiner Banner sind die profitabelsten?
· Wie wirken meine Kampagnen? (Z.B. Banner-Werbung
bei einem Web-Portal)
· Wie wirken sich Veränderungen der Web-Site aus?
31
Genaue Analyse der Benutzer
· Was für ein Profil haben User die bei mir
einkaufen?
· Welchen Pfad durch die Seiten nehmen
Besucher, die zum Kauf kommen?
· Haben die Kunden Probleme beim
Abschluss des Kaufs?
32
Produktkategorien
Unter dem Begriff Web Mining Software
werden eine Reihe verschiedenartiger
Produkte angeboten.
Grob lassen sie sich wie folgt unterteilen:
· Web-Traffic Analyse-Programme
· Programme mit zusätzlicher Data Mining
Funktionalität
33
Produkteübersicht
34
Analog
• Analog gehört zu den ältesten Log File
Analysern.
• Das Programm erzeugt keine Besucher und
Session Statistiken.
• Bedienung und Installation lassen sich mit
guten IT Kenntnissen problemlos meistern.
• Analog ist frei erhältlich.
35
Analog
36
SAS
• Besteht aus mehreren Komponenten:
– WebHound
– Enterprise Miner
– Data Warehousing
37
SAS WebHound
•
•
•
•
•
•
Der SAS WebHound ist der neueste Bestandteil von
SAS eIntelligence.
WebHound ist für das Einlesen von Web Log Files ins
Data Warehouse verantwortlich.
Er stellt außerdem eine umfangreiche ReportingFunktion zur Verfügung.
Für das eigentliche Data Mining wird der SAS
Enterprise Miner benötigt.
Der WebHound ist auch als stand alone Produkt
erhältlich (mit SAS Base und anderen nötigen
Paketen).
Angesichts des Preises, ist er allerdings wohl nur in
einer SAS Umgebung sinnvoll.
38
SAS WebHound
•
•
•
Einlese Prozess der Log Dateien kann
parallelisiert werden.
Explizit für grosse Datenmengen ausgelegt.
Auf Wunsch können nur relevante Daten aus
den Log Dateien extrahiert werden.
39
SAS Enterprise Miner
•
•
Enterprise Miner ist das eigentliche Data
Mining Tool der SAS
Beinhaltet:
– SEMMA, eigenes verfahren für die Data Mining
Anwendung
– Nahtlose Integration von Data Warehousing und
Reporting Funktionalitäten
– Daten Visualisierung, Untersuchung und
Bearbeitung.
40
SAS Data Warehousing
•
Data Warehousing bietet:
– Daten Gewinnung
•
Transparenter Zugriff mittels ERP Systemen,
hierarchischen oder relationalen Datenbanken.
– Daten Zugriff
•
Zugriff auf alle Funktionen per Programmiersprache
möglich (Java/C++)
– Daten Aufbewahrung
•
•
•
SAS Tabellen
Scalable Performance Data Server (SPDS)
hierarchische oder relationale Datenbanken.
41
Enterprise Miner
42
Clementine von SPSS
• Clementine stammt ursprünglich von der Firma
ISL. Diese wurde 1998 von SPSS aufgekauft.
• Clementine ist neben SAS sicherlich eines der
großen Standard Tools für Data Mining.
• Beide wurden um Web Mining Funktionen
erweitert.
• Die Web Mining Funktionen werden durch das
„Application Template Web Mining“ (WebCAT)
zur Verfügung gestellt.
43
Clementine von SPSS
• Die Version 6 bedient sich immer noch der
bewährten X-Window Umgebung unter Exceed
 kein Windows Client
• Bedienung geht nach einem Workflow Prinzip,
ähnlich wie bei SAS
44
Clementine
45
Bewertung (Stand Ende 2001)
46
Web Mining Tools
im Einsatz
47
Web Mining mit WUM
• Was ist WUM?
• Einsatz von WUM
• Demo
48
Web Utilization Mining - WUM
• Analyse der Web-Nutzung:
–
–
–
–
Aufbereitung des Web-Server-Logs
Einsetzen der Data-Mining-Software
Eine Methodik der Analyse
Erfolgskontrolle für kommerzielle Web-Sites die mit
WUM angewendet wird, um den Erfolg einer WebSite zu messen und zu erhöhen
49
Web Utilization Mining
• Die Muster des Nutzerverhaltens werden
anhand einer informationsreichen
Graphstruktur dargestellt, die konventionelle
Sequenzen generalisiert, aber nicht durch
Sequenz-Mining zu ermitteln ist.
• Eine ausdrucksstarke Mining-Anfragesprache
unterstützt die Spezifizierung von statistischen
und strukturellen Einschränkungen, um den
Prozess der Musterentdeckung zu steuern.
50
Was ist WUM? (1)
• WUM : A Web Utilization Miner
– „sequence miner“
– analysiert das Verhalten von Besuchern einer
Website durch Sequenzanalyse
• Analyse des Surfverhaltens anhand der Reihenfolge der
angegangenen Seiten
– auch für Sequence Pattern Discovery in jeglicher Art
von Logfiles
51
Was ist WUM? (2)
• Web Mining Tool zur Entdeckung von
Navigationsmustern
• Report-Funktionalität
• Mining Sprache MINT V1.2
52
WUM Architektur
• Datenaufbereitung
• Aggregated Log
• „Sequence Miner“
• Visualiser
53
Einsatzgebiet von WUM
Web
Mining
Web Content
Mining
Web Structure
Mining
Einsatzgebiet von WUM:
Web Usage Mining
Web Usage
Mining
Web Log
Mining
Integrated Web
Usage Mining
54
Einsatz von WUM (1)
• Datenaufbereitung
– Log-Analyse
– Session-Analyse
• Analyse:
– Verhaltensmuster („behaviour patterns“) bestimmen durch
Analyse von Sequenzdaten
– Ad-hoc Analyse: Query Analyzer
• Datenintegration und -Darstellung
– Aggregate Log, tree
• Resultatsausgabe
– Auswertungen
55
Einsatz von WUM (2)
• Ausgangslage: Website
Aufgabendefinition
– z.B. ein e-Shop
56
Einsatz von WUM (3)
• Access Log wird
eingelesen
DatenAuswahl
57
Einsatz von WUM (4)
• Sessions werden definiert,
innerhalb welcher das
Surfverhalten
nachvollziehbar
sein soll
DatenAufbereitung
58
Einsatz von WUM (5)
• Das Log wird mit dem
„Aggregated Log“ in
zusammenhängender
Form gebracht.
DatenIntegration
59
Einsatz von WUM (6)
DatenIntegration
60
Einsatz von WUM (7)
DatenIntegration
61
Einsatz von WUM (8)
• Besucherverhalten
identifizieren und
veranschaulichen
MusterSuche
H.html = Homepage
P.html = Products
X.html = Product X
Y.html = Product Y
G.html = Game
D.html = Discount
S.html = Search
C.html = Contact
O.html = Order
62
Einsatz von WUM (9)
• WUM benutzt die Mining Sprache
MINT (Mining Query Language)
MusterSuche
– SQL-ähnliche Sprache
– es können auch direkte Queries
eingegeben werden:
select t from node as a b,
template a * b as t
where a.url = "X.html"
and b.url = "Y.html"
63
Einsatz von WUM (10)
MusterSuche
64
Einsatz von WUM (11)
• Analyse +
Visualisierung der Query-Resultate
MusterSuche
65
Einsatz von WUM (12)
• Reports: Datenauswertung
Interpretation und
Umsetzung
– Comprehensive Report
– Web Site Pages Report
66
Einsatz von WUM (13)
• Datenauswertung
Interpretation und
Umsetzung
67
Demo
It‘s showtime !!!
68
Quellen
•
•
•
•
•
•
•
Handbuch Web Mining von Hajo Hippner, Melanie
Merzenich, Klaus D. Wilde
Scripts Prof. Dr. Nouri, FH Solothurn
Präsentation Dr. Daniel Schloeth SPSS (Schweiz) AG
Vorträge Prof. Dr. Quafafou, IAAI
Unterlagen der Firma SPSS und SAS
Script der Universität Karlsruhe (TH)
WUM-Website http://wum.wiwi.hu-berlin.de
69
2 Version
Web Mining
• Theoretisches Konzept
• Praktische Anwendung
• Diskussion
Interview
• Interview mit einem Vertreter von
Provantis
71
Theorethisches Konzept
•
•
•
•
•
•
Was ist Web-Mining?
Wofür braucht es Web-Mining?
Wie sieht Web-Mining für Surfer aus?
Wie sieht Web-Mining technisch aus?
Welche Strategien gibt es?
Welche Infos sammelt Web-Mining?
72
Was ist Web-Mining?
• Sammeln von Kunden-Infos via WWW
• Erfassen der Gewohnheiten und
Bedürfnisse der potenziellen Kunden
• Ermittlen der Bewegungspfade der
Kunden
• Erfassen der Interessen / Kaufbedürfnisse
des Kunden
73
Wofür braucht es Web-Mining?
• Personifizierung des Auftritts
– Begrüssung mit Namen
– Speichern der letzten Einstellung usw.
• Angebot auf Kundenbedürfnisse
ausrichten
• Kaufwahrscheinlichkeiten berechnen
• Marketing-Anaylsen günstig durchführen
74
Wie sieht Web-Mining für Surfer
aus?
• Begrüssung mit
persönlicher
Anrede
• Letzter Besuch
• Anzahl Beträge
im Forum
• usw.
75
Wie sieht Web-Mining technisch
aus?
• 1000 ungefragte Küchlein
76
Wie sieht Web-Mining technisch
aus?
• Web-Mining sammelt
Informationen über
den Surfer
• In ein Cookie kann
man schreiben was
man will !!
• Niemand weiss was
hier gespeichert wird
77
Web-Mining Strategien
• Welche Vorlieben hat der Surfer?
• Den Kunden optimal durch die Webseiten
der Firma führen
• Dem Kunden genau das Anbieten was er
möchte
78
Welche Infos sammelt
Web-Mining? (1)
• Der Besucher
– Wie viele Besucher erhält meine Seite?
– Woher kommen sie?
– Wie lange bleiben sie?
– Wie sehen die typischen Bewegungspfade
aus?
– Wie lassen sich die Bewegungspfade
verbessern?
79
Welche Infos sammelt
Web-Mining? (2)
• Der Besucher
– An welcher Stelle verlassen die Besucher
meine Seite?
– Warum verlässt der Surfer meine Seite?
– Welche Profile haben meine wichtigsten
Kundensegmente
80
Welche Infos sammelt
Web-Mining? (3)
• Online Werbung
– Welche Werbebanner erwecken das meiste
Interesse?
– Welche Werbung führt zu Käufen?
– An welche Stelle sollen die Banner platziert
werden?
– Wieviele Besucher kaufen etwas?
81
Welche Infos sammelt
Web-Mining? (4)
• Der Seiteninhalt
– Für welche Inhalte interessiert sich der
Kunde?
– Welche Inhalte werden weniger beachtet und
warum?
– Wie lässt sich eine Personalisierung der
Inhalte erreichen/verbessern?
82
Welche Infos sammelt
Web-Mining? (5)
• Das Kaufverhalten
– Wie unterscheiden sich Besucher von
Käufern?
– Was machen die Besucher bevor sie etwas
einkaufen?
– Welches Verhalten auf der Seite lässt auf
Wiederholungskäufe schliessen?
83
Web Mining
• Web-Content-Mining
• Web-Structure-Mining
• Web-Usage-Mining
Übersicht der Methoden
Web-Mining
Web-ContentMining
Web-StructureMining
Web-UsageMining
Untersucht Inhalte /
Klassifiziert Seiten
Untersucht Struktur
des Aufbaus der
Webseiten
Untersucht wie die
Webseiten gebraucht
werden
85
Web-Content-Mining
• Analysiert den Inhalt von Webseiten
• Klassifiert diese Inhalte
• Extrahiert die Dokumente und fügt diese in
neue Knowledge-Kataloge ein
• Ermöglicht automatischen Tranfer /
Transformation von bestehender
Information
86
Web-Content-Mining
• Beispiel:
– Redaktionell gepflegte Datenbanken können
mit Web-Content-Mining automatisch
erweitert werden
– Datenbanken können automatisch auf dem
neuesten Stand gehalten werden
87
Web-Content-Mining
iten
Se den
h
r
we atisc
tom rt
au efilte
g
Seiten werden
in die Datenbank eingetragen
88
Web-Structure-Mining
• Es werden die Zusammenhänge innerhalb
der Seiten eines Web-Auftritts untersucht
• Es werden die Zusammenhänge innerhalb
der Elemente einer Seite untersucht
89
Web-Structure-Mining
• Beispiele für Web-Structure-Mining:
– websom.hut.fi
– www.kartoo.com
– smartmoney.com
– www.webbrain.com
• Technische Details von Web-StructureMining
90
Web-Structure-Mining
websom.hut.fi
• Die Worte charakterisieren
bestimmte Bereiche
• Die Fraben bezeichnen die
Clusters
• Die Blauen Punkte geben
die gefundenen
Dokumente an
91
Web-Structure-Mining
websom.hut.fi
• Graphische
Übersicht
über die
gefundene
Web-Seiten
• Zeigt Grün
die
Zusammenhänge an
92
Web-Structure-Mining
smartmoney.com
• Börsen-Daten
von über 500
Firmen
• Die Grösse
zeigt den
Markanteil
• Die Farbe den
Gewinn/ Verlust
des Titels
93
Web-Structure-Mining
www.webbrain.com
• Zeigt eine nach Kategorien geordnete
Übersicht des Suchresultats an
94
Technische Details
von Web-Structure-Mining (1)
• Untersuchungsgegenstand ist
– Struktur des Webs
– Hierarchien und Verknüpfungen
– Struktur bzw.Schema eines Dokuments
• das links enthält und auf das links verweisen
• das aus mehreren links besteht
– Ähnlichkeiten und Relationen helfen bei der
95
Technische Details
von Web-Structure-Mining (2)
• Das Web ist ein gerichteter Graph
– Seiten und links entsprechen Knoten
– In-Degree =Anzahl der links auf ein Dokument
– Out-Degree =Anzahl der links aus einem
Dokument
– Diameter =maximaler Wert des minimalen
Wegs von einem Dokument A zu einem
Dokument B
96
Web-Usage-Mining
• Untersucht das Verhalten von Surfern
• Anwenden von Data-Mining-Methoden auf
das Server-Logfile
• Daten können einem User zugeordnet
sein oder nicht
97
Web-Usage-Mining
Web Usage Mining
• Nutzeraktivitäten
• Inhalt einer Site
• Andere Daten
Anonym
Personalisiert
• Personenbezogene
Daten
• Nutzerprofile
98
Web-Usage-Mining
• Grundlegende Vorgehensweise
Sammlung
der Daten
Datenaufbereitung
Modellierung
Auswertung
99
Web-Usage-Mining
• Verfügbare Daten
–
–
–
–
Host
Datum / Uhrzeit
URL
Anzahl
gelesener Bytes
– Browser
– Referer-URL
– Name und
Passwort
des Nutzers
100
Web Mining
(allgemein)
• Datenaufbereitung
• Logfile-Analyse
• Infomation Tracking
• Fallbeispiel für WebMining
Datenaufbereitung
Association
Rules
Logfile
Formatted
Data
Cleaned
Logfile
Sequential
Patterns
Formatted
Data
Integrated
Data
User Registration
Data
Formatted
Data
Cluster &
Classification
Rules
102
Datenaufbereitung
• Das Logfile wird bereinigt
• Die Daten werden mit den Benutzerdaten
zusammengeführt
• Die Daten werden formatiert
• Die Daten werden nach Data-MiningMethoden ausgewertet
103
Auswertung der Logfiles
104
Logfile-Analyse
• Probleme
– Alle Benutzer welche von einer Firma aus
Surfen haben die gleiche IP-Adresse
– Aufwendiges Preprozessing – Nicht alle
Informationen sind relevant
– Beim Caching werden Seiten
zwischengespeichert und erscheinen danach
nicht mehr im Logfile
105
Infomation Tracking
106
Fallbeispiel für WebMining
107
Web Mining
Methoden
• Clustering / Segmentierung
• Warenkorbanalyse
• Sequenzanalysen
• Klassifikation
• Vorhersage
Clustering / Segmentierung
• Angewandte Techniken
– Clusteranalyse
– Neuronale Netze
– Indentifikation von Kunden mit
ähnlichem Verhalten
109
Warenkorbanalyse
• Ziel der Warenkorb-Analyse
– Analyse der Zusammenhänge zwischen
Produkt und Dienstleistung
– Erkennen von Trends
– Empfehlungen abgeben – z.B. Most
popular product etc.
110
Sequenzanalysen (1)
• Ziel der Sequenzanalyse
– Reihenfolge der besuchten Seiten
bestimmen
– Produkte bestimme welche in EINER
Sequenz erworben wurden
– Welche Sequenzen führen zum Kauf
111
Sequenzanalysen (2)
• Ziel der Sequenzanalyse
– Welche Sequenzen führen zum KaufAbbruch
– Welche Sequenzen beinhalten
Schwachstellen
112
Klassifikation
• Klassifizierung durch
– Entscheidungsbäume
– Neuronale Netze
• Erforschen von komplexem
Kaufverhalten
113
Vorhersage
• Verhalten des Kunden voraussagen =
proaktives Handeln
• Wie wahrscheinlich ist es, dass eine
Person:
– Antwortet
– Kauft
– Mehr ausgibt
– Nicht mehr kauft
114
Quellen
• Skript Dr. Nouri
• Präsentation Web-Mining (Vorgänger-Jahrgang)
• Internet
– http://www.cometrics.de/know-web-mining.html
– http://www.aifb.unikarlsruhe.de/WBS/gst/diplomarbeiten/SemanticWeb_Structure_
Mining.pdf
– http://www.informationnetworking.net/Personalisierung_im_Internet_31-05-2001.pdf
– http://www.uni-hildesheim.de/~rschneid/WebMiningSession2.pdf
– notesweb.uni-wh.de/.../Web_Usage_Mining.ppt
115
Fragen?
Vielen Dank für Eure Aufmerksamkeit