PraesentationDatenvorverarbeitung

Download Report

Transcript PraesentationDatenvorverarbeitung

Datenvorverarbeitung
Grundlagen und Lösungen mit KNIME
Modul Wissensextraktion / Data Mining
Karim Eddarif
(Multimediatechnik)
Christian Meyerhöfer
(Digitale Logistik und Management)
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Gliederung
1. Einführung in die Thematik
2. Grundlagen der Datenvorverarbeitung
3. Datenvorverarbeitung anhand von Beispielen mit Knime
3.1 Datenreduktion
3.2 Datentransformation
3.3 Datensäuberung
4. Schlussfolgerung
2
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
1. Einführung in die Thematik

Datenvorverarbeitung ist im Bereich der Multimediatechnik und
im Logistik-Bereich von Bedeutung

Ziele:

Datenvorverarbeitung mit ihren Bestandteilen und
unterschiedlichen Verfahren vorstellen

Durchführung von Anwendungsbeispielen mithilfe von
Knime

Unterschiedliche Voraussetzungen mit unterschiedlichen
Verfahren
3
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
2. Grundlagen der Datenvorverarbeitung

Zweck der Datenvorverarbeitung:


Reduktion der Eingangsgrößen auf ein Mindestmaß
die Reduktion der Datensätze darf dabei nicht zu einem Verlust
systemrelevanter Parameter führen

Unterschiedliche Varianten und Verfahren dienen der
Verbesserung von Datensätzen

Dadurch kann der Datensatz besser be- und verarbeitet werden

Knime hilft bei der Verbesserung durch Datenvorverarbeitung
4
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
5
Es gibt hauptsächlich vier verschiedene
Datenvorverarbeitungsverfahren
Datenselektion
Datenreduktion
Datentransformation
Datensäuberung
Datenvorverarbeitungsverfahren
Unterschiedliche Datenarten erfordern
unterschiedliche Datenvorverarbeitungsverfahren
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
6
Verschiedene Prozesse der Vorbereitung
sollen das Data Mining vereinfachen
Verbesserung
der Datenqualität
Anreicherung
der Daten
Verringerung der
Dimensionen
Betrachtung der
Daten
Zugriff
auf Daten
Stichproben:
Verteilung
überprüfen
Data Mining
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3. Datenvorverarbeitung mit Knime

Darstellung der einzelnen Verfahren durch die Software Knime

Welchen Einfluss hat eine unterschiedliche Datenvor-
verarbeitung auf das Ergebnis?

Wie geht man mit welchen Daten um?

Experimente mit verschiedenen Datensätzen als erster Ansatz
für Anwendungsempfehlungen
7
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.1 Datenreduktion

Ziel ist es die Zahl der relevanten Dimensionen zu reduzieren

Attribute streichen / auswählen

Korrelationen dienen der Darstellung von Zusammenhängen
zwischen zwei Attributen

Auch unrealistische Werte können eliminiert werden

Streichung von Spalten oder Zeilen mit keinem oder sehr
niedrigen Aussagewert
8
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Korrelation bilden, um die Beziehungen
der Daten zueinander herauszufinden
9
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Tabelle zeigt die Zusammenhänge
der Daten zueinander
10
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Zur Darstellung werden
alle anderen Spalten entfernt
11
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Streudiagramm macht auf Ausreißer
aufmerksam, die begutachtet werden müssen
12
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Durch das Sortieren kann festgestellt werden,
dass einige Daten bzw. Zeilen überflüssig sind
13
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Weiteres Sortieren bestätigt
den Zusammenhang
14
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Das Ergebnis ist die Streichung
einer Spalte und von 54 Zeilen
15
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
16
Beispiel für eine vermutete
nichts aussagende Spalte

ABER: Col3 und Col7 sind wichtig für die Auswertung des
Datensatzes

Ursache liegt in der Aussage der Spalten
Die Aussagefähigkeiten der Daten müssen beachtet
werden, auch wenn nur wenige Attribute vorhanden sind!
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.2 Datentransformation

Überführung der Daten in eine Form, die für Data MiningVerfahren geeigneter ist (Repräsentationsänderung)

Verfahren zur Behandlung von Rauschen können hierzu
gezählt werden

Umkodierung von Attributen (Veränderung des Typ)

Generalisierung: Ersetzung eines numerischen Attributs
durch ein symbolisches Attribut mit quantitativer Aussage,
z.B. niedrig, mittel, hoch

Aggregation: Zusammenfassen mehrerer Tupel zu einem
17
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
18
Datentransformation – Umkodierung von Attributen

Normalisierung von numerischen werten im Wertebereichen
 Skalierung von Daten in Intervallen [0..1]
 Binning ermöglicht die Intervallbildung von numerischen
Daten
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Auto-Binner erstellt eine neue Spalte

Veränderung der Darstellung, aber nicht des Informationsgehaltes eines Attributes.
19
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Das Ergebnis mit der alten Spalte
und ohne Binning ist sehr unübersichtlich
20
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
21
Nach dem Auto-Binning erhält meine eine übersichtliche Darstellung der gebildeten Intervalle
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Das Numeric Binner benötigt Eingabeinformationen über die zu bildenden Intervalle
22
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Auch hier ergibt sich eine wesentlich
übersichtlichere Darstellung der Altersgruppen
23
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
24
Datentransformation - Generalisierung

Reduktion des Informationsgehaltes eines Attributs

Zusammenfassung mehrerer Ausprägungen eines
symbolischen Attributes zu einer einzigen Ausprägung

z.B. c_temperat>=80 -> High, c_temperat>=70 && c_temperat<80 ->Mittel
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Datentransformation - Java-Snippet Node
25
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.3 Datensäuberung

Rohdaten sind oft Lückenhaft


Fehlerhaft oder wenig sorgfältig erfasste Daten
Fehlende Werte müssen aus verschiedenen Gründen
behandelt werden:

Data Mining-Verfahren können nicht mit fehlenden Werten
umgehen

Attribute mit überwiegend fehlenden Werten sind nutzlos
26
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Missing Value - Dieser Knoten hilft dabei
fehlende Werte in Zellen zu behandeln
27
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer

Wie soll man mit fehlende Daten umgehen?

Spielt die Positionierung des Missing-Value Knoten eine Rolle?
28
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer


Herzdaten:
 Auswertung verschiedener Eigenschaften, die ausschlaggebend für das Auftreten eines Herzleidens sein könnten
 Ziel-Attribut „heart“
Contract-Daten:
 Ziel-Attribut ist die Akzeptierbarkeit von Arbeitsverträgen
29
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.3 Datensäuberung
Anwendungsempfehlungen (1/2)
Behandlung fehlender Werte:


Entfernen von Tupeln, bei denen Werte fehlen ist sinnvoll,

wenn die Klassifikation fehlt

wenn dies wenige Tupel betrifft
Entfernen des Attributes ist sinnvoll,

wenn dies viele Tupel betrifft
30
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
31
Anwendungsempfehlungen (2/2)


Manueller Nachtrag der fehlenden Werte

sehr zeitaufwendig

nur sinnvoll bei wenigen fehlenden Werten

Semantik der fehlenden Werte muss berücksichtigt werden
Vorhersage eines wahrscheinlichen Wertes

Lernen einer Klassifikation zur Vorhersage des betroffenen
Attributs

Daten-Training

Zu viel Training der Daten führt zu einem schlechteren Ergebnis
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
32
4. Schlussfolgerung

Der Bereich der Datenvorverarbeitung ist sehr vielfältig

Durch sie kann die Auswertung eines Datensatzes vereinfacht
und verbessert werden

Fehler werden in der Datenvorverarbeitung gesucht, erkannt
und bearbeitet

Mit der Software Knime kann die Datenvorverarbeitung sehr gut
und umfangreich gestaltet werden
Die Datenvorverarbeitung ist zur Auswertung von
Datensätzen unumgänglich und äußerst wichtig!
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Quellen

Althoff, Klaus-Dieter (2005)
„Wissensentdeckung und maschinelles Lernen“, Vorlesungsfolien der Universität Hildesheim
2005;URL:http://www.iis.unihildesheim.de/files/teaching/wintersemester20042005/VorlesungWissensentdeckung/Resourcen/2004-weml12.pdf, letzter Abruf: 05.06.2013

Reuter, Matthias (2004)
„Datenvorverarbeitung (Preprocessing)“, URL: http://www2.in.tu-clausthal.de/~reuter/fd.htm, letzter Abruf:
05.06.2013

Werth, Oliver (2004/2005)
„Datenvorverarbeitung von nominalen Daten für DataMining“, http://www.ke.tudarmstadt.de/lehre/oberseminar/folien/Werth_Oliver-Slides.pdf, S. 4, letzter Abruf: 05.06.2013

Cleve, Jürgen (2011)
„DataMining Skript WS 2011/12“Hochschule Wismar, Fakultät für Wirtschaftswissenschaften, S. 59 ff.
33
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Vielen Dank für Ihre
Aufmerksamkeit!
Wir stehen Ihnen nun für
weiterführende Fragen
zur Verfügung!
34