PraesentationDatenvorverarbeitung
Download
Report
Transcript PraesentationDatenvorverarbeitung
Datenvorverarbeitung
Grundlagen und Lösungen mit KNIME
Modul Wissensextraktion / Data Mining
Karim Eddarif
(Multimediatechnik)
Christian Meyerhöfer
(Digitale Logistik und Management)
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Gliederung
1. Einführung in die Thematik
2. Grundlagen der Datenvorverarbeitung
3. Datenvorverarbeitung anhand von Beispielen mit Knime
3.1 Datenreduktion
3.2 Datentransformation
3.3 Datensäuberung
4. Schlussfolgerung
2
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
1. Einführung in die Thematik
Datenvorverarbeitung ist im Bereich der Multimediatechnik und
im Logistik-Bereich von Bedeutung
Ziele:
Datenvorverarbeitung mit ihren Bestandteilen und
unterschiedlichen Verfahren vorstellen
Durchführung von Anwendungsbeispielen mithilfe von
Knime
Unterschiedliche Voraussetzungen mit unterschiedlichen
Verfahren
3
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
2. Grundlagen der Datenvorverarbeitung
Zweck der Datenvorverarbeitung:
Reduktion der Eingangsgrößen auf ein Mindestmaß
die Reduktion der Datensätze darf dabei nicht zu einem Verlust
systemrelevanter Parameter führen
Unterschiedliche Varianten und Verfahren dienen der
Verbesserung von Datensätzen
Dadurch kann der Datensatz besser be- und verarbeitet werden
Knime hilft bei der Verbesserung durch Datenvorverarbeitung
4
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
5
Es gibt hauptsächlich vier verschiedene
Datenvorverarbeitungsverfahren
Datenselektion
Datenreduktion
Datentransformation
Datensäuberung
Datenvorverarbeitungsverfahren
Unterschiedliche Datenarten erfordern
unterschiedliche Datenvorverarbeitungsverfahren
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
6
Verschiedene Prozesse der Vorbereitung
sollen das Data Mining vereinfachen
Verbesserung
der Datenqualität
Anreicherung
der Daten
Verringerung der
Dimensionen
Betrachtung der
Daten
Zugriff
auf Daten
Stichproben:
Verteilung
überprüfen
Data Mining
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3. Datenvorverarbeitung mit Knime
Darstellung der einzelnen Verfahren durch die Software Knime
Welchen Einfluss hat eine unterschiedliche Datenvor-
verarbeitung auf das Ergebnis?
Wie geht man mit welchen Daten um?
Experimente mit verschiedenen Datensätzen als erster Ansatz
für Anwendungsempfehlungen
7
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.1 Datenreduktion
Ziel ist es die Zahl der relevanten Dimensionen zu reduzieren
Attribute streichen / auswählen
Korrelationen dienen der Darstellung von Zusammenhängen
zwischen zwei Attributen
Auch unrealistische Werte können eliminiert werden
Streichung von Spalten oder Zeilen mit keinem oder sehr
niedrigen Aussagewert
8
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Korrelation bilden, um die Beziehungen
der Daten zueinander herauszufinden
9
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Tabelle zeigt die Zusammenhänge
der Daten zueinander
10
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Zur Darstellung werden
alle anderen Spalten entfernt
11
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Streudiagramm macht auf Ausreißer
aufmerksam, die begutachtet werden müssen
12
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Durch das Sortieren kann festgestellt werden,
dass einige Daten bzw. Zeilen überflüssig sind
13
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Weiteres Sortieren bestätigt
den Zusammenhang
14
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Das Ergebnis ist die Streichung
einer Spalte und von 54 Zeilen
15
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
16
Beispiel für eine vermutete
nichts aussagende Spalte
ABER: Col3 und Col7 sind wichtig für die Auswertung des
Datensatzes
Ursache liegt in der Aussage der Spalten
Die Aussagefähigkeiten der Daten müssen beachtet
werden, auch wenn nur wenige Attribute vorhanden sind!
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.2 Datentransformation
Überführung der Daten in eine Form, die für Data MiningVerfahren geeigneter ist (Repräsentationsänderung)
Verfahren zur Behandlung von Rauschen können hierzu
gezählt werden
Umkodierung von Attributen (Veränderung des Typ)
Generalisierung: Ersetzung eines numerischen Attributs
durch ein symbolisches Attribut mit quantitativer Aussage,
z.B. niedrig, mittel, hoch
Aggregation: Zusammenfassen mehrerer Tupel zu einem
17
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
18
Datentransformation – Umkodierung von Attributen
Normalisierung von numerischen werten im Wertebereichen
Skalierung von Daten in Intervallen [0..1]
Binning ermöglicht die Intervallbildung von numerischen
Daten
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Auto-Binner erstellt eine neue Spalte
Veränderung der Darstellung, aber nicht des Informationsgehaltes eines Attributes.
19
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Das Ergebnis mit der alten Spalte
und ohne Binning ist sehr unübersichtlich
20
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
21
Nach dem Auto-Binning erhält meine eine übersichtliche Darstellung der gebildeten Intervalle
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Das Numeric Binner benötigt Eingabeinformationen über die zu bildenden Intervalle
22
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Auch hier ergibt sich eine wesentlich
übersichtlichere Darstellung der Altersgruppen
23
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
24
Datentransformation - Generalisierung
Reduktion des Informationsgehaltes eines Attributs
Zusammenfassung mehrerer Ausprägungen eines
symbolischen Attributes zu einer einzigen Ausprägung
z.B. c_temperat>=80 -> High, c_temperat>=70 && c_temperat<80 ->Mittel
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Datentransformation - Java-Snippet Node
25
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.3 Datensäuberung
Rohdaten sind oft Lückenhaft
Fehlerhaft oder wenig sorgfältig erfasste Daten
Fehlende Werte müssen aus verschiedenen Gründen
behandelt werden:
Data Mining-Verfahren können nicht mit fehlenden Werten
umgehen
Attribute mit überwiegend fehlenden Werten sind nutzlos
26
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Missing Value - Dieser Knoten hilft dabei
fehlende Werte in Zellen zu behandeln
27
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Wie soll man mit fehlende Daten umgehen?
Spielt die Positionierung des Missing-Value Knoten eine Rolle?
28
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Herzdaten:
Auswertung verschiedener Eigenschaften, die ausschlaggebend für das Auftreten eines Herzleidens sein könnten
Ziel-Attribut „heart“
Contract-Daten:
Ziel-Attribut ist die Akzeptierbarkeit von Arbeitsverträgen
29
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
3.3 Datensäuberung
Anwendungsempfehlungen (1/2)
Behandlung fehlender Werte:
Entfernen von Tupeln, bei denen Werte fehlen ist sinnvoll,
wenn die Klassifikation fehlt
wenn dies wenige Tupel betrifft
Entfernen des Attributes ist sinnvoll,
wenn dies viele Tupel betrifft
30
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
31
Anwendungsempfehlungen (2/2)
Manueller Nachtrag der fehlenden Werte
sehr zeitaufwendig
nur sinnvoll bei wenigen fehlenden Werten
Semantik der fehlenden Werte muss berücksichtigt werden
Vorhersage eines wahrscheinlichen Wertes
Lernen einer Klassifikation zur Vorhersage des betroffenen
Attributs
Daten-Training
Zu viel Training der Daten führt zu einem schlechteren Ergebnis
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
32
4. Schlussfolgerung
Der Bereich der Datenvorverarbeitung ist sehr vielfältig
Durch sie kann die Auswertung eines Datensatzes vereinfacht
und verbessert werden
Fehler werden in der Datenvorverarbeitung gesucht, erkannt
und bearbeitet
Mit der Software Knime kann die Datenvorverarbeitung sehr gut
und umfangreich gestaltet werden
Die Datenvorverarbeitung ist zur Auswertung von
Datensätzen unumgänglich und äußerst wichtig!
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Quellen
Althoff, Klaus-Dieter (2005)
„Wissensentdeckung und maschinelles Lernen“, Vorlesungsfolien der Universität Hildesheim
2005;URL:http://www.iis.unihildesheim.de/files/teaching/wintersemester20042005/VorlesungWissensentdeckung/Resourcen/2004-weml12.pdf, letzter Abruf: 05.06.2013
Reuter, Matthias (2004)
„Datenvorverarbeitung (Preprocessing)“, URL: http://www2.in.tu-clausthal.de/~reuter/fd.htm, letzter Abruf:
05.06.2013
Werth, Oliver (2004/2005)
„Datenvorverarbeitung von nominalen Daten für DataMining“, http://www.ke.tudarmstadt.de/lehre/oberseminar/folien/Werth_Oliver-Slides.pdf, S. 4, letzter Abruf: 05.06.2013
Cleve, Jürgen (2011)
„DataMining Skript WS 2011/12“Hochschule Wismar, Fakultät für Wirtschaftswissenschaften, S. 59 ff.
33
Datenvorverarbeitung, Karim Eddarif & Christian Meyerhöfer
Vielen Dank für Ihre
Aufmerksamkeit!
Wir stehen Ihnen nun für
weiterführende Fragen
zur Verfügung!
34