[2.] Aufbau eines Data WareHouses
Download
Report
Transcript [2.] Aufbau eines Data WareHouses
Thema 1
Data WareHouse
Volker Jahns
Themen
1. Einführung - Motivation
2. Aufbau eines DWh
3. Data Marts vs. Data WareHouse
4. Operative Daten vs. Analytische Daten
5. Datenbereitstellung
[1.] Einführung - Motivation
Was ist ein Data Ware House?
Eine Technik / Konzept unterschiedliche Daten in zentraler Form zu speichern
Zentrale Informationsquelle für Daten
Ermöglicht globale Sicht auf heterogene Daten
Verfolgt das Ziel der Integration und Separation
Definition:
Ein Data-Warehouse ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus
Daten unterschiedlicher Quellen zusammensetzt.
Die Daten werden von den Datenquellen in das Data-Warehouse geladen und dort vor allem für die Datenanalyse und
zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen langfristig gespeichert.
[1.] Einführung - Motivation
Grundlegendes für den Aufbau eines DW
DW‘s sind in den Bereich der Softwareentwicklung einzuordnen
Entwicklung durchläuft ein eigenständigen Prozess
Fachkenntnisse aus der IT und Fachabteilung sind notwendig
[2.] Aufbau eines Data WareHouses
Grundlegendes für den Aufbau eines DW
Der Aufbau eines DW kann in zwei grundlegende Phasen gegliedert
werden
Konzeptueller Entwurf
Aufbau
IT Entwurf
Beide Entwürfe werden in dem ALC (Application Life Cycle) – Prozess
detailliert ausgeführt, um eine fundierte Basis für die Umsetzung des DW zu
bilden.
[2.] Aufbau eines Data WareHouses
Grundlegendes für den Aufbau eines DW
Unternehmen
Mehrwert
Vertrieb
Produktion
Magic
ERP‘s
ETL
Anforderungen
ReWe
[2.] Aufbau eines Data WareHouses
Grundlegendes für den Aufbau eines DW
Der ALC – Prozess wird in folgende Phasen gegliedert
Deployment
Management
Verificiation
[2.] Aufbau eines Data WareHouses
Deployment
Grundlegende Fragen in der Vorstudienphase: FACHABTEILUNG
Was sind die Ziele?
Was will man damit erreichen bzw. welche Situation verbessern?
Können damit Erfolgspotentiale/Wettbewerbsfaktoren geweckt bzw.
gefördert werden?
Welchen ROI haben wir bzw. gibt es einen?
DW geeignet oder „Oversized“ ?
[2.] Aufbau eines Data WareHouses
Deployment
Grundlegende Fragen in der Vorstudienphase: IT – Abteilung
Was für operative Systeme sind vorhanden?
Welche Daten müssen/sollen übernommen werden?
Wo liegen die größten Probleme?
Daten Qualität
Daten Granularität
Daten Konsistenz
Welche DW – Anbieter sind für uns optimal?
Welche Anforderungen aus der Fachabteilung sind überhaupt realisierbar?
[2.] Aufbau eines Data WareHouses
Implementierung
Drei Varianten stehen zur Verfügung
DW
Op.
Data
Th.P.
Data
Virtuelles DW
Op.
Data
Th.P.
Data
Zentrales DW
DM
Op.
Data
DM
Th.P.
Data
Data Mart
[2.] Aufbau eines Data WareHouses
ALC – Management/Implementierung
Nach der Auswahl der DW-Grobstruktur (Zentral, Virtuell oder DM),
müssen folgende Fragen geklärt werden:
Granularität der Daten
Vertikal
Denormalisierung
Spezialisierung
Horizontal
Datenhaltung
ETL‘s
Externe Daten
Generalisierung
Partitionierung
[3.] Data Warehouse vs. Data Mart
[3.] Data Warehouse vs. Data Mart
Data Warehouse
Eine von den operativen DV-Systemen isolierte Datenbank, die
als unternehmensweite zentrale Datenbasis für alle
Ausprägungen managementunterstützender Systeme dient
Data Mart
Datensammlung, die auf die Bedürfnisse einer bestimmten
Abteilung oder eines eingegrenzten Themas ausgerichtet ist.
[3.] Data Warehouse / Data Mart
Kriterien
Data Mart
Data Warehouse
Anwendungsbezug
Ja
Nein, anwendungsneutral
Adressat der
Datenbereitstellung
Abteilung
Unternehmen
Vorherrschende
Datenbanktechnologie
Multidimensional
Relational
Granularität der Daten
Niedrig
Hoch
Datenmenge
Niedrig
Hoch
Menge historischer Daten
Niedrig
Hoch
Optimierungsziel
Abfragegeschwindigkeit
Datenmenge
Anzahl pro Unternehmen
Mehrere
Eines bis sehr wenige
Datenmodell
In jedem Data Mart
unterschiedlich
Einheitliches
Unternehemsmodell
[3.] Daten für operative / analytische Anwendungen (1)
Kriterien
Daten für operative
Anwendungen
Daten für analytische
Anwendungen
Zweck
Unterstützung und
Abwicklung operativer
Geschäftsvorfälle
Informationen für das
Management; Unterstützung
von Entscheidungen,
themenorientiert
Inhalt
Detaillierte, aktuelle
Geschäftsvorfalldaten,
zeitpunktorientiert
Verdichtete und bereinigte
Daten, historische und z.T.
zukünftige Daten,
zeitraumorientiert
Aktualität
Hoch (online, realtime)
Meist keine Tagesaktualität
Modellierung
Altdatenbstände oft nicht
modelliert
(funktionsorientiert)
Sachgebiets- oder
themenbezogen modelliert;
standardisiert und
endbenutzertauglich
[3.] Daten für operative / analytische Anwendungen (2)
Kriterien
Daten für operative
Anwendungen
Daten für analytische
Anwendungen
Zustand
Redundant, inkonsistent,
teilweise unnormalisiert
Konsistent modelliert,
kontrollierte Redundanzen
Änderungen
Laufend
Automatische
Fortschreibung,
Beständigkeit des einmal
übernommenen
Datenbestandes
Abfragen
Strukturiert, vordefiniert
Ad-hoc-Abfragen für
komplexe, ständig
wechselnde Fragestellungen;
vordefinierte
Standardauswertungen
[4.] Operative vs. Analytische Daten
Operative Daten
Strukturiert für die Verarbeitung in Transaktionssystemen
Jeder Datensatz muss jederzeit für Lese- und Schreibzugriffe zur
Verfügung stehen
Details über Daten sind notwendig
Analytische Daten
Anderer Aufbau als „Operative Daten“
Analytische Daten wurden verändert/angepasst
Daten werden komprimiert in Kennzahlen und zusammengefasst
[4.] Operative vs. Analytische Daten
Die Daten können mit folgenden Fragen klassifiziert werden:
Was?
Wer?
Wann?
Wie?
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
1. Extraktion
= Selektion von Daten aus operativen Datenquellen für das Data Warehouse
Prüfung der Daten-Verfügbarkeit (Beachtung von Datenschutzrechten,
Eigentumsrechten, Grad der Vertraulichkeit)
Festlegung des Zeitpunktes zur Daten-Extraktion
Periodische Extraktion
Extraktion auf Anfrage
Ereignisgesteuerte Extraktion
Sofortige Extraktion
Temporäre Speicherung im Arbeitsbereich des DW „Staging Area“
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
2. Transformation
= Eliminierung von Qualitätsmängeln und betriebswirtschaftliche
Aufbereitung der operativen Daten für analytische Fragestellungen mittels
folgender Verfahren:
Bereinigung Beseitigung von semantischen und syntaktischen
Mängeln 1. bis 3. Klasse
Harmonisierung betriebswirtschaftliche Vereinheitlichung
unterschiedlicher Codierungen, Attribute und Schlüssel
Verdichtung Summierung der Daten auf verschiedenen Stufen im DW
Anreicherung Speicherung von vorberechneten Kennzahlen im DW
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
3. Laden
= Übernahme der Daten aus operativen Vorsystemen in das Data
Warehouse, unterschieden wird in:
Initiales Füllen des DW mit Daten aus operativen Datenquellen und ggf.
ergänzt durch Archivdaten
Zyklische Aktualisierung der analytischen Datenbasis
Aktualisierungsvarianten:
Kompletter Abzug
Nur Übernahme der Änderungen
Auswahl protokollierter Datenbanktransaktionen