[2.] Aufbau eines Data WareHouses

Download Report

Transcript [2.] Aufbau eines Data WareHouses

Thema 1
Data WareHouse
Volker Jahns
Themen
1. Einführung - Motivation
2. Aufbau eines DWh
3. Data Marts vs. Data WareHouse
4. Operative Daten vs. Analytische Daten
5. Datenbereitstellung
[1.] Einführung - Motivation
Was ist ein Data Ware House?
 Eine Technik / Konzept unterschiedliche Daten in zentraler Form zu speichern
 Zentrale Informationsquelle für Daten
 Ermöglicht globale Sicht auf heterogene Daten
 Verfolgt das Ziel der Integration und Separation
Definition:
Ein Data-Warehouse ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus
Daten unterschiedlicher Quellen zusammensetzt.
Die Daten werden von den Datenquellen in das Data-Warehouse geladen und dort vor allem für die Datenanalyse und
zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen langfristig gespeichert.
[1.] Einführung - Motivation
Grundlegendes für den Aufbau eines DW
 DW‘s sind in den Bereich der Softwareentwicklung einzuordnen
 Entwicklung durchläuft ein eigenständigen Prozess
 Fachkenntnisse aus der IT und Fachabteilung sind notwendig
[2.] Aufbau eines Data WareHouses
Grundlegendes für den Aufbau eines DW
 Der Aufbau eines DW kann in zwei grundlegende Phasen gegliedert
werden
Konzeptueller Entwurf
Aufbau
IT Entwurf
 Beide Entwürfe werden in dem ALC (Application Life Cycle) – Prozess
detailliert ausgeführt, um eine fundierte Basis für die Umsetzung des DW zu
bilden.
[2.] Aufbau eines Data WareHouses
Grundlegendes für den Aufbau eines DW
Unternehmen
Mehrwert
Vertrieb
Produktion
Magic
ERP‘s
ETL
Anforderungen
ReWe
[2.] Aufbau eines Data WareHouses
Grundlegendes für den Aufbau eines DW
 Der ALC – Prozess wird in folgende Phasen gegliedert
Deployment
Management
Verificiation
[2.] Aufbau eines Data WareHouses
Deployment
Grundlegende Fragen in der Vorstudienphase: FACHABTEILUNG
 Was sind die Ziele?
 Was will man damit erreichen bzw. welche Situation verbessern?
 Können damit Erfolgspotentiale/Wettbewerbsfaktoren geweckt bzw.
gefördert werden?
 Welchen ROI haben wir bzw. gibt es einen?
 DW geeignet oder „Oversized“ ?
[2.] Aufbau eines Data WareHouses
Deployment
Grundlegende Fragen in der Vorstudienphase: IT – Abteilung
 Was für operative Systeme sind vorhanden?
 Welche Daten müssen/sollen übernommen werden?
 Wo liegen die größten Probleme?
 Daten Qualität
 Daten Granularität
 Daten Konsistenz
 Welche DW – Anbieter sind für uns optimal?
 Welche Anforderungen aus der Fachabteilung sind überhaupt realisierbar?
[2.] Aufbau eines Data WareHouses
Implementierung
Drei Varianten stehen zur Verfügung
DW
Op.
Data
Th.P.
Data
Virtuelles DW
Op.
Data
Th.P.
Data
Zentrales DW
DM
Op.
Data
DM
Th.P.
Data
Data Mart
[2.] Aufbau eines Data WareHouses
ALC – Management/Implementierung
Nach der Auswahl der DW-Grobstruktur (Zentral, Virtuell oder DM),
müssen folgende Fragen geklärt werden:
 Granularität der Daten
 Vertikal
 Denormalisierung
Spezialisierung
 Horizontal
Datenhaltung
ETL‘s
 Externe Daten
Generalisierung
 Partitionierung
[3.] Data Warehouse vs. Data Mart
[3.] Data Warehouse vs. Data Mart
 Data Warehouse
Eine von den operativen DV-Systemen isolierte Datenbank, die
als unternehmensweite zentrale Datenbasis für alle
Ausprägungen managementunterstützender Systeme dient
 Data Mart
Datensammlung, die auf die Bedürfnisse einer bestimmten
Abteilung oder eines eingegrenzten Themas ausgerichtet ist.
[3.] Data Warehouse / Data Mart
Kriterien
Data Mart
Data Warehouse
Anwendungsbezug
Ja
Nein, anwendungsneutral
Adressat der
Datenbereitstellung
Abteilung
Unternehmen
Vorherrschende
Datenbanktechnologie
Multidimensional
Relational
Granularität der Daten
Niedrig
Hoch
Datenmenge
Niedrig
Hoch
Menge historischer Daten
Niedrig
Hoch
Optimierungsziel
Abfragegeschwindigkeit
Datenmenge
Anzahl pro Unternehmen
Mehrere
Eines bis sehr wenige
Datenmodell
In jedem Data Mart
unterschiedlich
Einheitliches
Unternehemsmodell
[3.] Daten für operative / analytische Anwendungen (1)
Kriterien
Daten für operative
Anwendungen
Daten für analytische
Anwendungen
Zweck
Unterstützung und
Abwicklung operativer
Geschäftsvorfälle
Informationen für das
Management; Unterstützung
von Entscheidungen,
themenorientiert
Inhalt
Detaillierte, aktuelle
Geschäftsvorfalldaten,
zeitpunktorientiert
Verdichtete und bereinigte
Daten, historische und z.T.
zukünftige Daten,
zeitraumorientiert
Aktualität
Hoch (online, realtime)
Meist keine Tagesaktualität
Modellierung
Altdatenbstände oft nicht
modelliert
(funktionsorientiert)
Sachgebiets- oder
themenbezogen modelliert;
standardisiert und
endbenutzertauglich
[3.] Daten für operative / analytische Anwendungen (2)
Kriterien
Daten für operative
Anwendungen
Daten für analytische
Anwendungen
Zustand
Redundant, inkonsistent,
teilweise unnormalisiert
Konsistent modelliert,
kontrollierte Redundanzen
Änderungen
Laufend
Automatische
Fortschreibung,
Beständigkeit des einmal
übernommenen
Datenbestandes
Abfragen
Strukturiert, vordefiniert
Ad-hoc-Abfragen für
komplexe, ständig
wechselnde Fragestellungen;
vordefinierte
Standardauswertungen
[4.] Operative vs. Analytische Daten
Operative Daten
 Strukturiert für die Verarbeitung in Transaktionssystemen
 Jeder Datensatz muss jederzeit für Lese- und Schreibzugriffe zur
Verfügung stehen
 Details über Daten sind notwendig
Analytische Daten
 Anderer Aufbau als „Operative Daten“
 Analytische Daten wurden verändert/angepasst
 Daten werden komprimiert in Kennzahlen und zusammengefasst
[4.] Operative vs. Analytische Daten
Die Daten können mit folgenden Fragen klassifiziert werden:
 Was?
 Wer?
 Wann?
 Wie?
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
1. Extraktion
= Selektion von Daten aus operativen Datenquellen für das Data Warehouse
 Prüfung der Daten-Verfügbarkeit (Beachtung von Datenschutzrechten,
Eigentumsrechten, Grad der Vertraulichkeit)
 Festlegung des Zeitpunktes zur Daten-Extraktion
 Periodische Extraktion
 Extraktion auf Anfrage
 Ereignisgesteuerte Extraktion
 Sofortige Extraktion
 Temporäre Speicherung im Arbeitsbereich des DW  „Staging Area“
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
2. Transformation
= Eliminierung von Qualitätsmängeln und betriebswirtschaftliche
Aufbereitung der operativen Daten für analytische Fragestellungen mittels
folgender Verfahren:
 Bereinigung  Beseitigung von semantischen und syntaktischen
Mängeln 1. bis 3. Klasse
 Harmonisierung betriebswirtschaftliche Vereinheitlichung
unterschiedlicher Codierungen, Attribute und Schlüssel
 Verdichtung Summierung der Daten auf verschiedenen Stufen im DW
 Anreicherung Speicherung von vorberechneten Kennzahlen im DW
[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“
3. Laden
= Übernahme der Daten aus operativen Vorsystemen in das Data
Warehouse, unterschieden wird in:
 Initiales Füllen des DW mit Daten aus operativen Datenquellen und ggf.
ergänzt durch Archivdaten
 Zyklische Aktualisierung der analytischen Datenbasis
 Aktualisierungsvarianten:
 Kompletter Abzug
 Nur Übernahme der Änderungen
 Auswahl protokollierter Datenbanktransaktionen