Document 7612402
Download
Report
Transcript Document 7612402
1. Einführung
Motivation
Überblick
Anwendungen
Abgrenzung
Begriff „Data Warehouse“
DW-Architektur
Benchmarks
Sattler / Saake
Data-Warehouse-Technologien
1
Szenario: Getränkemarkt
Umsatz,
Portfolio
Sattler / Saake
S Saufland
Werbung
Data-Warehouse-Technologien
2
DB-Schema
Produkt
kauft
liefert
Lieferant
Menge
Kunde
Sattler / Saake
Data-Warehouse-Technologien
3
DB-Nutzung
Anfragen:
Wie viele Flaschen Cola wurden letzten Monat
verkauft?
Wie hat sich der Verkauf von Rotwein im letzten
Jahr entwickelt?
Wer sind unsere Top-Kunden?
Von welchem Lieferanten beziehen wir die
meisten Kisten?
Probleme
Nutzung externer Quellen (Kundendatenbank,
Lieferantendatenbank, …)
Daten mit historischem Bezug
Sattler / Saake
Data-Warehouse-Technologien
4
Erweitertes Szenario
Saufland
Saufland
Saufland
Sattler / Saake
Data-Warehouse-Technologien
5
DB-Nutzung /2
Anfragen
Verkaufen wir in Ilmenau mehr Bier als
in Erfurt?
Wie viel Cola wurde im Sommer in ganz
Thüringen verkauft?
Mehr als Wasser?
Problem
Anfragen über mehrere Datenbanken
Sattler / Saake
Data-Warehouse-Technologien
6
Lösungen
Variante 1: „Verteilte DB“
Globale Anfrage über mehrere DBs
Sicht mit Union
Nachteil: aufwändige verteilte
Anfrageausführung
Variante 2: „Zentrale DB“
Änderungen über einer zentralen DB
Nachteil: lange Antwortzeiten im
operativen Betrieb
Sattler / Saake
Data-Warehouse-Technologien
7
Data Warehouse-Lösung
S Saufland
S Saufland
Asynchrone Aktualisierung
DB Ilmenau
S Saufland
DB Erfurt
DB Jena
Redundante Datenhaltung,
Transformierte,
vorberechnete Daten
Data Warehouse
Sattler / Saake
Data-Warehouse-Technologien
8
Gegenstand der Vorlesung
Data Warehouse: Sammlung von
Technologien zur Unterstützung von
Entscheidungsprozessen
Herausforderung an Datenbanktechnologien
Datenvolumen (effiziente Speicherung und
Verwaltung, Anfragebearbeitung)
Datenmodellierung (Zeitbezug, mehrere
Dimensionen)
Integration heterogener Datenbestände
Schwerpunkt
Datenbanktechniken von Data Warehouses
Sattler / Saake
Data-Warehouse-Technologien
9
Überblick
Monitoring & Administration
OLAP-Server
MetadatenRepository
Data Warehouse
Externe
Quellen
Operative
Datenbanken
Analyse
Query/Reporting
Extraktion
Transformation
Laden
Data Mining
Werkzeuge
Data Marts
Sattler / Saake
Data-Warehouse-Technologien
10
Betriebswirtschaftliche
Anwendungen
Informationsbereitstellung
Daten und Informationen als Grundlage
einer erfolgreichen Abwicklung von
Geschäftsprozessen (z.B. Kennzahlen)
Anwender: Manager, Abteilungsleiter,
Fachkräfte
Formen der Bereitstellung
Query-Ansätze: frei definierbare Anfragen
und Berichte
Reporting: Zugriff auf vordefinierte Berichte
Redaktionell aufbereitete, personalisierte
Informationen
Sattler / Saake
Data-Warehouse-Technologien
11
Betriebswirtschaftliche
Anwendungen
Analyse
Detaillierte Analyse der Daten zur Untersuchung
von Abweichungen oder Auffälligkeiten
Anwender: Spezialisten (z.B. Controlling,
Marketing)
Planung
Unterstützung durch explorative Datenanalyse
Aggregrierung von Einzelplänen
Kampagnenmanagement
Unterstützung strategischer Kampagnen
Kundenanalyse, Risikoanalyse
Sattler / Saake
Data-Warehouse-Technologien
12
Wissenschaftliche und
Technische Anwendungen
Wissenschaftliche Anwendungen
Statistical und Scientific Databases technische
Wurzeln des DW
Beispiel: Projekt Earth Observing System
(Klima- und Umweltforschung)
täglich ca. 1,9 TB meteorologischer Daten
Aufbereitung und Analyse (statistisch, Data
Mining)
Technische Anwendungen
Öffentlicher Bereich: DW mit Umwelt- oder
geographischen Daten (z.B. Wasseranalysen)
Sattler / Saake
Data-Warehouse-Technologien
13
Einsatzbeispiel
Wal-Mart (www.wal-mart.com)
Marktführer im amerikanischen
Einzelhandel
Unternehmensweites Data Warehouse
Größe: ca. 300 TB (2003)
Täglich bis zu 20.000 DW-Anfragen
Hoher Detaillierungsgrad (tägliche Auswertung
von Artikelumsätzen, Lagerbestand,
Kundenverhalten)
Basis für Warenkorbanalyse,
Kundenklassifizierung, ...
Sattler / Saake
Data-Warehouse-Technologien
14
Fragestellungen und
Aufgaben (Bsp.)
Überprüfung des Warensortiments zur
Erkennung von Ladenhütern oder
Verkaufsschlagern
Standortanalyse zur Einschätzung der
Rentabilität von Niederlassungen
Untersuchung der Wirksamkeit von
Marketing-Aktionen
Auswertung von Kundenbefragungen,
Reklamationen bzgl. bestimmter Produkte
etc.
Analyse des Lagerbestandes
Warenkorbanalyse mit Hilfe der Kassenbons
Sattler / Saake
Data-Warehouse-Technologien
15
Beispiel einer Anfrage
Welche Umsätze sind in den Jahren 1998 und
1999 in den Abteilungen Kosmetik, Elektro und
Haushaltswaren in den Bundesländern
Sachsen-Anhalt und Thüringen angefallen ?
Sattler / Saake
Data-Warehouse-Technologien
16
Ergebnis (Würfel)
Produkt
Summe
Haushalt
Elektro
Kosmetik
1998
1999
Kennzahl
Umsatz
Summe
Zeitraum
n
e
s
h
Sac halt
An
Sattler / Saake
-
e
en
m
g
n
m
ri
u
ü
S
h
T
Region
Data-Warehouse-Technologien
17
Ergebnis (Bericht)
Umsatz
1998
1999
Kosmetik
Elektro
Haushalt SUMME
Sachsen-Anhalt
45
123
17
185
Thüringen
43
131
21
195
SUMME
88
254
38
380
Sachsen-Anhalt
47
131
19
197
Thüringen
40
136
20
196
SUMME
87
267
39
393
175
521
77
773
SUMME
Sattler / Saake
Data-Warehouse-Technologien
18
Marktentwicklung
Marktgröße: Data Warehouse und OLAP (Quelle:
OLAP Report OnLine www.olapreport.com)
3,5
3
2,5
2
Mrd. Euro
1,5
1
0,5
0
Sattler / Saake
1994
1996
1998
2000
2002
Data-Warehouse-Technologien
19
Aspekte von Data Warehouses
Integration
Vereinigung von Daten aus verschiedenen, meist
heterogenen Quellen
Überwindung der Heterogenität auf
verschiedenen Ebenen (System, Schema, Daten)
Analyse
Bereitstellung der Daten in einer vom Anwender
gewünschten Form (bezogen auf
Entscheidungsgebiet)
erfordert Vorauswahl, Zeitbezug, Aggregation
Sattler / Saake
Data-Warehouse-Technologien
20
Abgrenzung zu OLTP
Klassische operative Informationssysteme
Online Transactional Processing (OLTP)
Erfassung und Verwaltung von Daten
Verabeitung unter Verantwortung der jeweiligen
Abteilung
Transaktionale Verarbeitung: kurze Lese-/
Schreibzugriffe auf wenige Datensätze
Data Warehouse
Analyse im Mittelpunkt
lange Lesetransaktionen auf vielen Datensätzen
Integration, Konsolidierung und Aggregation der
Daten
Sattler / Saake
Data-Warehouse-Technologien
21
Abgrenzung zu OLTP: Anfragen
Anfrage
transaktional
Fokus
Lesen, Schreiben,
Lesen, periodisches
Modifizieren, Löschen Hinzufügen
Transaktionsdauer
und –typ
kurze Lese-/
Schreibtransaktionen
lange
Lesetransaktionen
Anfragestruktur
einfach strukturiert
komplex
Datenvolumen
einer Anfrage
wenige Datensätze
viele Datensätze
Datenmodell
anfrageflexibel
analysebezogen
Sattler / Saake
Data-Warehouse-Technologien
analytisch
22
Abgrenzung zu OLTP: Daten
Daten
transaktional
analytisch
Datenquellen
meist eine
mehrere
Eigenschaften
nicht abgeleitet,
zeitaktuell, autonom,
dynamisch
abgeleitet/konsolidier
t, nicht zeitaktuell,
integriert, stabil
Datenvolumen
MByte ... GByte
GByte ... TByte
Zugriffe
Einzeltupelzugriff
Tabellenzugriff
Sattler / Saake
Data-Warehouse-Technologien
23
Abgrenzung zu OLTP: Anwender
Anwender
transaktional
analytisch
Anwendertyp
Ein-/Ausgabe durch
Angestellte oder
Applikationssoftware
Manager, Controller
Analyst
Anwenderzahl
sehr viele
wenige (bis einige
hundert)
Antwortzeit
ms ... sec
sec ... min
Sattler / Saake
Data-Warehouse-Technologien
24
Abgrenzung: DBMS-Techniken
Parallele Datenbanken
Technik zur Realisierung eines DWH
Verteilte Datenbanken
I.d.R. keine redundante Datenhaltung
Verteilung als Mittel zur Lastverteilung
Keine inhaltliche Integration/Verdichtung
der Daten
Föderierte Datenbanken
Höhere Autonomie und Heterogenität
Kein spezifischer Analysezweck
Sattler / Saake
Data-Warehouse-Technologien
25
Data Warehouse: Begriff
A Data Warehouse is a subjectoriented, integrated, non-volatile, and
time variant collection of data in
support of managements decisions.
(W.H. Inmon 1996)
Sattler / Saake
Data-Warehouse-Technologien
26
Data Warehouse: Charakteristika
Fachorientierung (subject-oriented):
Zweck des Systems ist nicht Erfüllung einer Aufgabe (z.B.
Personaldatenverwaltung), sondern Modellierung eines
spezifischen Anwendungsziels
Integrierte Datenbasis (integrated):
Verarbeitung von Daten aus mehreren verschiedenen
Datenquellen (intern und extern)
Nicht-flüchtige Datenbasis (non-volatile):
stabile, persistente Datenbasis
Daten im DW werden nicht mehr entfernt oder geändert
Historische Daten (time-variant):
Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)
Speicherung über längeren Zeitraum
Sattler / Saake
Data-Warehouse-Technologien
27
Weitere Begriffe
Data Warehousing
Data-Warehouse-Prozess, d.h. alle Schritte der
Datenbeschaffung (Extraktion, Transformation,
Laden), des Speicherns und der Analyse
Data Mart
externe (Teil-)Sicht auf das Data Warehouse
durch Kopieren
anwendungsbereichsspezifisch
OLAP (Online Analytical Processing)
explorative, interaktive Analyse auf Basis des
konzeptuellen Datenmodells
Sattler / Saake
Data-Warehouse-Technologien
28
Trennung operativer und
analytischer Systeme
Gründe
Antwortzeitverhalten: Analyse auf operativen
Quelldatensystemen schlechte Performance,
Langfristige Speicherung der Daten
Zeitreihenanalyse
Zugriff auf Daten unabhängig von operativen
Datenquellen (Verfügbarkeit,
Integrationsproblematik)
Vereinheitlichung des Datenformats im DW
Gewährleistung der Datenqualität im DW
Sattler / Saake
Data-Warehouse-Technologien
29
Historie
Wurzeln
60er Jahre: Executive Information Systems (EIS)
qualitative Informationsversorgung von Entscheidern
kleine, verdichtete Extrakte der operativen
Datenbestände
Aufbereitung in Form statischer Berichte
Mainframe
80er Jahre: Management Information Systems (MIS)
meist statische Berichtsgeneratoren
Einführung von Hierarchieebenen für Auswertung von
Kennzahlen (Roll-Up, Drill-Down)
Client-Server-Architekturen, GUI (Windows, Apple)
Sattler / Saake
Data-Warehouse-Technologien
30
Historie
1992: Einführung des Data-Warehouse-Konzeptes
durch W.H. Inmon
redundante Haltung von Daten, losgelöst von
Quellsystemen
Beschränkung der Daten auf Analysezweck
1993: Definition des Begriffs OLAP durch E.F. Codd
Dynamische, multidimensionale Analyse
Weitere Einflussgebiete
Verbreitung geschäftsprozeßorientierter
Transaktionssysteme (SAP R/3) Bereitstellung von
entscheidungsrelevanten Informationen
Data Mining
WWW (Web-enabled Data Warehouse etc.)
Sattler / Saake
Data-Warehouse-Technologien
31
Vorlesung: Zielstellungen
Vermittlung von Kenntnissen zu
Datenbanktechniken für Aufbau und
Implementierung von Data Warehouses
Anwendung bekannter DB-Techniken (siehe
Vorlesung „Datenbanken I“)
Datenmodellierung, Anfragesprachen und
-verarbeitung
DW-spezifische Techniken
multidimensionale Datenmodellierung
spezielle Anfragetechniken
Indexstrukturen
materialisierte Sichten
Sattler / Saake
Data-Warehouse-Technologien
32
DW-Architektur
Komponenten von DW und deren
Aufgaben
Datenbanken
Datenquellen: Herkunftsort der Daten
Arbeitsbereich: temporäre Datenbank für
Transformation
Data Warehouse: physische Datenbank
für Analyse
Repository: Datenbank mit Metadaten
Sattler / Saake
Data-Warehouse-Technologien
33
DW-Architektur
Komponenten
Data-Warehouse-Manager: zentrale Kontrolle
und Steuerung
Monitore: Überwachung der Quellen auf
Veränderungen
Extraktoren: Selektion und Transport der Daten
aus Quellen in Arbeitsbereich
Transformatoren: Vereinheitlichung und
Bereinigung der Daten
Ladekomponenten: Laden der transformierten
Daten in das DW
Analysekomponenten: Analyse und Präsentation
der Daten
Sattler / Saake
Data-Warehouse-Technologien
34
Multidimensionales Datenmodell
Datenmodell zur Unterstützung der Analyse
Fakten und Dimensionen
Klassifikationsschema
Würfel
Operationen: Pivotierung, Roll-Up, Drill-Down,
Drill-Across, Slice und Dice
Notationen zur konzeptuellen Modellierung
Relationale Umsetzung
Star-Schema, Snowflake-Schema
Multidimensionale Speicherung
Sattler / Saake
Data-Warehouse-Technologien
35
Anfrageverarbeitung und
-optimierung
Gruppierung und Aggregation
Supergroups, CUBE
OLAP-Funktionen aus SQL:1999
Star-Joins
Optimierungsaspekte
Histogramme, Sampling
Mehrdimensionale Erweiterungen von
Anfragesprachen
MDX
Sattler / Saake
Data-Warehouse-Technologien
36
Index- und Speicherungsstrukturen
Klassifikation
Wiederholung: B-Baum und B*-Baum
Mehrdimensionale Indexstrukturen
R-Baum
UB-Baum
Bitmap-Index
Vergleich
Multidimensionale Speicherung
Sattler / Saake
Data-Warehouse-Technologien
37
Materialisierte Sichten
Materialisierte Sicht (engl. materialized
view): vorab berechneter Ausschnitt aus
einer Faktentabelle
Verwendung: Anfrageersetzung
generalized projection
Auswahl: Bestimmung der redundant
gehaltenen Daten
statische vs. dynamische Auswahlverfahren
Semantisches Caching
Wartung und Aktualisierung
Sattler / Saake
Data-Warehouse-Technologien
38
Metadaten und Datenqualität
Metadatenmanagement
Metadaten-Repository
Standards für Metadaten
Aspekte der Datenqualität
Sattler / Saake
Data-Warehouse-Technologien
39
OLAP und Data Mining
OLAP
Anforderungen
OLAP-Operationen
OLAP-Werkzeuge
Data-Mining-Technikem
Klassifikation, Assoziationsregeln,
Clustering
Sattler / Saake
Data-Warehouse-Technologien
40
TPC-Benchmarks
Vergleich der Leistungsfähigkeit von
Datenbanken (www.tpc.org)
TPC-C: OLTP Benchmark
TPC-H: Ad-hoc Decision Support
(variable Anteile)
TPC-R: Reporting Decision Support
(feste Anfragen)
TPC-W: eCommerce Transaktionsprocessing
Vorgegebene Schemata (Lieferwesen)
Schema-, Query- und Datengeneratoren
Unterschiedliche DB-Größen
TPC-H: 100 GB - 300 GB - 1 TB - 3 TB
Sattler / Saake
Data-Warehouse-Technologien
41
TPC-H: Schema
REGION
REGION
1
N
1
N
NATION
NATION
1
N
1
CUSTOMER
N
1
N
SUPPLIER
ORDERS
1
1
N
N
PART
Sattler / Saake
1
N
PARTSUPP
1
N
LINEITEM
Data-Warehouse-Technologien
42
TPC-H: Anfragen
SELECT c_name, c_custkey,
o_orderkey, o_orderdate,
o_totalprice, SUM(l_quantity)
FROM customer, orders, lineitem
WHERE o_orderkey IN (SELECT l_orderkey
FROM lineitem
GROUP BY l_orderkey
HAVING SUM(l_quantity) > :1)
AND c_custkey = o_custkey
AND o_orderkey = l_orderkey
GROUP BY c_name, c_custkey, o_orderkey,
o_orderdate, o_totalprice
ORDER BY o_totalprice desc, o_orderdate;
Sattler / Saake
Data-Warehouse-Technologien
43
TPC-H: Zahlen (100 GB)
Sattler / Saake
Data-Warehouse-Technologien
44
TPC-H: Zahlen (3.000 GB)
Sattler / Saake
Data-Warehouse-Technologien
45
Produkte
OLAP-Tools/Server
MS Analysis Services, Hyperion, Cognos
DW-Erweiterungen für RDBMS
Oracle9i, IBM DB2, MS SQL Server: SQLErweiterungen, Indexstrukturen, mat.
Sichten, Bulk-Load/Insert, …
ETL-Tools
MS Data Transformation Services, …
Sattler / Saake
Data-Warehouse-Technologien
46
Literatur
Lehner: „Datenbanktechnologie für DataWarehouse-Systeme“, dpunkt.verlag, 2003
Inmon: „Building the Data Warehouse“,
John Wiley & Sons, 1996
Bauer, Günzel (Hrg.): Data Warehouse –
Architektur, Entwicklung, Anwendung;
dpunkt.verlag, 2000
Westerman: „Data Warehousing: Using the
Wal-Mart Model“, Morgan Kaufman, 2000
Kurz: Data Warehousing: Enabling
Technology; MITP, 1999
Sattler / Saake
Data-Warehouse-Technologien
47