Transcript Folie 1

FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Business Intelligence (BI)
Business Intelligence (BI) gilt heute als generalisierender Begriff für Methoden des
intelligenten Sammelns und Auswerten von Daten mit dem Ziel einen Mehrwert für die
Unternehmenssteuerung zu erzielen.
Das Messen der wichtigsten Ist-Zustände
(Key Performance
Indicator) im Verbund
mit analytischen
Verfahren (OLAP, Data
Mining) und daraus
abgeleiteten Vorhersagen (Forecasting)
sollen den Produktivitätsfaktor "Information" maximal verwerten.
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Die Business-Intelligence-Pyramide
Hervorragende
Kapitalrendite
Zusammensetzung
und Umsetzung
Wissen
(Fähigkeit zum Beantworten aller
geschäftsrelevanten Fragen)
Erkenntnisse
(gezielt, zeitnahe, vollständige, aber auch einfache Analyse)
Informationen
(relevant, vollständig, kontextbezogen, zuverlässig, aktuell)
Daten
(Integration, Bereinigung, Unternehmensmodellierung, Konsolidierung;
Transformation und Aggregation)
Quelle: frei nach IT-FOKUS 6/2003
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Data Warehouse
Ein Data Warehouse ist eine sachverhaltsbezogene, integrierte,
unveränderliche und zeitraumbezogene Datensammlung zur Unterstützung
von Managemententscheidungen.
W. H. Inmon (USA 1996)
Ein Data Warehouse ist eine Sammlung von integrierten Informationen,
welche von den betrieblichen operativen Systemen und anderen externen
Datenquellen gewonnen werden. Der spezielle Zweck ist die Unterstützung
von betrieblichen Entscheidungen, nicht betrieblichen Tätigkeiten.
M. J. Corey, M. Abbey (USA 1997)
Mit dem Begriff Data Warehouse i.e.S. wird generell eine von den operationalen DV-Systemen isolierte Datenbank umschrieben, die als unternehmensweite Datenbasis für alle Ausprägungen managementunterstützender Systeme dient und durch eine strikte Trennung von operationalen und entscheidungsunterstützenden Daten und Systemen gekennzeichnet ist.
Mucksch, Behme (BRD 1997)
Es gibt sehr gute Portale, z. B.: http://www.datawarehousingonline.com/
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Grundlegende Architektur eines Data Warehouse
( frei nach Quelle: Anahory/Murray: Datawarehouse, S. 59 )
Ausführliche
Informationen
Zusammenfassungsinformationen
Meta-Daten
Warehouse-Manager
Archivierte
ausführliche
Informationen
Abfragemanager
Externe
Daten
Einfügemanager
Operationale
Daten
OLAP-Werkzeuge
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Speicherung im Data Warehouse
relational
(denormalisiert Star- bzw. Snowflake-Schema)
multidimensional
(Cube)
Auswertung mittels OLAP
(Online Analytical Processing)
ROLAP
MOLAP
(relationales OLAP)
(multidimensionales OLAP)
HOLAP
(hybrides OLAP)
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Spezielle Data-Warehouse-Datenmodelle strukturieren
das Data Warehouse (DWH)
Kernpunkt der Speicherung ausführlicher Data-Warehouse
Informationen zu einem ausgewählten Thema ist immer
eine Faktentabelle mit zu analysierenden Messwerten.
Diese wird mit Dimensionswerten (vermutete Einflussgrößen auf die
Entwicklung der Fakten) indiziert, um die Fakten aus unterschiedlichen
Sichten analysieren zu können. Das daraus entstehende typische
Schema des Modells wird Star-Schema (bzw. in erweiterter Form auch
Star- oder Snowflake-Schema) genannt).
Dimension 1
Dimension 2
Fakt
Dimension n
Dimension 5
Dimension 3
Dimension 4
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Starflake-Schema einer Datenbank
Beispiel
Monat
Quartal
Produkt
Periode
Versand
(Fakten)
SommerSaison
Vertrieb
Markt
Legende:
Faktentabelle
Star-Dimensionsdaten
Snowflake-Dimensionsdaten
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Beispiel einer Dimensionstabelle "Periode"
Schlüssel
Bezeichnung
Jahr
Quartal
Monat
Saison
00001
00002
00003
00004
00005
00006
…
01007
01008
01009
01010
01011
Jan. 2000
Feb. 2000
Mär. 2000
Apr. 2000
Mai 2000
Jun. 2000
…
Jul. 2001
Aug. 2001
Sep. 2001
Okt. 2001
Nov. 2001
2000
2000
2000
2000
2000
2000
…
2001
2001
2001
2001
2001
1
1
1
2
2
2
…
3
3
3
4
4
1
2
3
4
5
6
…
7
8
9
10
11
0
0
0
0
1
1
…
1
1
1
0
0
01012
02001
Dez. 2001
Jan. 2002
2001
2002
4
1
12
1
0
0
Spalten in Dimensionstabellen spiegeln Hierarchien wieder, z. B.
Jahr  Quartal  Monat  Bezeichnung aber auch Saison  Jahr u.a.
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Hierarchien in Dimensionen
1. Ausgeglichene Hierachien
1. Quartal  Januar
Februar März
2. Quartal  April
Mai
Juni
2002
3. Quartal  Juli
August
September
4. Quartal  Oktober November Dezember
Jahr
Quartal
Monat
Anmerkung: Benennung der Hierarchien einfach.
Beispiel Periode
2. Unausgeglichene Hierachien
Beispiel Abteilungsstruktur
Firmenkunden
 Großkunden Kleinkunden
Privatkunden
 Region Süd Region Nord
Öffentlicher Dienst
Anmerkung: Benennung der Hierarchien schwierig.
3. Unregelmäßige Hierachien
Beispiel Regionen
Land

Region  Staat
Anmerkung: Benennung der Hierarchien einfach, aber bestimmte Hierarchiestufen ggf. bedeutungslos für bestimmte Werte. Z. B. keine Region und kein
Staat für Lichtenstein.
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Fragestellungen - Datenräume - Methoden
Fragestellung
Welchen Preis hat
Produkt 3497?
Welcher Umsatz wurde
mit Produkt 3497 in
Berlin im Monat Februar
2001 erzielt?
Wie haben sich die
Umsätze in den letzten
drei Jahren verändert?
Welche Faktoren
beeinflussen den Umsatz
unserer Produkte in den
Mittelmeerländern?
Raum
Mathematische Disziplin
Datenraum
Mengenlehre,
Mengenalgebra
Multidimensionaler
Raum
Online Analytical
Processing (OLAP):
Pivot Tabellen
Varianzraum
Data Mining:
Regression
Korrelation
Raum der
Einflussgrößen
Data Mining:
Entscheidungsbäume,
Cluster Analyse,
Neuronale Netze
FHTW Berlin
Datenbanken
Typisierung von OLAP-Abfragen
rotate ("Drehen" des OLAP-Würfels)
Es interessiert der Zusammenhang
einiger ausgewählter Dimensionen .
slice ("Ausschneiden" von Ebenen
aus dem OLAP-Würfel)
Eine Dimension wird auf einen
interessierenden Wert eingeschränkt.
dice ("Abteilen" von Teilwürfeln aus
dem OLAP-Würfel)
Einschränkung der Dimensionen auf
einen ausgewählten Wertebereich.
Prof. Dr. Zschockelt
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Zur Methodik der Pivot-Tabelle
(am Beispiel MS-Excel)
Fakten
Dimension 1 (vertikal)
Dimension 3 (Blatt)
Dimension 2 (horizontal)
Quelldaten
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Navigieren in multidimensionalen Speichern
Fakten (Measures)
Dimension
Roll-up
Drill-Down
1000 €
Produkt A
1000 €
1000 €
960 €
Produkt B
960 €
960 €
5345 €
5345 €
4600 €
4600 €
123560 €
123560 €
876500 €
876500
…
5345 €
Produktgruppe 1
2020 €
Produkt E
450 €
Produkt F
…
4600 €
Produktgruppe 2
…
123560 €
Produktkategorie X
…
876500 €
Roll-up
Drill-down
Gesamt
vom Detail zur Aggregation
vom Aggregat zum Detail
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Gegenüberstellung OLAP/RDBMS
OLAP-Datenbank
Relationale Datenbank
Art der Abfrage
analytisch
transaktionsorientiert
Abfragesprache
Herstellerspezifisch, zukünftig standardisiert durch das OLAP-Council und
Microsofts OLE DB for OLAP
Structured Query
Language (SQL)
Abfragegeschwindigkeit
vorhersagbar schnell
nicht vorhersagbar
Berechnungsmöglichkeiten
umfangreich und über mehrere
Dimensionen (Cross Dimensional)
begrenzt
UpdateMechanismus
zyklisch
Echtzeit
Speicherform
mehrdimensional
zweidimensional
Wachstum der
Daten
Abhängig von der Dichte der Daten,
daher schwierig vorhersagbar
einfach vorhersagbar
Technisches Symbol
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Datentransformation mit ETL-Tools
Datenquellen
Ziel-Datenbank
ETL
Extract
Transform
Load
Data Warehouse
Data Mart
OLTP-Datenbank
ETL-Tools dienen zur Migration von Quelldaten in eine andere
Datenressource in der Regel innerhalb einer analytischen Umgebung.
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Merkmale des ETL-Prozesses
Merkmal
Ausprägung
volle Extraktion
Extraktion aller in einem Quellsystem
vorhandenen Datensätze
Delta-Extraktion
Einlesen eingefügter oder aktualisierter
Datensätze
Push-Szenario
Initiator des ETL-Prozesses ist das
Quellsystem
Pull-Szenario
Initiator des ETL-Prozesses ist das
Data Warehouse
synchrone Extraktion
Extraktion der Datensätze in Real-time
asynchrone Extraktion
Datensätze werden gespeichert und
später weitergeleitet
asynchrones Batching
erfolgt auf Abruf, ereignisgesteuert oder
per zeitlicher Einplanung (Scheduling)
Mapping
Projektion aller Datensätze der
Quellsysteme
Selektion
Auswahl analyserelevanter Daten
Aggregation
festgelegte Granularitätsstufe
Art der Extraktion
Extraktionsszenario
Warte-/Ladezeit
Gültigkeitsbereich
der Daten
Beschreibung
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Ausgewählte Analysewerkzeuge für BI
Anbieter
Produkt
WWW
Arcplan
inSight/dynaSight
www.arcplan.de
Business
Objects
BusinessObjects/
OLAP@Work
www.businessobjects.com
Cognos
NowaView/PowerPlay
www.cognos.de
Comshare
DecisionWeb
www.codec.de
Hyperion
Wired for OLAP
www.hyperion.de
Information
Builders
WebFOCUS
www.informationbuilders.com
Intellicube
Software AG
OnVision
www.intellicube.de
Knosys
ProClarity
www.dcsoft.de
Microsoft
MS-Excel 2000
www.microsoft.de
MIS AG
Decisionware
www.mis.de
Seagate
Software
Info
www.seagatesoftware.com
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Business Objekts Enterprise Beispiel eines BI-Tools
Quelle:
IT-FOKUS
6/2003
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Portale als Data Warehouse Client
Ziel: Kombination von Data Warehouse-, Analyse- und ReportingLösungen auf Basis einer integrierten Portalstruktur.
 Endnutzergerechte BI-Tools.
 Data-Warehouse-Basisstruktur.
Beispiel BA: http://www.hyperwave.com/d/references/ba.html
IT-Infrastruktur
 Portal-Framework (z. B. zur Personalisierung ).
 Einbindung heterogener Datenquellen durch Portlets.
Anforderungen
• Technologische Integration von OLTP- und Data WarehouseSystemen.
• Online-Verfügbarkeit des Data Warehouse.
• Abrufbarkeit von unterschiedlichen Endgeräten;
Wiedererkennungseffekte.
• Angemessene Sicherheit bei parallelen Zugriffsmöglichkeiten.
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Beispiel InSight Marktführer der BI-Tools
Aus der MS-OLAP-Server-DEMO footmart werden ausgewählte Sichten (rechte Seite)
als Grafik angezeigt. Quelle: http://www.dynasight.com/ von Arcplan.
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Übersicht über relevante Data Warehouse Anbieter
Anbieter
Produkt
WWW
Cognos
BI Platform
www.cognos.de *.com
Hyperion
Hyberion Essbase
www.hyberion.de *.com
IBM
Visual Warehouse
www.ibm.de
Information Builders
SmartMart
www.informationbuilders.com
Informix
Informix MetaCube ROLAP
www.informix.com
Microsoft
OLAP- / Analysis Services
www.microsoft.de *.com
MicroStrategy
MicroStrategy
www.microstrategy.com
NCR
TeraData
www.ncr.com
Oracle
Express
www.oracle.de
Pilot
DSS Suite
www.pilotsw.com
SAP
Business Warehouse
www.sap.de
SAS
SAS System
www.sas.com
Seagate Software
Holos
www.seagatesoftware.com
Sybase
Sybase Warehouse Studio
www.sybase.com
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Marktübersicht Data Warehouses (Computer Zeitung Ausgabe 09/2004)
Anbieter
Hersteller
Produktname
Web-Adresse
Installationszahl (D/USA)
Aruba Informatik
Aruba Informatik
EIS / EIP
www.aruba-informatik.de
ca. 350 Installationen gesamt
Bytesteps
Bytesteps
Olymp
www.bytesteps.net
auf Anfrage
Group 1 Software
Group 1 Software
Sagent Solution
www.group1.de
100 (Deutschland), 2.000 (weltweit)
Informatica
Informatica
Powercenter
www.informatica.com/de
500 (Deutschland), 5.000 (weltweit)
MicroStrategy Deutschland
MicroStrategy
MicroStrategy 7i
www.microstrategy.de
keine Angabe
MID
MID
Innovator
www.mid.de
auf Anfrage
m:pro IT Consult
m:pro IT Consult
m:odm/m:pro object Data Model
www.mpro.de
30
Oracle
Oracle
Oracle Data Warehouse
www.oracle.com/de
keine Angabe
Orenburg
Orenburg
Board M.I.T.
www.board.de
> 1.000
PeopleSoft
PeopleSoft
Enterprise Warehouse
www.peoplesoft.de
keine Angabe
Retek Deutschland
Retek Deutschland
Retek Data Warehouse
www.retek.com
ca. 50
Samac Software
Samac Software
Dyna Server/400
www.samac.de
keine Angabe
Samac Software
Samac Software
Dyna Server/Windows
www.samac.de
keine Angabe
Samac Software
Samac Software
Mining Server/400
www.samac.de
keine Angabe
Samac Software
Samac Software
MIT/400
www.samac.de
keine Angabe
Scopeland Technology
Scopeland Technology
Scopeland 2000 (DW)
www.scopeland.de
ca. 100
Teradata, a division of NCR
Teradata
Teradate Warehouse Miner
www.teradata.com
100 Kunden weltweit
Transaction Software
Transaction Software
Transbase Hypercube
www.transaction.de
keine Angabe
Alle Daten beruhen auf Angaben der Hersteller oder Distributoren.
Für die Richtigkeit der Daten wird keine Haftung übernommen.
(c) AWi Verlag 1999-2004.
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Typische betriebliche Data-Warehouse-Umgebung
Data Marts für Abteilungen
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Anwendungsszenarien für Data Mining
Beispielhafte
Prognosemodell
Fragestellungen
Response-Wahrscheinlichkeit
Aufgaben des
Prognose
Data Mining
Methoden des
Neuronale
Data Mining
Netze
Identifikation
ertragreicher
Segmente
Segmentierung
und
Kategorisierung
Entscheidungsbäume
Analyse von
Kaufmustern
Assoziationsanalyse
Clusterverfahren
Customer
Profiling
Klassifikation
Assoziationsverfahren
Beispielhafte
Fragestellungen
Aufgaben des
Data Mining
Methoden des
Data Mining
in MS-SQL-Server 2000 Analysis Services implementiert.
Data Mining bietet eine Reihe von Methoden, die je nach Aufgabe und Fragestellung zum
Einsatz kommen, um bisher verborgene Zusammenhänge in der Datenbasis aufzudecken.
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Prinzip des Training und der Vorhersage
Vorhersagedaten
Einflussdaten
Vorhersage (apply)
Klassenbildung (build)
"Training des Modells"
Häufigkeiten
Falldaten
Ein Modell wird trainiert, auf Basis der
ermittelten Wahrscheinlichkeiten
werden Vorhersagedaten berechnet.
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
MS-Analysis-Services Begriffswelt
• Ziel eines Dataminingmodells ist das Erkennen von Mustern in einer datenbankgespeicherten Datenmenge (= trainieren); zum Beispiel das Erkennen des Musters,
nach dem Kunden ihre Kundenkarten auswählen.
• Um die für die Mustererkennung erforderlichen Daten auswerten zu können, muss
eine Tabelle (Dimension) ausgewählt werden, welche die zu untersuchenden Fälle
enthält (Fallschlüsseltabelle). Nach der Data Warehouse Begriffswelt sind die zu
untersuchen-den Fälle immer Bestandteil einer Dimension (nicht der Fakten).
• Ein Fall bezeichnet die Datensammlung, aus der eine zu analysierende Einheit
besteht (z. B. die Daten eines Kunden).Er wird durch die Fallschlüsselspalte (z. B.
Kunden-ID) identifiziert.
• Eine Eigenschaft des Falls (Vorhersagbare Spalte(n)) ist auszuwählen. Für diese
sollen verursachende Eingabewerte ermittelt werden.
• Dafür stehen unterschiedliche Methoden zur Verfügung:
"Microsoft Decision Trees" für die Berechnung von Entscheidungsbäumen.
"Microsoft Clustering" ("Nearest Neighbor-Verfahren") für die Clusteranalyse
(hierbei entfallen vorhersagbare Spalten).
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
MS-Analysis-Service Plus und Minus
+
• Erweiterung der DB-Funktionalität
• Transfermöglichkeit des Modells auf andere Datenquellen
• Gemeinsame Bedienoberfläche
mit OLAP-Tools
• Enge Integration mit OLAPSpeicher und RDBMS MSSQL-Server 2000
• Gute Dokumentation, inklusive
Anwendungsbeispiel
• Geringer Methodenvorrat
• Schlichte Ergebnispräsentation
• MS OLE DB Provider for
Data Mining Services unausgereift.
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Bewertung von Data Mining Plattformen durch Gartner Group
Challengers
Leaders
 Microsoft
Oracle 
SAP
SAS
Information Builders 
Ability
to
Execute
 Hyperion
Sagent 
Seagate 
Comshare 
Pilot Software 
CA/Platinum 
Gentia 
Niche Player
AlphaBlox
 Panorama
 Arcplan
Visionaries
Completeness of Vision
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Spezialisten machen Data Mining wahrnehmbar
Beispiel SPSS
( http://www.spss.de )
Das Konzept des
Predictive Analytics
soll aus der Analyse
des Vergangenen
Modelle für die Zukunft
generieren.
"Predictive analytics
connects data to
effective action by
drawing reliable
conclusions about
current conditions and
future events. "
FHTW Berlin
Datenbanken
Prof. Dr. Zschockelt
Produktübersicht SPSS
Statistik
Predictive Analytic Applications
SPSS Produktlinie
DataDistilleries
SPSS WebApp
Market Research
SPSS MR Dimensions
Data Mining
NetGenesis
AnswerTree
Predictive Web Analytics
Clementine
SPSS Predictive Marketing
LexiQuest
Components
Business Intelligence
OLAP Hub
Showcase® Solutions
Analytical components