Transcript hurtownie
Kierunki rozwoju technologii informatycznych: Hurtownie Danych
dr inż. Piotr Muryjas
Wyższa Szkoła Przedsiębiorczości i Administracji
Plan wykładu
Problemy eksploatacji SIP
Hurtownia Danych (HD) - przeznaczenie, definicja, struktura, architektura
Punkty krytyczne HD
Projektowanie Hurtowni Danych
2/69
Systemy Informacyjne Przedsiębiorstw (SIP) Poziom strategiczny Poziom taktyczny Poziom operacyjny Eksperckie Wspomagania decyzji Informowania kierownictwa Transakcyjne Podmiot gospodarczy Sfera regulacji Sfera procesów realnych
3/69
Rodzaje SIP
Systemy transakcyjne (ST)
Systemy informowania kierownictwa (MIS)
Systemy wspomagania podejmowania decyzji (DSS)
Systemy eksperckie (EIS)
4/69
Eksploracja danych w ST
Olbrzymia ilość rekordów
Ukryte zależności między danymi
Oczekiwanie na odpowiedź
Ciągły wzrost objętości zbiorów danych
Wiele tabel i relacji między nimi
Opis rzeczywistości w wybranym obszarze funkcjonowania przedsiębiorstwa
5/69
Systemy Informowania Kierownictwa (MIS)
Zasilane zagregowanymi danymi z transakcyjnych systemów dedykowanych
Źródło danych dla MIS znajduje się wewnątrz organizacji
Postać danych i stopień agregacji adekwatne do potrzeb informacyjnych i decyzji podejmowanych przez kierownictwo średniego szczebla
6/69
Systemy Wspomagania Decyzji (DSS)
Budowane w oparciu o wybrane modele biznesowe sytuacji decyzyjnych
Źródło danych to systemy transakcyjne Uwzględniają szerszy aspekt prowadzenia biznesu Stopień agregacji danych uwzględnia różne wymiary analiz
Stosowane na szczeblu taktycznym (kierownictwo wyższego szczebla np. dyrektorzy departamentów)
7/69
Systemy eksperckie (EIS)
Umożliwiają całościowe spojrzenie na organizację i jej miejsce w otoczeniu Odnoszą się do wszystkich, typowych dla organizacji aspektów biznesu Wykorzystują wewnętrzne i zewnętrzne źródła danych
Wykorzystywane na szczeblu strategicznym organizacji (zarządy, rady nadzorcze)
8/69
Systemy DSS i EIS w procesach decyzyjnych Wymagania:
Całościowe spojrzenie na organizację
Prawidłowa ocena aktualnej sytuacji organizacji, oparta na wiarygodnej informacji aktualnej i archiwalnej Możliwość przeprowadzania analiz w dowolnym przekroju informacyjnym niezbędnym dla podjęcia decyzji
9/69
Pojęcie Hurtowni Danych (HD)
Analityczna baza danych przeznaczona jedynie do odczytu, używana jako podstawa systemu wspomagania decyzji
Zintegrowany bank danych wspomagający procesy decyzyjne
Zorientowana tematycznie kolekcja danych, służąca wsparciu procesu podejmowania decyzji kierownictwa
10/69
Pojęcie Hurtowni Danych (HD)
Repozytorium danych z procedurami ich ładowania do HD
Repozytorium uzupełnione minihurtowniami danych
Repozytorium, minihurtownie danych oraz aplikacje analityczne
11/69
Hurtownia Danych - gdzie leży prawda?
Bill Inmon
12/69
Definicja HD System baz danych zawierający dane:
zorientowane tematycznie
zintegrowane
zorganizowane w czasie
trwałe do wspomagania podejmowania decyzji strategicznych.
13/69
Zorientowanie tematyczne HD
Zgromadzone dane opisują problemy
Lokalizacja danych uzależniona od ich treści ekonomicznych
Dane zorientowane na podejmowanie decyzji w różnych obszarach działania
14/69
Integralność danych w HD
Czystość ta sama informacja zapisana jeden raz i tylko na jeden sposób (format, jednostka miary)
Poprawność kontrola danych pobieranych z systemów szczebla operacyjnego
Właściwa agregacja agregujących wybór zmiennych
15/69
Element czasu w HD
Dane utrzymywane są w długim horyzoncie czasu (ponad 5 lat)
Czas jako wymiar innych danych
Dane tworzą szeregi czasowe
Dane załadowane do HD nie są w czasie aktualizowane
16/69
Trwałość danych w HD
W HD dopuszcza się operacje:
–
ładowania danych
–
dostępu do danych
W HD nie przeprowadza się operacji aktualizacji załadowanych danych
Dane analityczne przechowywane są w postaci gotowych agregatów
17/69
Cele budowy HD
Realizacja misji przedsiębiorstwa
Zwiększenie konkurencyjności firmy
Osiąganie celów biznesowych
Optymalne wykorzystanie zasobów informacyjnych przedsiębiorstwa
18/69
Zadania realizowane przy wykorzystaniu HD
Budowa modelu ekonomicznego
Weryfikacja hipotez biznesowych
Identyfikacja trendów i zależności
Określanie ryzyka
Alokacja zasobów
19/69
Przykłady celów biznesowych
Badanie rentowności produktów, oddziałów, współpracy z klientami, spółek zależnych Analiza ryzyka działalności Prognozowanie sprzedaży Wyznaczenie kosztu operacji handlowych Badanie struktury sprzedaży Budowa systemów sprawozdawczości zarządczej
20/69
Hurtownie danych a CRM
Lojalność klientów wobec organizacji
Rezygnacje klientów ze współpracy i powody takiej decyzji
Rodzaj produktu czy usługi (mix-produkt) oferowane klientom określonej grupy wiekowej, zawodowej, terytorialnej
Efektywność realizacji programów pozyskiwania nowych klientów czy też utrzymania klientów dotychczasowych
21/69
Hurtownie danych w e-biznesie
Średnia wartość transakcji w internetowym biurze maklerskim Wartość kredytów zaciągniętych przez Internet Rodzaje lokat zakładanych przez Internet, ich średnia wysokość i czas lokaty Wartość przelewu bankowego dokonanego drogą elektroniczną Średnia wartość transakcji przy użyciu kart płatniczych
22/69
Dlaczego nie wykorzystać ST?
Brak właściwych danych
Zapytania przekrojowe znacznie obciążają bieżącą pracę ST
Bazy danych w ST nie są zoptymalizowane do analitycznego przetwarzania danych
Uzyskanie informacji globalnych wymaga złączenia wielu tabel baz danych
Duża zmienność stanu baz danych
23/69
Różnice między HD i ST (1) HD oparte są na bazach analitycznych, ST na bazach operacyjnych tzn.:
Dane w HD mają charakter zagregowany, w ST - szczegółowy
HD zawiera wybrane dane, ST - wszystkie dane
ST zawierają zawsze dane aktualne, HD archiwalne (obraz tych danych)
24/69
Różnice między HD i ST (2) Struktura i przetwarzanie danych:
ST przechowują dane w postaci znormalizowanej, HD - nadmiarowość danych
ST oparte są na przetwarzaniu transakcyjnym, w HD - brak transakcji
ST pozwalają na zapis, odczyt, usuwanie i modyfikację danych, w HD - tylko odczyt
ST zasilane są stałym i równomiernym strumieniem danych, HD - duża ilość danych w krótkich odcinkach czasu
25/69
4 powody separacji HD i ST
Wydajność
Dostęp do danych
Format danych
Jakość danych
26/69
Podobieństwa HD i ST
Oparte na bazach danych
Posiadają wbudowane języki przetwarzania danych
Przechowywane dane można graficznie prezentować
Możliwość wprowadzania danych
27/69
Hurtownie Danych a DSS/EIS
DSS/EIS posiadają rozbudowane narzędzia analizy danych
DSS/EIS nie są odpowiednio wyposażone w narzędzia organizacji danych
HD dostarczają dla DSS/EIS wsparcia w postaci baz danych
HD dostarczają danych niezbędnych dla
DSS/EIS
28/69
Użytkownicy HD
Osoby odpowiedzialne za realizację misji i strategii przedsiębiorstwa (zarządy, rady nadzorcze)
Analitycy biznesowi
Pracownicy merytoryczni
Informatycy
29/69
Wymagania użytkowników wobec HD
Możliwość definiowania zapytań ad-hoc (dowolne zapytania na dowolnych przekrojach danych, zapytania w języku naturalnym)
Udzielanie szybkich odpowiedzi
Kompleksowa analiza danych
Właściwy sposób prezentowania informacji
Wiarygodność informacji zarządczej
30/69
Klasyczny model HD ST 1 ST 2 ST 3 Hurtownia Danych MHD 1 MHD 2 MHD 3 Wyniki Wyniki Wyniki
31/69
Otoczenie Architektura HD Systemy transakcyjne przedsiębiorstwa F-K Produkcja Sprzedaż Oprogramowanie zasilania HD SZBD HURTOWNI DANYCH Oprogramowanie klienta Raport Marketing Raport Finanse Raport Zarządzanie Raport Sprzedaż
32/69
Elementy architektury HD
Dedykowane źródłowe systemy transakcyjne organizacji
Oprogramowanie zasilania danymi bazy danych hurtowni
Wielowymiarowa baza danych oraz system zarządzania bazą danych Oprogramowanie klienta realizujące funkcję analityczną oraz prezentacyjną danych
33/69
Struktura funkcjonalna HD Wybieranie danych Przekształacanie danych Ładowanie Zarządzanie metadanymi Metadane Repozytorium
OLAP Analizy Zapytania Raportowanie Prognozy Data mining Wizualizacja Intranet
Użytkownik końcowy
34/69
Zarządzanie HD
Sposoby dostępu do danych w ST:
– –
interfejsy dostępu do BD Oracle, Informix, DB/2, Sybase ...
język SQL, 4GL
Walidacja, czyszczenie, formatowanie i agregacja danych
Zasilanie HD:
– – –
procedury analizy statystycznej odświeżanie danych metadane opisujące proces zasilania HD
35/69
Organizacja HD - metadane
Modele danych:
–
relacyjny model danych,
–
inne modele (np. hierarchiczny, gwiazdy, płatek śniegu)
Sposób zasilania danymi
Architektura HD:
–
scentralizowana
–
rozproszona (data marts) Dostęp użytkowników
36/69
Metadane - co jeszcze składa się na HD?
Struktura danych hurtowni uwzględniająca wymagania SWD
Sposób transformacji danych operacyjnych (algorytmy)
Relacje między modelem danych w systemach operacyjnych a HD
Historia zasilania HD danymi operacyjnymi
37/69
Organizacja metadanych
Lista metadanych Ważność Odpowiedzialność Zawartość Dostępność Jakość metadanych
Kompletność Nadrzędna kontrola Dokumentowanie działań, odpowiedzialności
38/69
Eksploatacja HD
Zapytania i raporty:
–
filtrowanie danych, język 4GL i SQL
Techniki analizy danych:
–
MOLAP, ROLAP, HOLAP
Wizualizacja danych:
–
wykresy, drzewa decyzyjne, statystyka
Wspomaganie procesów decyzyjnych:
–
ekonometria, badania operacyjne, prognozowanie Publikacja wyników w formacie HTML
39/69
Struktura danych w HD
Szczegółowe dane bieżące
Archiwalne dane szczegółowe
Dane częściowo zagregowane
Silnie zagregowane dane
Metadane
40/69
Zasilanie HD
Wprowadzanie danych do HD, opartych na danych operacyjnych.
Wybór danych Lokalizacja danych Transformacja danych do zunifikowanej postaci
Integracja danych Częstotliwość zasilania
41/69
Organizacja zasilania HD
Ludzie biznesu i informatycy Zespoły zadaniowe:
– –
projekt struktury hurtowni analiza danych źródłowych
– – –
logika konwersji danych budowa i generowanie procedur konwersji zapewnienie jakości danych Zrozumienie wymagań związanych z konwersją i przepływów danych
42/69
Projekt zasilania HD
Plan konwersji danych operacyjnych Definicja specyfikacji konwersji Ekstrakcja danych operacyjnych do postaci schematów pośrednich Konwersja schematów pośrednich do postaci danych ładowanych Agregacja danych Ładowanie i indeksowanie danych Zapewnienie jakości danych
43/69
Plan konwersji danych
Określa najlepszy sposób migracji danych do hurtowni
-
Uwzględnia: dostępne zasoby danych, liczność danych, liczbę różnych schematów danych, metody i platformy dostępu, języki ekstrakcji danych, strukturę hurtowni, liczbę wymaganych agregacji
44/69
Specyfikacja konwersji danych
Sposób przypisania danych źródłowych do danych w hurtowni (dane, logika)
Inne zewnętrzne źródła informacji
Opis procesów:
– – – – –
ekstrakcji danych do postaci schematu pośredniego, konwersji schematu pośredniego, agregacji danych, migracji danych do baz danych hurtowni, walidacji danych
45/69
Ekstrakcja danych w schematy pośrednie
Zwiększenie użyteczności programów do czyszczenia danych, transformacji i integracji Zachodzi w środowisku systemów transakcyjnych
Procedury identyfikacji starych i nowych danych operacyjnych Izolowanie niezbędnych danych
46/69
Konwersja schematów pośrednich
Identyfikacja wzorców danych i liczby pól Określenie kontekstu i przeznaczenia danych
Korekcja danych w oparciu o listy Eliminacja nadmiarowych rekordów Rezultat:
–
dane o wymaganym poziomie granulacji
– –
dane dla tabel wymiarów i tabel faktów klucze wybierania danych
47/69
Agregacja danych
Miejsce wykonania - poza serwerem hurtowni
Powody:
–
narzędzia agregacji są szybsze niż RDBMS
– –
pewność wykonania szybkość i skuteczność wbudowanych procedur ładowania danych zagregowanych
48/69
Ładowanie i indeksowanie danych
Umieszczenie danych na serwerze hurtowni
Tworzenie tabel faktów i wymiarów
Indeksowanie:
–
natychmiastowe
–
z opóźnieniem
Koordynacja procesów
49/69
Zapewnienie jakości danych
Nadrzędny charakter kontroli etapów zasilania
Dokumentowanie działań Aktywny udział użytkowników
Zrozumienie procesów zasilania
Dobra znajomość struktury i znaczenia danych źródłowych Zatwierdzanie etapów zasilania
50/69
Modelowanie danych w HD
Model korporacyjny danych jako punkt wyjścia
Oczyszczanie modelu danych Element czasu Denormalizacja Wybór modelu danych:
–
star join (model gwiazdy)
–
snowflake (płatek śniegu)
51/69
Modele danych - gwiazda Klient Miejsce Produkt Sprzedaż Miejsce Sprzedaż Czas Produkt Czas
Centrum gwiazdy - tablica faktów Otoczenie gwiazdy - tablice wymiarów (wskaźników do tabeli faktów)
52/69
Modele danych - płatek śniegu Wykształce nie Płeć Wiek Rok Kwartał Miesiąc Czas Klient Sprzedaż Produkt Miejsce Kontynent Region Kraj Rodzaj Cena
53/69
OLAP - On-Line Analytical
Processing
Aplikacje wspomagania interaktywnych analiz wykonywanych na bieżąco
Udostępnianie danych analitycznych w różnych przekrojach i w sposób przystępny dla użytkowników
Możliwość dynamicznego prowadzania analiz danych skonsolidowanych przedsiębiorstwa
54/69
Zadania realizowane w OLAP
Porównywanie dowolnych danych Analiza danych historycznych (trendy)
Dostęp do danych na dowolnym poziomie Perspektywy dostosowane do indywidualnych potrzeb użytkownika
Analizy typu „what-if”
Tworzenie graficznej prezentacji danych
55/69
Przesłanki użycia OLAP
Dane niezbędne są do prowadzenia analiz (nie rejestracji zdarzeń) Konieczność prowadzenia złożonych obliczeń i agregacji danych operacyjnych
Potrzeba przekrojowego spojrzenia na dane
Względna niezmienność danych w czasie
56/69
Wielowymiarowe BD w HD
Charakter danych
Tylko odczyt danych Agregaty danych:
– –
agregat podstawowy agregat częściowy Krótki czas oczekiwania na odpowiedź Duża efektywność formułowania zapytań ad-hoc
57/69
Budowa HD
Przedsięwzięcie informatyczne i organizacyjne
Proces iteracyjny
Projekt, który nie kończy się
Możliwe zastosowanie metod inżynierii systemów
58/69
Etapy budowy HD
Zakres projektu Wymagania biznesowe Korporacyjny model danych Koncepcyjny model HD Identyfikacja źródeł danych operacyjnych Architektura HD Technologia implementacji Implementacja HD
59/69
Inżynieria systemów w procesie budowy HD
Planowanie systemu
Określenie wymagań i analiza
Projekt systemu
Integracja
Weryfikacja i konserwacja
60/69
Spiralny model cyklu życia HD Diagram przepływu danych Określenie potrzeb użytkowników Wymagania i analiza Diagram E-R Projekt systemu Model metadanych Komponenty HD Integracja Aplikacje OLAP Modyfikacja metadanych Weryfikacja i konserwacja
61/69
Faza planowania systemu
Wybór strategii budowy HD:
– –
strategia Top Down strategia Bottom Up
Wybór metodologii budowy:
– –
model kaskadowy model spirali
Cele biznesowe
Wstępna kolekcja metadanych
62/69
Wymagania i analiza właściciel HD
Jakie problemy biznesowe będą rozwiązywane?
Ile to kosztuje?
Kiedy będą pierwsze efekty?
Jaki będzie wpływ HD na pracowników, ich umiejętności, organizację?
Czy potrafimy podołać takiemu zadaniu?
Jakie jest ryzyko zastosowania tej technologii?
63/69
Wymagania i analiza - analityk biznesowy
Jakie analizy można przeprowadzać?
Jakie funkcje oferuje HD?
Jaka jest ziarnistość danych?
Jakie raporty można generować?
Jakie są możliwości modyfikacji raportów?
Jakie są możliwości budowy raportów od podstaw?
Jakie dodatkowe analizy można samodzielnie definiować?
64/69
Wymagania i analiza informatyk
Jaka jest platforma implementacji HD?
Jakie są standardy i interfejsy?
Czy architektura HD jest otwarta?
Jakie są metody i narzędzia dostępu oraz zasilania HD?
Jaka jest struktura sieci, w której zostanie osadzona HD?
Jakie są możliwości optymalizacji działania HD?
65/69
Projekt systemu
Określa sposób spełnienia wymagań odbiorców HD
Definicja specyfikacji kolejnych poziomów HD: modele logiczne i fizyczne
Identyfikacja procesów zasilania HD i procesów w HD
Identyfikacja procesów integracji danych źródłowych, HD i narzędzi dostępu do HD
66/69
Integracja
Osadzenie HD w platformach systemowej i sprzętowej (instalacja serwera bazy danych)
Implementacja modelu metadanych HD
Instalacja oprogramowania klienta
Realizacja procedur zasilania HD
Realizacja procedur dostępu do HD z poziomu aplikacji klienta
67/69
Weryfikacja i konserwacja
Zgodność z wymaganiami odbiorców Ocena zestawień analitycznych generowanych z HD przez specjalistę Zarządzanie metadanymi (np. modyfikacja istniejących źródeł, nowe źródła danych i kanały dystrybucji danych, zmiana reguł konwersji danych, nowe aplikacje analityczne lub prezentacji danych)
68/69
Warunki sukcesu HD
Koncentracja uwagi na wybranym obszarze funkcjonowania przedsiębiorstwa (najważniejszy jest biznes, nie technologia) Zrozumienie danych analitycznych i operacyjnych Małe, ale widoczne kroki w budowie i wdrażaniu HD Korzystanie z pomocy konsultantów w fazie projektu Współpraca z przyszłym użytkownikiem
HD
(definicja potrzeb, szkolenia)
69/69