Transcript hurtownie

Kierunki rozwoju technologii informatycznych: Hurtownie Danych

dr inż. Piotr Muryjas

Wyższa Szkoła Przedsiębiorczości i Administracji

Plan wykładu

Problemy eksploatacji SIP

Hurtownia Danych (HD) - przeznaczenie, definicja, struktura, architektura

Punkty krytyczne HD

Projektowanie Hurtowni Danych

2/69

Systemy Informacyjne Przedsiębiorstw (SIP) Poziom strategiczny Poziom taktyczny Poziom operacyjny Eksperckie Wspomagania decyzji Informowania kierownictwa Transakcyjne Podmiot gospodarczy Sfera regulacji Sfera procesów realnych

3/69

Rodzaje SIP

Systemy transakcyjne (ST)

Systemy informowania kierownictwa (MIS)

Systemy wspomagania podejmowania decyzji (DSS)

Systemy eksperckie (EIS)

4/69

Eksploracja danych w ST

Olbrzymia ilość rekordów

Ukryte zależności między danymi

Oczekiwanie na odpowiedź

Ciągły wzrost objętości zbiorów danych

Wiele tabel i relacji między nimi

Opis rzeczywistości w wybranym obszarze funkcjonowania przedsiębiorstwa

5/69

Systemy Informowania Kierownictwa (MIS)

Zasilane zagregowanymi danymi z transakcyjnych systemów dedykowanych

Źródło danych dla MIS znajduje się wewnątrz organizacji

Postać danych i stopień agregacji adekwatne do potrzeb informacyjnych i decyzji podejmowanych przez kierownictwo średniego szczebla

6/69

Systemy Wspomagania Decyzji (DSS)

Budowane w oparciu o wybrane modele biznesowe sytuacji decyzyjnych

  

Źródło danych to systemy transakcyjne Uwzględniają szerszy aspekt prowadzenia biznesu Stopień agregacji danych uwzględnia różne wymiary analiz

Stosowane na szczeblu taktycznym (kierownictwo wyższego szczebla np. dyrektorzy departamentów)

7/69

Systemy eksperckie (EIS)

  

Umożliwiają całościowe spojrzenie na organizację i jej miejsce w otoczeniu Odnoszą się do wszystkich, typowych dla organizacji aspektów biznesu Wykorzystują wewnętrzne i zewnętrzne źródła danych

Wykorzystywane na szczeblu strategicznym organizacji (zarządy, rady nadzorcze)

8/69

Systemy DSS i EIS w procesach decyzyjnych Wymagania:

Całościowe spojrzenie na organizację

 

Prawidłowa ocena aktualnej sytuacji organizacji, oparta na wiarygodnej informacji aktualnej i archiwalnej Możliwość przeprowadzania analiz w dowolnym przekroju informacyjnym niezbędnym dla podjęcia decyzji

9/69

Pojęcie Hurtowni Danych (HD)

Analityczna baza danych przeznaczona jedynie do odczytu, używana jako podstawa systemu wspomagania decyzji

Zintegrowany bank danych wspomagający procesy decyzyjne

Zorientowana tematycznie kolekcja danych, służąca wsparciu procesu podejmowania decyzji kierownictwa

10/69

Pojęcie Hurtowni Danych (HD)

Repozytorium danych z procedurami ich ładowania do HD

Repozytorium uzupełnione minihurtowniami danych

Repozytorium, minihurtownie danych oraz aplikacje analityczne

11/69

Hurtownia Danych - gdzie leży prawda?

Bill Inmon

12/69

Definicja HD System baz danych zawierający dane:

zorientowane tematycznie

zintegrowane

zorganizowane w czasie

trwałe do wspomagania podejmowania decyzji strategicznych.

13/69

Zorientowanie tematyczne HD

Zgromadzone dane opisują problemy

Lokalizacja danych uzależniona od ich treści ekonomicznych

Dane zorientowane na podejmowanie decyzji w różnych obszarach działania

14/69

Integralność danych w HD

Czystość ta sama informacja zapisana jeden raz i tylko na jeden sposób (format, jednostka miary)

Poprawność kontrola danych pobieranych z systemów szczebla operacyjnego

Właściwa agregacja agregujących wybór zmiennych

15/69

Element czasu w HD

Dane utrzymywane są w długim horyzoncie czasu (ponad 5 lat)

Czas jako wymiar innych danych

Dane tworzą szeregi czasowe

Dane załadowane do HD nie są w czasie aktualizowane

16/69

Trwałość danych w HD

W HD dopuszcza się operacje:

ładowania danych

dostępu do danych

W HD nie przeprowadza się operacji aktualizacji załadowanych danych

Dane analityczne przechowywane są w postaci gotowych agregatów

17/69

Cele budowy HD

Realizacja misji przedsiębiorstwa

Zwiększenie konkurencyjności firmy

Osiąganie celów biznesowych

Optymalne wykorzystanie zasobów informacyjnych przedsiębiorstwa

18/69

Zadania realizowane przy wykorzystaniu HD

Budowa modelu ekonomicznego

Weryfikacja hipotez biznesowych

Identyfikacja trendów i zależności

Określanie ryzyka

Alokacja zasobów

19/69

Przykłady celów biznesowych

     

Badanie rentowności produktów, oddziałów, współpracy z klientami, spółek zależnych Analiza ryzyka działalności Prognozowanie sprzedaży Wyznaczenie kosztu operacji handlowych Badanie struktury sprzedaży Budowa systemów sprawozdawczości zarządczej

20/69

Hurtownie danych a CRM

Lojalność klientów wobec organizacji

Rezygnacje klientów ze współpracy i powody takiej decyzji

Rodzaj produktu czy usługi (mix-produkt) oferowane klientom określonej grupy wiekowej, zawodowej, terytorialnej

Efektywność realizacji programów pozyskiwania nowych klientów czy też utrzymania klientów dotychczasowych

21/69

Hurtownie danych w e-biznesie

    

Średnia wartość transakcji w internetowym biurze maklerskim Wartość kredytów zaciągniętych przez Internet Rodzaje lokat zakładanych przez Internet, ich średnia wysokość i czas lokaty Wartość przelewu bankowego dokonanego drogą elektroniczną Średnia wartość transakcji przy użyciu kart płatniczych

22/69

Dlaczego nie wykorzystać ST?

Brak właściwych danych

Zapytania przekrojowe znacznie obciążają bieżącą pracę ST

Bazy danych w ST nie są zoptymalizowane do analitycznego przetwarzania danych

Uzyskanie informacji globalnych wymaga złączenia wielu tabel baz danych

Duża zmienność stanu baz danych

23/69

Różnice między HD i ST (1) HD oparte są na bazach analitycznych, ST na bazach operacyjnych tzn.:

Dane w HD mają charakter zagregowany, w ST - szczegółowy

HD zawiera wybrane dane, ST - wszystkie dane

ST zawierają zawsze dane aktualne, HD archiwalne (obraz tych danych)

24/69

Różnice między HD i ST (2) Struktura i przetwarzanie danych:

ST przechowują dane w postaci znormalizowanej, HD - nadmiarowość danych

ST oparte są na przetwarzaniu transakcyjnym, w HD - brak transakcji

ST pozwalają na zapis, odczyt, usuwanie i modyfikację danych, w HD - tylko odczyt

ST zasilane są stałym i równomiernym strumieniem danych, HD - duża ilość danych w krótkich odcinkach czasu

25/69

4 powody separacji HD i ST

Wydajność

Dostęp do danych

Format danych

Jakość danych

26/69

Podobieństwa HD i ST

Oparte na bazach danych

Posiadają wbudowane języki przetwarzania danych

Przechowywane dane można graficznie prezentować

Możliwość wprowadzania danych

27/69

Hurtownie Danych a DSS/EIS

DSS/EIS posiadają rozbudowane narzędzia analizy danych

DSS/EIS nie są odpowiednio wyposażone w narzędzia organizacji danych

HD dostarczają dla DSS/EIS wsparcia w postaci baz danych

HD dostarczają danych niezbędnych dla

DSS/EIS

28/69

Użytkownicy HD

Osoby odpowiedzialne za realizację misji i strategii przedsiębiorstwa (zarządy, rady nadzorcze)

Analitycy biznesowi

Pracownicy merytoryczni

Informatycy

29/69

Wymagania użytkowników wobec HD

Możliwość definiowania zapytań ad-hoc (dowolne zapytania na dowolnych przekrojach danych, zapytania w języku naturalnym)

Udzielanie szybkich odpowiedzi

Kompleksowa analiza danych

Właściwy sposób prezentowania informacji

Wiarygodność informacji zarządczej

30/69

Klasyczny model HD ST 1 ST 2 ST 3 Hurtownia Danych MHD 1 MHD 2 MHD 3 Wyniki Wyniki Wyniki

31/69

Otoczenie Architektura HD Systemy transakcyjne przedsiębiorstwa F-K Produkcja Sprzedaż Oprogramowanie zasilania HD SZBD HURTOWNI DANYCH Oprogramowanie klienta Raport Marketing Raport Finanse Raport Zarządzanie Raport Sprzedaż

32/69

Elementy architektury HD

Dedykowane źródłowe systemy transakcyjne organizacji

Oprogramowanie zasilania danymi bazy danych hurtowni

 

Wielowymiarowa baza danych oraz system zarządzania bazą danych Oprogramowanie klienta realizujące funkcję analityczną oraz prezentacyjną danych

33/69

Struktura funkcjonalna HD Wybieranie danych Przekształacanie danych Ładowanie Zarządzanie metadanymi Metadane Repozytorium

OLAP Analizy Zapytania Raportowanie Prognozy Data mining Wizualizacja Intranet

Użytkownik końcowy

34/69

Zarządzanie HD

Sposoby dostępu do danych w ST:

– –

interfejsy dostępu do BD Oracle, Informix, DB/2, Sybase ...

język SQL, 4GL

Walidacja, czyszczenie, formatowanie i agregacja danych

Zasilanie HD:

– – –

procedury analizy statystycznej odświeżanie danych metadane opisujące proces zasilania HD

35/69

Organizacja HD - metadane

Modele danych:

relacyjny model danych,

inne modele (np. hierarchiczny, gwiazdy, płatek śniegu)

Sposób zasilania danymi

 

Architektura HD:

scentralizowana

rozproszona (data marts) Dostęp użytkowników

36/69

Metadane - co jeszcze składa się na HD?

Struktura danych hurtowni uwzględniająca wymagania SWD

Sposób transformacji danych operacyjnych (algorytmy)

Relacje między modelem danych w systemach operacyjnych a HD

Historia zasilania HD danymi operacyjnymi

37/69

Organizacja metadanych

     

Lista metadanych Ważność Odpowiedzialność Zawartość Dostępność Jakość metadanych

  

Kompletność Nadrzędna kontrola Dokumentowanie działań, odpowiedzialności

38/69

Eksploatacja HD

Zapytania i raporty:

filtrowanie danych, język 4GL i SQL

Techniki analizy danych:

MOLAP, ROLAP, HOLAP

Wizualizacja danych:

wykresy, drzewa decyzyjne, statystyka

 

Wspomaganie procesów decyzyjnych:

ekonometria, badania operacyjne, prognozowanie Publikacja wyników w formacie HTML

39/69

Struktura danych w HD

Szczegółowe dane bieżące

Archiwalne dane szczegółowe

Dane częściowo zagregowane

Silnie zagregowane dane

Metadane

40/69

Zasilanie HD

Wprowadzanie danych do HD, opartych na danych operacyjnych.

  

Wybór danych Lokalizacja danych Transformacja danych do zunifikowanej postaci

 

Integracja danych Częstotliwość zasilania

41/69

Organizacja zasilania HD

  

Ludzie biznesu i informatycy Zespoły zadaniowe:

– –

projekt struktury hurtowni analiza danych źródłowych

– – –

logika konwersji danych budowa i generowanie procedur konwersji zapewnienie jakości danych Zrozumienie wymagań związanych z konwersją i przepływów danych

42/69

Projekt zasilania HD

      

Plan konwersji danych operacyjnych Definicja specyfikacji konwersji Ekstrakcja danych operacyjnych do postaci schematów pośrednich Konwersja schematów pośrednich do postaci danych ładowanych Agregacja danych Ładowanie i indeksowanie danych Zapewnienie jakości danych

43/69

Plan konwersji danych

 

Określa najlepszy sposób migracji danych do hurtowni

-

Uwzględnia: dostępne zasoby danych, liczność danych, liczbę różnych schematów danych, metody i platformy dostępu, języki ekstrakcji danych, strukturę hurtowni, liczbę wymaganych agregacji

44/69

Specyfikacja konwersji danych

Sposób przypisania danych źródłowych do danych w hurtowni (dane, logika)

Inne zewnętrzne źródła informacji

Opis procesów:

– – – – –

ekstrakcji danych do postaci schematu pośredniego, konwersji schematu pośredniego, agregacji danych, migracji danych do baz danych hurtowni, walidacji danych

45/69

Ekstrakcja danych w schematy pośrednie

 

Zwiększenie użyteczności programów do czyszczenia danych, transformacji i integracji Zachodzi w środowisku systemów transakcyjnych

 

Procedury identyfikacji starych i nowych danych operacyjnych Izolowanie niezbędnych danych

46/69

Konwersja schematów pośrednich

 

Identyfikacja wzorców danych i liczby pól Określenie kontekstu i przeznaczenia danych

  

Korekcja danych w oparciu o listy Eliminacja nadmiarowych rekordów Rezultat:

dane o wymaganym poziomie granulacji

– –

dane dla tabel wymiarów i tabel faktów klucze wybierania danych

47/69

Agregacja danych

Miejsce wykonania - poza serwerem hurtowni

Powody:

narzędzia agregacji są szybsze niż RDBMS

– –

pewność wykonania szybkość i skuteczność wbudowanych procedur ładowania danych zagregowanych

48/69

Ładowanie i indeksowanie danych

Umieszczenie danych na serwerze hurtowni

Tworzenie tabel faktów i wymiarów

Indeksowanie:

natychmiastowe

z opóźnieniem

Koordynacja procesów

49/69

Zapewnienie jakości danych

Nadrzędny charakter kontroli etapów zasilania

 

Dokumentowanie działań Aktywny udział użytkowników

 

Zrozumienie procesów zasilania

Dobra znajomość struktury i znaczenia danych źródłowych Zatwierdzanie etapów zasilania

50/69

Modelowanie danych w HD

Model korporacyjny danych jako punkt wyjścia

   

Oczyszczanie modelu danych Element czasu Denormalizacja Wybór modelu danych:

star join (model gwiazdy)

snowflake (płatek śniegu)

51/69

Modele danych - gwiazda Klient Miejsce Produkt Sprzedaż Miejsce Sprzedaż Czas Produkt Czas

 

Centrum gwiazdy - tablica faktów Otoczenie gwiazdy - tablice wymiarów (wskaźników do tabeli faktów)

52/69

Modele danych - płatek śniegu Wykształce nie Płeć Wiek Rok Kwartał Miesiąc Czas Klient Sprzedaż Produkt Miejsce Kontynent Region Kraj Rodzaj Cena

53/69

OLAP - On-Line Analytical

Processing

Aplikacje wspomagania interaktywnych analiz wykonywanych na bieżąco

Udostępnianie danych analitycznych w różnych przekrojach i w sposób przystępny dla użytkowników

Możliwość dynamicznego prowadzania analiz danych skonsolidowanych przedsiębiorstwa

54/69

Zadania realizowane w OLAP

 

Porównywanie dowolnych danych Analiza danych historycznych (trendy)

 

Dostęp do danych na dowolnym poziomie Perspektywy dostosowane do indywidualnych potrzeb użytkownika

Analizy typu „what-if

Tworzenie graficznej prezentacji danych

55/69

Przesłanki użycia OLAP

 

Dane niezbędne są do prowadzenia analiz (nie rejestracji zdarzeń) Konieczność prowadzenia złożonych obliczeń i agregacji danych operacyjnych

Potrzeba przekrojowego spojrzenia na dane

Względna niezmienność danych w czasie

56/69

Wielowymiarowe BD w HD

Charakter danych

   

Tylko odczyt danych Agregaty danych:

– –

agregat podstawowy agregat częściowy Krótki czas oczekiwania na odpowiedź Duża efektywność formułowania zapytań ad-hoc

57/69

Budowa HD

Przedsięwzięcie informatyczne i organizacyjne

Proces iteracyjny

Projekt, który nie kończy się

Możliwe zastosowanie metod inżynierii systemów

58/69

Etapy budowy HD

       

Zakres projektu Wymagania biznesowe Korporacyjny model danych Koncepcyjny model HD Identyfikacja źródeł danych operacyjnych Architektura HD Technologia implementacji Implementacja HD

59/69

Inżynieria systemów w procesie budowy HD

Planowanie systemu

Określenie wymagań i analiza

Projekt systemu

Integracja

Weryfikacja i konserwacja

60/69

Spiralny model cyklu życia HD Diagram przepływu danych Określenie potrzeb użytkowników Wymagania i analiza Diagram E-R Projekt systemu Model metadanych Komponenty HD Integracja Aplikacje OLAP Modyfikacja metadanych Weryfikacja i konserwacja

61/69

Faza planowania systemu

Wybór strategii budowy HD:

– –

strategia Top Down strategia Bottom Up

Wybór metodologii budowy:

– –

model kaskadowy model spirali

Cele biznesowe

Wstępna kolekcja metadanych

62/69

Wymagania i analiza właściciel HD

     

Jakie problemy biznesowe będą rozwiązywane?

Ile to kosztuje?

Kiedy będą pierwsze efekty?

Jaki będzie wpływ HD na pracowników, ich umiejętności, organizację?

Czy potrafimy podołać takiemu zadaniu?

Jakie jest ryzyko zastosowania tej technologii?

63/69

Wymagania i analiza - analityk biznesowy

      

Jakie analizy można przeprowadzać?

Jakie funkcje oferuje HD?

Jaka jest ziarnistość danych?

Jakie raporty można generować?

Jakie są możliwości modyfikacji raportów?

Jakie są możliwości budowy raportów od podstaw?

Jakie dodatkowe analizy można samodzielnie definiować?

64/69

Wymagania i analiza informatyk

     

Jaka jest platforma implementacji HD?

Jakie są standardy i interfejsy?

Czy architektura HD jest otwarta?

Jakie są metody i narzędzia dostępu oraz zasilania HD?

Jaka jest struktura sieci, w której zostanie osadzona HD?

Jakie są możliwości optymalizacji działania HD?

65/69

Projekt systemu

Określa sposób spełnienia wymagań odbiorców HD

Definicja specyfikacji kolejnych poziomów HD: modele logiczne i fizyczne

Identyfikacja procesów zasilania HD i procesów w HD

Identyfikacja procesów integracji danych źródłowych, HD i narzędzi dostępu do HD

66/69

Integracja

Osadzenie HD w platformach systemowej i sprzętowej (instalacja serwera bazy danych)

Implementacja modelu metadanych HD

Instalacja oprogramowania klienta

Realizacja procedur zasilania HD

Realizacja procedur dostępu do HD z poziomu aplikacji klienta

67/69

Weryfikacja i konserwacja

  

Zgodność z wymaganiami odbiorców Ocena zestawień analitycznych generowanych z HD przez specjalistę Zarządzanie metadanymi (np. modyfikacja istniejących źródeł, nowe źródła danych i kanały dystrybucji danych, zmiana reguł konwersji danych, nowe aplikacje analityczne lub prezentacji danych)

68/69

Warunki sukcesu HD

    

Koncentracja uwagi na wybranym obszarze funkcjonowania przedsiębiorstwa (najważniejszy jest biznes, nie technologia) Zrozumienie danych analitycznych i operacyjnych Małe, ale widoczne kroki w budowie i wdrażaniu HD Korzystanie z pomocy konsultantów w fazie projektu Współpraca z przyszłym użytkownikiem

HD

(definicja potrzeb, szkolenia)

69/69