Data Warehouse

Download Report

Transcript Data Warehouse

INTELIGENTNI SISTEMI ZA PODRŠKU
ODLUČIVANJU
• Rast podataka nadmašuje mogućnosti korisnika
da analizira, interpretira, razume i vizuelizuje
podatke, te da im da adekvatan smisao.
• U uslovima velike raspoloživosti podataka sve je
veća divergencija raspoloživih podataka i
informacija potrebnih za donošenje adekvatnih
odluka.
• Zatečeni brojnošću izvora podataka, savremeni
menadžeri sve više vremena troše na izbor
relevantnih informacija.
Ogromno povećanje broja podataka dovelo je do
prevaziđenosti tradicionalna rešenja
2
Možemo da pojednostavimo stvar, sredimo ovaj
nered...
3
... ako i analitiku prebacimo u skladište.
4
INTELIGENTNI SISTEMI ZA PODRŠKU
ODLUČIVANJU
• Neophodno je da preduzeće raspolaže
integralnim informacionim sistemom i softverskim
proizvodima koji će omogućiti procesiranje
transakcija, ali i sintetizovano kombinovanje i
agregiranje podataka iz posebnih, nepovezanih ili
neadekvatno povezanih sistema.
INTELIGENTNI SISTEMI ZA PODRŠKU ODLUČIVANJU
Business Intelligence
Izraz Business Intelligence označava kategoriju
sredstava analize podataka, izveštavanja,
postavljanja upita, koja korisniku u procesu
poslovanja mogu pomoći da iz ogromne količine
podataka sintetizuju vredne informacije na kojima će
zasnivati poslovne odluke.
Business Intelligence
Radi se o kategoriji informacione tehnologije koja
korisnicima u poslovanju omogućava pristupanje,
analizu i korišćenje podataka (Data Warehouse) u
cilju sticanja neophodnih informacija za adekvatno
odlučivanje i upravljanje, kao i o aplikativnim
programima (Balanced ScoreCard), programima
kojima se podržava odlučivanje (EIS, DSS),
postavljaju upiti i daju izveštaji, vrši online analitička
obrada (OLAP), zatim statističke analize, Data
Mining, predviđanje itd.
Business Intelligence System (BIS)
BIS omogućavaju višedimenzionalnu analizu,
online analitičku obradu podataka, Data Mining, na
bazi kojih menadžeri mogu otkriti skrivene trendove
u velikim zbirkama podataka i doći do odgovora na
veoma složena pitanja, pri čemu je veoma značajno
znati postavljati prava pitanja.
Business Intelligence System (BIS)
Preduzeća koja imaju uspešno razvijen Business
Intelligence System ne samo što poboljšavaju
interno odlučivanje u okviru preduzeća, već takođe i
omogućavaju i drugim korisnicima (kupci,
dobavljači i ostali poslovni partneri) da koriste
raspoložive informacije.
Detaljisanje - Drill Down
Menadžerima je često dovoljno ponuditi podatke
agregiranih pozicija, a po potrebi ići na detaljisanje.
Postupak silaženja u područje detaljnih podataka
naziva se ''Drill Down'', gde se na taj način ide ka
sve detaljnijim informacijama o prodaji po dimenziji
vremena, geografskoj dimenziji, dimenziji proizvoda,
prodaji po proizvodima i geografskim oblastima, po
proizvodima i kupcima, po proizvodima, geografskim
oblastima i kupcima i sl.
Detaljisanje (Drill Down) i agregacija (Drill Up)
Detaljisanje (Drill Down) i agregacija (Drill Up), po
hijerarhiji pozicija jedne dimenzije je specifična
operacija za dimenzionalnu bazu podataka.
Business Intelligence System (BIS)
U samom centru Business Intelligence System-a se nalazi
baza podataka – Data Mart (DM) ili Data Warehouse (DW).
I jedna i druga forma predstavljaju bazu podataka koja služi
kao struktuirano i centralizovano skladište informacija
crpljenih iz transakcionih ili operativnih podataka i
dizajniranih kako bi zadovoljili raznovrsne upite, izveštaje i
zahteve analize.
Data Warehouse
Data Warehouse omogućava da preduzeće podatke
smešta u jedno skladište, te da ih organizuje na
način koji će obezbediti njihovu brzu i laku
dostupnost, kao i mogućnost manipulacije i analize
podataka sa ciljem dobijanja potrebnih informacija
koje će omogućiti nove uvide u procesu upravljanja.
Data Warehouse i Data Mart
Data Mart predstavlja logički podskup Data
Warehouse -a i odnosi se na bazu podataka za
podršku odlučivanju izgrađenu za potrebe
organizacionih jedinica ili grupa osoba u preduzeću,
odnosno nekog poslovnog procesa.
Data Warehouse sačinjava unija pripadajućih Data
Mart -ova. Dok Data Mart sadrži sumirane podatke
formirane za posebne potrebe korisnika, Data
Warehouse sadrži veliki skup detaljnih podataka.
Data Warehouse i Data Mart
Gradnja Data Warehouse-a podrazumeva dve faze:
1. Kreiranje okružujuće arhitekture koja određuje
opseg i implementaciju Data Warehouse-a u celini;
2. Nadziranje konstruisanja Data Mart-ova celovitog
Data Warehouse-a.
Data Warehouse i Data Mart
Svaki Data Mart mora biti predstavljen dimenzionalnim
modelom, a svi Data Mart -ovi u Data Warehouse -u
moraju biti izgrađeni od usklađenih dimenzija i usklađenih
podataka.
Na kraju, svi delovi Data Mart -a moraju da budu razbijeni
na pojedinačne fizičke tabele na različitim serverima baza
podataka.
Data Warehouse i Data Mart
Kombinovanje podataka iz ovih posebnih tabela i
postizanje integrisanog Data Warehouse -a,
moguće je jedino ako dimenzije podataka imaju isto
značenje kroz sve tabele.
Kada dimenzija podataka ima isto značenje kroz
sve tabele, tada se naziva usklađenom dimenzijom
i tada ima isto značenje u svim mogućim tabelama
sa kojima je povezana.
Data Warehouse i Data Mart
Preduslov za funkcionisanje Data Warehouse-a
kao integrisane celine, u uslovima neprekidnog
menjanja zahteva, jeste da Data Mart-ovi budu
dizajnirani sa usklađenim dimenzijama i
usklađenim podacima, jer samo tako mogu da
budu kombinovani i korišćeni zajedno.
Data Warehouse i Data Mart
Usklađena dimenzija nudi niz prednosti, a one se
ogledaju u sledećem:
 Da tabela iste dimenzije može da bude
upotrebljena u odnosu na mnoštvo tabela podataka
u istom prostoru baze podataka;
 Da korisnički interfejs i sadržaj podataka budu
konzistentni;
 Da postoji dosledno tumačenje atributa kroz
razne Data Mart-ove.
Data Warehouse i OLTP
Za strateško upravljanje preduzećima posebno su
značajne sledeće tehnologije:
 Tehnologija OnLine Transaction Processing
(OLTP) – sistemi transakcione obrade podataka;
 Tehnologija Data Warehouse (DW).
OLTP - OnLine Transaction Processing
OLTP su informacioni sistemi koji se bave
procesiranjem podataka koji su nastali kao rezultat
poslovnih transakcija.
Transakcije su događaji koji se javljaju kao deo
svakodnevnog poslovanja, dok je praćenje
aktivnosti transakcionog procesiranja neophodno
radi skladištenja i procesiranja podataka nastalih
usled poslovnih transakcija.
OLTP - OnLine Transaction Processing
OLTP se zasniva na Entity-Relationship (ER)
modelima podataka koji su konstituisani tako da
otklanjaju redundansu i olakšavaju dolaženje do
kritičnih zapisa sa nekim kritičnim identifikatorom.
Savremeni OLTP je obično zasnovan na sistemima
za upravljanje relacionim bazama podataka, čime je
korisniku omogućen pogled na dvodimenzionalni
prikaz podataka, tabele sa redovima i kolonama.
Data Warehouse
Data Warehouse se može definisati kao veliko, jedinstveno,
integrisano, prilagodljivo, elastično i bezbedno skladište
podataka koje obezbeđuje infrastrukturalnu osnovu
informacionih softverskih aplikacija u preduzeću i koje
sadrži ka korisniku usmerene, integrisane, postojane
različite skupove relevantnih, konzistentnih podataka, lako
dostupnih i podložnih analizi i manipulisanju za svrhu
podržavanja procesa odlučivanja u upravljanju preduzećem
i njegovim procesima.
Data Warehouse
Postupak dizajniranja Data Warehouse-a koji je
specifičan i koji se znatno razlikuje od tehnike
dizajniranja OLTP, naziva se dimenzionalno
modeliranje.
Osnovni cilj dimenzionalnog modeliranja je da baza
podataka Data Warehouse-a bude jednostavna i
lako razumljiva.
Dimenzionalno modeliranje pruža mogućnost
vizuelizacije podataka, što doprinosi ostvarenju ovog
cilja.
Drill Down i Drill Up
Hijerarhijska relacija između dimenzionalnih
elemenata obezbeđuje sistem za Drill Down ili Drill
Up.
Drill Down pruža mnogo više detalja koji se vide
kroz rezultirajući skup podataka.
Obrnutno, Drill Up omogućava više sumirani
pregled podataka.
Data Warehouse
Data Warehouse arhitektura se sastoji od različitih
međusobno povezanih strukturalnih nivoa:
 Sistem izvora sirovih podataka;
 Nivo za dodavanje podataka;
 Data Warehouse nivo prezentacionih servera;
 Nivo za pristup podacima od strane krajnjeg
korisnika.
Osnovni elementi Data Warehouse arhitekture
Sistem izvora sirovih podataka
Sistem izvora sirovih podataka čine operativne
baze podataka i/ili bilo koji drugi eksterni nivo baza
podataka.
Prioritetni zadatak ovog sistema je da bude
pravovremen i raspoloživ za ažuriranje.
Upiti, kao deo transakcionog procesa su veoma
ograničeni u svojim zahtevima i uglavnom ciljani.
Najviše su oslonjeni na prebrojavanje podataka i
filtriranje.
Sistem izvora sirovih podataka
U sistemima izvora sirovih podataka, baze
podataka imaju jedinstvene ključeve podataka, koji
se nazivaju primarni ključevi. Oni se tretiraju kao
atributi, odnosno kao bilo koji drugi tekstualni opisi.
Primarni ključevi se nikada ne koriste kao ključevi
u Data Warehouse, zato što su isključivo
identifikacione, a ne klasifikacione prirode, koje
bez dobrog tekstualnog opisa ne predstavljaju
kvalitetan podatak.
Nivo za dodavanje podataka
Nivo za dodavanje podataka predstavlja vezu
između sistema izvora sirovih podataka i
prezentacionog servera.
On se sastoji od podnivoa za skladištenje
podataka i podnivoa za obradu podataka.
Podnivo za obradu podataka vrši procese
brisanja, transformacije, povezivanja, arhiviranja,
kao i dodatnu obradu sirovih izvornih podataka.
Nivo za dodavanje podataka
U funkcionalnom smislu, ovaj nivo ne obezbeđuje
direktne upite krajnjih korisnika, pisane izveštaje,
kao ni bilo koji drugi prezentacioni servis.
U hardverskom smislu, najbolje ga je realizovati
centralizovano kao jednu hardversku celinu, nego
da se prostire kroz nekoliko PC-a.
Nivo za dodavanje podataka
Iako je ovaj nivo osnovni i najvažniji proces obrade
podataka, on u sebi sadrži još neke podprocese,
kao što su:
 ekstrakcija,
 transformacija,
 učitavanje i indeksiranje,
 osiguranje provere kvaliteta podataka.
Ekstrakcija
Ekstrakcija predstavlja prvi korak dobijanja
podataka unutar Data Warehouse-a, a
podrazumeva čitanje i razumevanje izvornih sirovih
podataka, kao i kopiranje delova koji su neophodni
za budući rad.
Transformacija
Transformacija obuhvata: čišćenje od podataka koji
su pogrešni; odbacivanje podataka koji nisu korisni
za Data Warehouse; povezivanje podataka sa
tačno odgovarajućom vrednosti ključa; kreiranje
surogatnih ključeva i pravljenje agregacija za
podizanje performansi korisničkih upita.
Učitavanje i indeksiranje
Učitavanje i indeksiranje nastaje nakon
transformacije, kada je podatak u obliku zapisa, koji
je pogodan za učitavanje.
Masovno učitavanje podataka u Data Warehouse
okruženju uobičajeno je u obliku dimenzionalnih
tabela.
Provera kvaliteta podataka
Provera kvaliteta podataka nastaje nakon što se u
svaki Data Mart učitaju podaci, indeksiraju i dopune
agregiranim podacima.
Osiguranje kvaliteta podataka vrši se opsežnim i
složenim izveštajima cele kolekcije novoučitanih
podataka.
Sve kategorije izveštaja moraju biti izvršene, a sva
prebrojavanja i totali moraju biti zadovoljavajući.
Pristup podacima od strane krajnjeg korisnika
Odvija se kroz nekoliko programskih aplikacija.
Programske aplikacije za krajnjeg korisnika
predstavljaju kolekciju programskih alata za
korisničke upite, analizu i predstavljanje
informacija.
Cilj je da se na bazi alata za pristup podacima od
strane korisnika, alata za tabelarna izračunavanja,
grafičkog paketa i pristupačnog korisničkog
okruženja, pruži podrška za donošenje poslovnih
odluka.
Programski alati
Programski alat za pristup podacima može biti
jednostavan kao alati za ad hoc upit ili složen kao
Data Mining ili Modeling Application.
Programski alat za ad hoc upit predstavlja
određenu vrstu alata za pristup podacima od strane
krajnjeg korisnika.
Korisnik formuliše sopstveni upit neposrednom
manipulacijom relacionim tabelama i njihovim
povezivanjem.
Najpoznatiji alati za stvaranje Data Warehouse-a
•
IBM Data Warehouse Plus,
•
Oracle Data Warehousing 11g Essentials,
•
Teradata Scalable Warehouse,
•
Sybase Warehouse Studio,
•
Microsoft Data Warehouse.