Data Webhouse DW

Download Report

Transcript Data Webhouse DW

DW
Data Webhouse
Osnovni koncepti Webhouse-a:
-
-
-
praćenje akcija korisnika sajtova,
analiziranje korisničkih komunikacija u realnom
vremenu,
analiziranje tehnike za prikupljanje podataka o
kupcima,
dizajniranje Web-sajtova da podrže warehousing,
dizajniranje Web-enabled Data Marts (skladišta
podataka organizovanih na data warehousing
konceptu, orijentisanih na jedan konkretan
problem)
2
Osnovna Webhouse arhitektura
Web Logs
Warehouse
Builder
Clickstream
Loader
Database
OLAP Alati
3
Clickstream Collector
Server Farm
Firewall
Agent
Agent
Clickstream Intelligence
System
http(s) or ftp
Collector
Server
Agent
4
Primer Log File rekorda
Field
Value
Host
148.87.9.44
Ident
-
Authuser
-
Time
Request
[21/May/2006:17:52:29 -0800]
GET /admin/images/logo.gif HTTP/1.1
Status
200
Bytes
881
Referrer
User-agent
http://otn.oracle.com
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)
5
WEBHOUSE MODEL
- podaci o vremenu pristupa sajtu,
- podaci o korisniku,
- stranice koje su posećene,
- specijalne kontrole (npr. da li je stranica potpuno učitana),
- podaci iz “cookie-ja” o korisniku.
Iz toga se izvlače:
- činjenična tabela clickstream-a i
- dimenzione tabele u okviru šeme zvezde.
6
Clickstream analitika
Koji je odnos
novih i
ponovnih
posetilaca?
7
Studija slučaja:
Portal NekretnineSrbije
autor: Milena Jovanović, master FON-a
Analiza logova
portala NekretnineSrbije
9
Proces obrade Web server logova




Prikupljanje podataka
Analiza Web server logova
Konstrukcija skladišta podataka
(Webhouse)
Otkrivanje i evaluacija paterna
10
Prikupljanje podataka
Pet izvora:
1.
2.
3.
4.
5.
Web server logovi koji beleže putanju kojom se
korisnik kretao na sajtu
Informacije o proizvodima
Informacije o sadržaju Web sajta (slike, video klipovi
…)
Podaci o kupovini (količina kupljenih proizvoda, način
plaćanja i suma, adresa isporuke …)
Demografske informacije
Analysis service SQL Server 2005
11
Analiza Web server logova

Tipičan log fomat portala Nekretnine
Srbije:
93.86.166.228 - - [25/Oct/2009:09:47:02 +0100] "GET
/styles/ie/slider.css?23451 HTTP/1.1" 304 "http://www.nekretninesrbije.com/izdavanje_nekretnina/
detaljni_prikaz_oglasa/iznajmljivanje_stan_beograd_vozd
ovac_cena-330-eur_povrsina-52m2_22164" "Mozilla/4.0
(compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; Mozilla/4.0
(compatible; MSIE 6.0; Windows NT 5.1; SV1) ; .NET CLR
2.0.50727; .NET CLR 1.1.4322; InfoPath.2; .NET CLR
3.0.4506.2152; .NET CLR 3.5.30729)"\par
12
Web Log Parser
13
Konstrukcija skladišta podataka
(Webhouse)


Analiza zahteva
Postavljanje ciljeva analize
 Koji tipovi oglasa su najtraženiji i na kojim
teritorijama
 Najčešći korisnici, njihov profil
 U koje vreme se dešava vrhunac posete
 Propusti na Web sajtu – najčešća strana
napuštanja sajta
14
Dimenzije i mere Webhouse-a






Dimenzija Korisnik –IP Adresu korisnika, korisničko ime i
pasword, demografske podatke o korisnicima, kao što su ime,
prezime, godište, adresa itd.
Vremenska dimenzija –Dimenzije Datuma i Dimenzija
Vremena.
Dimenzija Ponude – tipovi : Iznajmljivanje, Kratkoročno
iznajmljivanje, Prodaja, Cimeri, Biznis, Turistički smeštaj, Prostori za
manifestacije i Ostalo.
Dimenzija Pretraživač
Dimenzija Oglas –adresa, površina, lokacija, tip nekretnine,
specifikacije (lift, telefon, sprat itd.). Dimenzija Lokacija (grad,
opština gde se nalazi nekretnina), Dimenzija Tip Nekretnine (kuća,
zgrada, garaža itd.), Dimenzija Struktura Stana (jednosoban,
dvosoban, trosoban itd.), Dimenzija Grejanje (etažno, podno,
centralno itd.)
Mere – cena, broj poseta korisnika
15
Webhouse šema
16
Transformacija podataka
Izvršiti dva tipa transformacija:


podaci se moraju prebaciti iz OLTP sistema u
OLAP sistem - ETL
Transformacije radi dobijanja novih vrednosti
Generalizacija ili ekstrakovanje primitivnih
vrednosti na viši nivo
 Grupisanje informacija iz više kolona
 Kreiranje nove kolone koja sadrži informacije koje
nisu direktno prisutne u postojećim kolonama

17
Pregled oglasa individualnih korisnika
Posmatra se broj poseta korisnika koji je gledao određen oglas,
na osnovu toga predlažemo povoljniji oglas na istoj teritoriji
18
Određivanje profila posetilaca portala
Starosna struktura posetilaca sajta po tipu ponude i vrsti nekretnina:
Najaktivniji korisnici 1974. i 1980. godište,
Najaktuelniji oglasi predstavljaju iznajmljivanje stanova.
19
Određivanje učestalosti poseta portala
Najaktivniji u intervalu od 12 do 2 sata popodne, najviše interesa za prodaju nekretnina
Najviše koriste kraj radne nedelje (četvratk i petak) i nedelju za razgledanje oglasa.
20
Otkrivanje i evaluacija paterna

Algoritmi asocijativnih pravila


Detektivanje povezanih Web stranica – ukoliko je korisnik gledao
oglas A kolika je verovatnoća da će pogledati oglas B
Klastering tehnike

Grupisanje objekta na osnovu zajedničlih osobina



Klasifikacije

Kreiranje modela ponašanja i primena tog modela na nove
elemente


Profilisanje korisnika
Grupisanje navigacionih putanja pogodaka strana
kreiranje ciljnih kampanja ili targeting kupaca
Evaluacija paterna - oslanja na SQL upite nad
bazama podataka
21
Primer detektovanja kategorija
Ulaganja firme u pozicioniranje
portala na google-u je opravdano
Poboljšanje koje možemo uvesti je
agresivnija reklama portala na
Facebook-u
22
Analiza ključnih faktora
U Zemunu se uglavnom
prodaju kuće i zemjište, a
na Novom Beogradu se
pretežno prodaju stanovi
23
Primena asocijativnih pravila
pet oglasa sa najvećom verovatnoćom koje će korisnik pogledati zajedno
24
Problemi:
 Identifikacija posetilaca
 IP adresa nije uvek pouzdana
 Cookie identifikuje računar, a ne osobu
 Sigurnost i zaštita podataka i način njihovog
učitavanja i stavljanja na raspolaganje;
 Prilagođavanje interfejsa za višekorisničke
varijante;
 Prilagođavanje browser-a za dinamičke analize;
 Integracija sa postojećim aplikacijama koje nisu
razvijene za Web okruženje.
25
Poboljšanja koja se u budućnosti očekuju
u Webhouse sistemima :
-
Upotreba generičkih algoritama;
Upotreba inteligentnih agenata;
Upotreba novih načina indeksiranja;
Novi načini pretraživanja podataka.
26
Dodatni izvori


Ralph Kimball: “The Data Warehouse
Toolkit: The Complete Guide to
Dimensional Modeling”,
http://www.chrispeiris.com/articles/data_
WebHousing.html
27