Data Warehose dan OLAP

Download Report

Transcript Data Warehose dan OLAP

Konsep dan Teknik Data Mining
Edward Purba
DW & OLAP
1/148
Problem:
Sumber Informasi Yang Heterogen
“keheterogenan ada dimana-mana”
Database
Personal
Database saintifik
p
p
p
Pustaka Digital
World
Wide
Web
Antarmuka berbeda
Representasi data berbeda
Duplikasi dan ketidak-konsistenan informasi
Edward Purba
DW & OLAP
2/148
Goal: Akses Data Terpadu
Sistem Integrasi
World
Wide
Web
Pustaka Digital
Database Saintifik
Dabase
Personal
• Mengumpulkan dan mengkombinasikan informasi
• Menyediakan view terintegrasi dan antarmuka user seragam
• Menyokong pemakaian bersama-sama (sharing)
Edward Purba
DW & OLAP
3/148
Pendekatan Warehouse
Klien
• data diintegrasikan
terlebih dahulu
• Disimpan dalam
warehouse untuk
query langsung dan
analisa
Data
Warehouse
Sistem Integrasi
Metadata
...
Extractor/
Monitor
Sumber
Edward Purba
Extractor/
Monitor
Sumber
DW & OLAP
Extractor/
Monitor
...
Sumber
4/148
Integrasi
• Pembersihan Data
• Pemasukan Data Client
• Data yang diperoleh
Client
Query & Analisis
Metadata
Warehouse
Integrasi
Source
Edward Purba
DW & OLAP
Source
Source
5/148
Apa Itu Data Warehouse?
– Suatu database penunjang keputusan yang
dikelola secara terpisah dari database
operasional perusahaan.
– Penunjang pemrosesan informasi dengan
menyediakan suatu platform yang kokoh
untuk analisa data yang mengandung histori
dan yang terkonsolidasi
Edward Purba
DW & OLAP
6/148
Apa Itu Data Warehouse?
• “Suatu DW adalah suatu koleksi data yang bisa
digunakan untuk menunjang pengambilan
keputusan manajemen, yang berorientasi subjek
(topik), terpadu, time variant, dan tidak mudah
berubah(non volatile)” —W. H. Inmon (Bp.
Data Warehousing)
• Data warehousing adalah proses dimana
organisasi menyari makna dari aset informasi
yang dimilikinya melalui penggunaan data
warehouse
Edward Purba
DW & OLAP
7/148
Apa Itu Data Warehouse?
“Suatu data warehouse sederhananya adalah
suatu penyimpanan data tunggal, lengkap dan
konsisten, yang diperoleh dari berbagai sumber
dan dibuat tersedia bagi end user dalam suatu
cara yang bisa mereka pahami dan bisa mereka
gunakan dalam suatu konteks bisnis.” - - Barry
Devlin, IBM Consultant
Edward Purba
DW & OLAP
8/148
Properti Data Warehouse?
Subject
Oriented
Integrated
Data
Warehouse
Non Volatile
Edward Purba
Time Variant
DW & OLAP
9/148
DW: Berorientasi Subjek (Topik)
• Diorganisasikan berdasarkan kegunaan disekitar
subjek bukan aplikasi, misal: customer, product, sales.
• Perhatian dipusatkan pada pemodelan dan analisa data
untuk pembuat keputusan, bukan untuk operasi harian
atau pemrosesan transaksi.
• View sederhana dan ringkas disekitar subjek
pembicaraan disediakan dengan cara memisahkan
data-data yang tidak berkaitan dengan proses
penunjang keputusan
Edward Purba
DW & OLAP
10/148
DW: Terpadu
• Dibangun dengan memadukan banyak sumber data
yang heterogen
– Database relasional, flat file, catatan transaksi online.
• Teknik pembersihan dan integrasi data diterapkan
– Menjamin konsistensi penamaan, penyandian
struktur, ukuran atribut, dsb., dari antara sumbersumber data yang berbeda.
• Misal, tarif hotel: mata uang, pajak, breakfast
covered, dsb.
– Ketika data dipindahkan ke warehouse, data ini
telah terkonversi
Edward Purba
DW & OLAP
11/148
DW: Time Variant
• Jangka waktu untuk DW secara significant lebih lama
ketimbang data pada sistem operasional
– Database operasional: data dengan nilai terbaru
– Data dari data warehouse: menyediakan informasi dari
suatu tinjauan historis (misal, 5-10 tahun terakhir)
• Setiap struktur key didalam data dari data warehouse
memuat suatu elemen waktu baik itu yang secara
eksplisit dinyatakan maupun yang secara implisit
• Tetapi setiap struktur key dari data operasional bisa atau
bisa tidak memuat elemen waktu
Edward Purba
DW & OLAP
12/148
DW: Time Variant
Data disimpan dalam sederetan snapshot, yang masingm a s i n g m en g g amb a r k an s u at u p er i o d e w a k t u
Time
Jan-97
Feb-97
Mar-97
Edward Purba
Data
January
February
March
DW & OLAP
13/148
DW: Non-Volatile
• Penyimpanan data yang secara fisik terpisah
ditransformasikan dari lingkungan operasional
• Pengubahan data operasional tidak terjadi dalam
lingkungan data warehouse
Edward Purba
DW & OLAP
14/148
DW: Non-Volatile
Sistem
Operasional
insert
replace
change
Data
Warehouse
update
delete
Load/
Update
update
Titik Konsisten
Dalam waktu
Perubahan konstan
s
s
Secara tetap diubah
Data berubah sesuai
kebutuhan, tidak pada
suatu jadwal tetap
Edward Purba
s
s
Ditambahkan secara reguler,
tetapi pemuatan data jarang
sekali diubah secara langsung
Namun data warehouse tetap
diperbaharui
DW & OLAP
15/148
Pengubahan Data
Load pertama kali
Database Warehouse
Database
Operasional
Refresh
Refresh
Refresh
Edward Purba
DW & OLAP
16/148
DW vs. DBMS Operasional
• OLTP (on-line transaction processing)
– Tugas utama dari relasi DBMS tradisional
– Operasi harian: purchasing, inventory, banking,
manufacturing, payroll, registration, accounting,
dsb.
• OLAP (on-line analytical processing)
– Tugas utama dari sistem data warehouse
– Analisa data dan pengambilan keputusan
Edward Purba
DW & OLAP
17/148
OLTP vs. OLAP
OLTP (DB Standard
OLAP (Data Warehouse)
Tipe users
profesional IT
Pekerja pengetahuan
Fungsi/kegunaan
Operasi hari-ke-hari
Pendukung keputusan
Rancangan DB
Berorientasi
- aplikasi
Berorientasi
subjek
data
penggunaan
current, up-to-date
detail, flat relational
lokal
berulang
historikal,
ringkas, multidimensional
Terpadu
Khusus untuk sesuatu maksud
akses
read/write
Banyak mengamati
unit kerja
Transaksi pendek, sederhana Query kompleks
#record yg diakses
puluhan
jutaan
#user
ribuan
ratusan
Ukuran DB
100MB-GB
100GB-TB
metrik
throughput transaksi
Throughput query, respons
Edward Purba
DW & OLAP
18/148
Arsitektur Warehouse
Klien
Klien
Query & Analysis
Warehouse
Integrator
Extractor/
Monitor
Extractor/
Monitor
Sumber
Sumber
Edward Purba
Metadata
Extractor/
Monitor
...
DW & OLAP
Sumber
19/148
Arsitektur Warehouse
Klien
Sumber Informasi
Server
Data Warehouse
Server OLAP
MOLAP
(Multidimensional OLAP)
OLTP
DBMS
Analysis
Query/Reporting
Saring,
Sumber Data
bersihkan,
lainnya
transformaData Marts
sikan,
kumpulkan,
muat,
ubah
Edward Purba
Data Mining
ROLAP
(Relational OLAP)
DW & OLAP
20/148
Model Data Multidimensi
• Model data multidimensional dirancang untuk
memfasilitasi analisis dan bukan transaksi
• Umum didalam data warehouse
• Konsep intuitif dari banyak dimensi atau perspektif
pengukuran bisnis atau fakta-fakta
– Melihat sales dari perspektif customer, product dan
time
• Model konseptual
• Hypercube – suatu “kubus n-sisi”
• Database adalah suatu kumpulan fakta (titik) dalam
suatu ruang multidimensi
Edward Purba
DW & OLAP
21/148
Model Kubus Data
Kubus 2-d ke 3-d
Memutar kubus
Edward Purba
DW & OLAP
22/148
Model Data Multidimensi
• Suatu fakta memiliki suatu ukuran dimensi
– Besaran yang akan dianalisa, misal, sale, budget
• Sekumpulan dimensi dimana data dianalisa
– Misal, store, product, date yang dikaitkan dengan
suatu jumlah sale
• Dimensi membentuk suatu sistem koordinat populasi
• Atribute-atribut dari suatu dimensi bisa berhubungan
dengan urutan parsial
– Hierarki: misal, street > county >city
– Kisi: misal, date> month>year, date>week>year
Edward Purba
DW & OLAP
23/148
Model Data Multidimensi
• Ukuran– data numerik yang akan diamati
• Dimensi– parameter bisnis yang mendefinisikan suatu
transaksi
• Contoh: analis ingin melihat data sales (ukuran)
berdasarkan dimensi geography, time, dan product
• Pemodelan dimensional adalah suatu teknik untuk
menstrukturkan data disekitar konsep bisnis
• Model ER menguraikan “entitas” dan “relasi”
• Model dimensional menguraikan “ukuran” dan
“dimensi”
Edward Purba
DW & OLAP
24/148
Pemodelan Data Warehouse
Maka secara konseptual kita
menggambarkan suatu
kubus data dalam 3 dimensi,
dimana masing-masing sel
memuat pengukuran.
Edward Purba
DW & OLAP
MARKET
• Data Warehouse == Pemodelan Dimensional
•
OLAP == Query suatu model dimensional
Jika manajer/user berkata:
“Kita menjual PRODUCT dalam berbagai MARKET dan
kita mengukur kinerja kita berdasarkan TIME”
PRODUCT
25/148
Pemodelan Data Warehouse
• Dimensi yang mungkin:
– Time: day, week, month, quarter, year
– Geography / Market (Space) :city, county, state, region,
nation
– Product:brand, model, color, size, weight, ...
– Vendor
– Customer
– Organizational unit / Line of Business
– Salesperson
– View - actual, budget, forecast...
–…
Masing-masing adalah dasar untuk agregasi dan
pemecahan
Edward Purba
DW & OLAP
26/148
Dari Tabel dan Spreadsheet menjadi
Kubus Data
• Suatu data warehouse didasarkan kepada suatu model
data multidimensi yang melihat data dalam bentuk
suatu kubus data
• Suatu kubus data seperti Sales memungkinkan data
untuk dimodelkan dan dilihat dari banyak dimensi
– Dimensi tabel, seperti item (item_name, brand,
type), atau time(day, week, month, quarter, year)
– Tabel fakta memuat ukuran (seperti dollars_sold)
dan kunci untuk setiap dimensi tabel terkait
Edward Purba
DW & OLAP
27/148
Contoh Kubus Data
Edward Purba
DW & OLAP
28/148
Contoh Kubus Data
Edward Purba
DW & OLAP
29/148