DWH - Gurcan Orhan`s Oracle Data Integrator Blog

Download Report

Transcript DWH - Gurcan Orhan`s Oracle Data Integrator Blog

TURKISH ORACLE USER GROUP
Gürcan ORHAN
Turkcell Teknoloji Ar. Ge. A.Ş.
Yazılım Mimarı ve Deneyimli Yazılım Mühendisi
http://gurcanorhan.wordpress.com
http://www.twitter.com/gurcan_orhan
http://tr.linkedin.com/in/gurcanorhan
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
BEN KİMİM ?
Uludağ Üniversitesi Endüstri Mühendisliği 1992 - 2000
Aktif iş hayatı - 1994
İlk DWH projesi Altınyıldız DWH - 2003
Önemli DWH projeleri ;
 AVEA DWH Yeniden Yapılandırma Projesi
 Tekstilbank DWH ve Siebel CRM Marketing Automation
 Turkcell NODI (Network Operations Data Infrastructure)
NODI projesinin Customer Snapshot’ı Oracle.com’da yayınlandı
2008’den itibaren Turkcell, 2010’dan itibaren Turkcell Teknoloji
Oracle Bilgisayar Programı Kullanıcılar Derneği Genel Sekreteri
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
NERELERDEYDİM ?
Önemli sunumlar ;
 Oracle Open World 2010 – San Francisco (22.10.2010)
 UKOUG Technology & E-Business Suite Conference – Birmingham (29.11.2010)
 Sakarya Üniversitesi Bilişim ve Teknoloji Şöleni – Sakarya (24.03.2011)
 ODTUG KScope ’11 – Long Beach, California (28.06.2011)
 OPN – BI Day – LinkPlus (29.09.2011)
 Oracle Open World 2011 - San Francisco (03.10.2011)
 Oracle Day ‘11 - İstanbul (01.11.2011)
 Fırat Üniversitesi Geleceğine Yön Ver - Elazığ (12.12.2011)
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
NELER YAPTIM ?
http://www.oracle.com/oraclemagazine
http://www.oracle.com/technetwork/issue-archive/2012/12-jan/index.html
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
NE KULLANIRIM ?
Veri tabanı yönetim sistemleri
ETL
 Oracle
 Oracle Data Integrator
 Microsoft SQL Server
 Oracle Warehouse Builder
 Sybase ASE
 Informatica
 Sybase IQ
 Business Objects Data Integrator
 MySQL
 Herhangi bir ANSI database
Model Tasarım
İş Zekası
 Sybase Power Designer
 Oracle Business Intelligence
 CA ERWIN
 Cognos
 Business Objects
 Microstrategy
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
GLOSSARY
• DWH : Datawarehouse – Veri Ambarı
• DM : Data Mart – Veri Kümeleri
• BI
: Business Intelligence – İş Zekası
•
•
•
•
ETL
IK
SCD
CDC
•
•
•
•
•
OLTP :
OLAP :
SA
:
STG :
DQ :
:
:
:
:
Extract – Transform – Load
Incremental Update – Artımsal Güncelleme
Slowly Changing Dimension – Yavaş Değişen Boyutlar
Change Data Capture – Değişen Veriyi Yakala
Online Transactional Processing – Operasyonel Sistemler
Online Analytical Processing – Küpler
Subject Area – Konu Alanı
Staging Area – Kademe Alanı
Data Quality – Veri Kalitesi
• FACT : Fact (TRX) – Gerçekleşen (Hareket)
• DIM : Dimension – Boyut
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
HERŞEY NASIL BAŞLADI ?
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
GÜNÜN AJANDASI
 Veri Ambarı nedir, ne demektir?
 DWH & DM farkı nedir?
 DWH & OLTP farkı nedir?
 DWH bileşenleri nelerdir?
 ETL ne demektir?
 ETL tipleri nelerdir?
 Modelleme nedir, nasıl yapılmalıdır?
 Veri Kalitesi nedir, nasıl sağlanır?
 Veri Tabanı fiziksel yaklaşımları nelerdir?
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
DATAWAREHOUSE (DWH) NEDİR ?
DWH tarihi
• EIS (Enterprise Information Systems)
• DSS (Decision Support Systems)
• Data Warehousing and Business Intelligence (DWH / BI)
Bir veri ambarı; yönetim kararlarını destekleyici, konu yönelimli, entegre,
uçucu olmayan ve zaman değişkenli veri kümesidir. (Bill Inmon - 1990)
İş Zekası, verinin bilgiye dönüşümü işlemidir. (Gartner Group)
Teknik Avantajları
• Paralel kullanımı (Parallelism)
• Veri Kümelemesi (Partitioning)
• Veri Sıkıştırması (Compressing)
DECISION
KNOWLEDGE
INFORMATION
DATA
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
GÜNÜN AJANDASI
 Veri Ambarı nedir, ne demektir?
 DWH & DM farkı nedir?
 DWH & OLTP farkı nedir?
 DWH bileşenleri nelerdir?
 ETL ne demektir?
 ETL tipleri nelerdir?
 Modelleme nedir, nasıl yapılmalıdır?
 Veri Kalitesi nedir, nasıl sağlanır?
 Veri Tabanı fiziksel yaklaşımları nelerdir?
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
DATAMART (DM) NEDİR ?
Datamartlar
• Konu yönelimli
• Tümleşik
• Genellikle tek kaynak sistemden beslenir
Bağımlı veya bağımsız olabilirler.
• Bağımlı DM : DWH’tan beslenen, kolay ETL, kurumsal planın parçası
• Bağımsız DM : Ayrık, operasyonel maliyeti yüksek, harici veri
kaynaklarından beslenen, analitik ihtiyaçlara yönelik hazırlanan
ÖZELİK
DATA WAREHOUSE
DATAMART
İçerik
Kurumsal
Departmansal
Konu
Çok
Tek özne, iş birimi odaklı
Veri Kaynağı
Çoğul
Tekil
Implementasyon
Ay – Yıl
Ay
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
GÜNÜN AJANDASI
 Veri Ambarı nedir, ne demektir?
 DWH & DM farkı nedir?
 DWH & OLTP farkı nedir?
 DWH bileşenleri nelerdir?
 ETL ne demektir?
 ETL tipleri nelerdir?
 Modelleme nedir, nasıl yapılmalıdır?
 Veri Kalitesi nedir, nasıl sağlanır?
 Veri Tabanı fiziksel yaklaşımları nelerdir?
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
DWH & OLTP
ÖZELİK
OPERASYONEL SİSTEM
DATA WAREHOUSE
Yanıt Süresi
Milisaniye / Saniye
Saniye / Saat
Operasyon
DML (Data Manipulation
Language)
Öncelikli olarak salt-okunur
Veri doğası
30 – 60 gün
Zamansal enstantane
Veri Organizasyonu
Uygulama
Öznel, zamansal
Veri Miktarı
Küçük / Büyük
Büyük / Çok Büyük
Veri Kaynağı
Operasyonel, Dahili
Operasyonel, Dahili, Harici
Aktiviteler
Proses bazlı
Analiz Bazlı
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
GÜNÜN AJANDASI
 Veri Ambarı nedir, ne demektir?
 DWH & DM farkı nedir?
 DWH & OLTP farkı nedir?
 DWH bileşenleri nelerdir?
 ETL ne demektir?
 ETL tipleri nelerdir?
 Modelleme nedir, nasıl yapılmalıdır?
 Veri Kalitesi nedir, nasıl sağlanır?
 Veri Tabanı fiziksel yaklaşımları nelerdir?
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
DATAWAREHOUSE BİLEŞENLERİ
OPERASYONEL
KAYITLAR
ARŞİV KAYITLARI
DOSYALAR
KAYNAK
SİSTEMLER
OPERATIONAL
DATA STORE
(ODS)
DWH
STAGING
KATMAN
KURUMSAL
KATMAN
METADATA REPOSITORY
DWH Yazılım Yaklaşımları
• Bing Bang Yaklaşımı
• Artımsal Yaklaşım
• Yukarıdan aşağıya artımsal (top-down incremental)
• Aşağıdan yukarıya artımsal (bottom-up incremental)
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
DM
SUNUM
KATMANI
GÜNÜN AJANDASI
 Veri Ambarı nedir, ne demektir?
 DWH & DM farkı nedir?
 DWH & OLTP farkı nedir?
 DWH bileşenleri nelerdir?
 ETL ne demektir?
 ETL tipleri nelerdir?
 Modelleme nedir, nasıl yapılmalıdır?
 Veri Kalitesi nedir, nasıl sağlanır?
 Veri Tabanı fiziksel yaklaşımları nelerdir?
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
ETL NE DEMEKTİR?
E-T-L (Extract – Transform – Load)
Extraction
• Farklı kaynak sistemden, veri tabanından farklı formatlarla elde edilir.
• Kaynak sistemlerin canlı, arşiv, dahili ve harici verilerine erişebilir.
Transform
• Veri hataları düzeltilir.
• Genellikle staging area (remote/on site) kullanılır
• Veri entegrasyonu sağlanır
• İş kuralları verilere uygulanarak veri doğrulaması gerçekleştirilir
• Veriler onaylanır
• Verilere zaman entegre edilir.
Load
• Elde edilen temizlenmiş veri DWH ortamına yazılır
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
GÜNÜN AJANDASI
 Veri Ambarı nedir, ne demektir?
 DWH & DM farkı nedir?
 DWH & OLTP farkı nedir?
 DWH bileşenleri nelerdir?
 ETL ne demektir?
 ETL tipleri nelerdir?
 Modelleme nedir, nasıl yapılmalıdır?
 Veri Kalitesi nedir, nasıl sağlanır?
 Veri Tabanı fiziksel yaklaşımları nelerdir?
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
ETL ÇEŞİTLERİ
Truncate & Load
• Kaynak sistemden elde edilen verilerin tümünün silinerek yeniden
yapılandırılması.
Incremental Update
• Kaynak sistemden elde edilen birincil anahtarlar (Primary Key)
yardımı ile «yeni geleni ekle, mevcut olanı güncelle, silineni işaretle»
yaklaşımı.
• Change Data Capture (CDC)
Slowly Changing Dimensions Type II (SCD)
• Kaynak sistemden elde edilen veriler tarihsel olarak saklanarak hiçbir
veri silinmez. Tarihsel yaklaşım.
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
ETL PROBLEMLERİ
• Kaynak sistemdeki tablonun unusable olması
• Kaynak sistemdeki dosyaya erişilememe
• Yetersiz metadata
• Zayıf veya yetersiz analiz süreci
• Yetersiz yer (storage) planlama
• Kaynak sistemde yapısal değişiklikler
• Yetersiz veri validasyonu
• Hatalı mantıksal / fiziksel model dizaynı
• Veri tipi uyumsuzlukları
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
GÜNÜN AJANDASI
 Veri Ambarı nedir, ne demektir?
 DWH & DM farkı nedir?
 DWH & OLTP farkı nedir?
 DWH bileşenleri nelerdir?
 ETL ne demektir?
 ETL tipleri nelerdir?
 Modelleme nedir, nasıl yapılmalıdır?
 Veri Kalitesi nedir, nasıl sağlanır?
 Veri Tabanı fiziksel yaklaşımları nelerdir?
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
MODELLEME
İş modelinin oluşturulması (Business Model)
• Strateji analizinin yapılması
• İş birimi tanımlarının ve kurallarının belirlenmesi
• İş ihtiyaçlarının belirlenmesi
Mantıksal modelin oluşturulması (Logical Model)
• İlişki ve ilişki tiplerinin belirlenmesi
• Fact ve Dimension’ların tespit edilmesi
• Sonuçların mantıksal olarak üretilerek konu alanlarının tespit edilmesi
• Nesnelerin isim ve renk standartlarının belirlenmesi
Fiziksel modelin oluşturulması (Physical Model)
• Donanım ihtiyaçlarının tespit edilmesi
• Tablo ve index için disk kapasitesi ihtiyacının belirlenmesi
• Partition stratejisinin belirlenmesi
• Güvenlik stratejisinin belirlenmesi
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
MODELLEME
Third Normal Form (3NF)
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
MODELLEME
Star Schema
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
MODELLEME
Snowflake Schema
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
GÜNÜN AJANDASI
 Veri Ambarı nedir, ne demektir?
 DWH & DM farkı nedir?
 DWH & OLTP farkı nedir?
 DWH bileşenleri nelerdir?
 ETL ne demektir?
 ETL tipleri nelerdir?
 Modelleme nedir, nasıl yapılmalıdır?
 Veri Kalitesi nedir, nasıl sağlanır?
 Veri Tabanı fiziksel yaklaşımları nelerdir?
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
VERİ KALİTESİ NEDİR?
• Beklenen veri, beklenen yerde, beklenen şekilde bulunmaz ise veri
kalitesi problemi ortaya çıkar.
• Farklı anlama gelen data
• Eksik bilgi, verinin farklı alanda olması
• Veri tipi farklılığı
• Veri boyutu farklılığı
• Veri doğrulama kurallarının olmaması
• Drill-Down olmaması
• İlişkisel bütünlüğün olmaması, öksüz kayıtların varlığı
• Veri duplikasyonu
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
GÜNÜN AJANDASI
 Veri Ambarı nedir, ne demektir?
 DWH & DM farkı nedir?
 DWH & OLTP farkı nedir?
 DWH bileşenleri nelerdir?
 ETL ne demektir?
 ETL tipleri nelerdir?
 Modelleme nedir, nasıl yapılmalıdır?
 Veri Kalitesi nedir, nasıl sağlanır?
 Veri Tabanı fiziksel yaklaşımları nelerdir?
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
FİZİKSEL ORTAM
Fact tablo karakteristikleri
• İş birimlerinin kullanacağı nümerik metrik değerleri içerir
• Büyük miktarda veri içerir
• Çabuk büyür, çok hızlı genişler
• Stabil, Türetilmiş veya Özetlenmiş veri içerir
• Genellikle ekleme yapılır
• Genellikle dimension tablolarla foreign key ile ilişkilidir
Dimension tablo karakteristikleri
• İş birimlerinin görmek istedikleri metin tipteki veriyi içerirler
• Genellikle statik veri içerirler
• Boyutları küçüktür
• Truncate Load mekanizmasına uygundur
Slowly Changing Dimensions tablo karakteristikleri
• Genellikle link tablolarıdır (Fact – Dimension linki)
• Fact üzerindeki dimension’ın tarihçe bilgilerini tutarlar
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
FİZİKSEL ORTAM
Partitioning
• Range Partition
• Hash Partition
• List Partition
• Index Partition
• Composite Partition
Indexing
• B-Tree Index
• Bitmap Index
• Function Based Index
• Partitioned Index
Star
• Genellikle link tablolarıdır (Fact – Dimension linki)
• Fact üzerindeki dimension’ın tarihçe bilgilerini tutarlar
Materialized View
• Fiziksel yer kaplayan, istendiği zaman refresh edilebilen view yapısı
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
SONUÇ
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi
TEŞEKKÜRLER
Gürcan ORHAN
http://gurcanorhan.wordpress.com
http://www.twitter.com/gurcan_orhan
http://tr.linkedin.com/in/gurcanorhan
11.05.2012 – Gürcan Orhan @ π-TEK – Kocaeli Üniversitesi