Transcript temps
DATA WAREHOUSING
Défis et pistes de solutions
Yazid Grim
Gestionaire de produit BI (PCG Canada)
Spécialiste en cycle de vie logiciel en BI
Spécialiste en produits Microsoft BI
7 ans d’éxperience en BI et DW (consultation)
10 ans d’éxperience en TI
Ingéniorat en Informatique (SI) à l’INI (2000-2005)
Agenda
Mise en contexte: le monde a changé…
Rappel: la mission d’un Data Warehouse
Les problématiques actuelles du Data Warehousing
Des pistes de solutions
Q&R
Le monde a changé…
… Et les entreprises aussi
Le monde a changé
+ de données (Internet)
+ de clients
+ de compétition
+ de maturité
+ de consommation
+ de régulations
+ d’innovations
+ personne compétentes
+ défis
- de frontières
- de droit à l’erreur
- de limites…
Mission du DW
TEMPS
Stockage de données pour du reporting
Mémoire « passive » d’entreprise
Source pour les analystes
Outil de prédiction
Nouveau modèle d’affaire (Google, Facebook, …)
…
Mission du DW
Stocker des données qui
seront utilisées pour de la
prise de décision
Mission du DW
Stocker des données qui
seront utilisées pour de la
prise de décision
Les défis du Data Warehousing
Données / Utilisateurs / Gestion d’entreprise
Volumétrie des données
Volumétrie des données
"...notre PME accumule plus 50Go de données par mois dans son DW..."
"...notre infrastructure ne tient plus la route avec des
tables de faits de 500 Millions de lignes..."
"...on veut analyser l'achalandage des utilisateurs mais ça
représente plus 3 millions de passages par jour"
"...notre process ETL prend plus de 24h..."
Volumétrie des données
Architectures matérielles ne peuvent plus supporter
les charges des DW (stockage et traitement)
Architectures logicielles désuètes
Les SGBD relationnels montrent leurs limites
Le paradigme E-T-L ne répond plus au besoin initial
Nos méthodes de modélisation n’ont pas été pensés
pour de tels volumes de données
BI pour tous
Le BI pour les décideurs n’existe plus…
BI pour tous
Data-Driven businesses
Nouvelles
façon de gérer les entreprises
Exige que tous les employés prennent des décisions à
leur niveau
Offre les outils nécessaires pour ce faire
BI pour tous
Les travailleurs en entreprises sont:
Mieux
formés
Plus responsables
Plus instruits
Plus désireux d’exceller dans leur travail
Plus « branchés »
BI pour tous
Real-Time BI / Operational BI
Utilisé
dans les grosses entreprises manufacturières et
les compagnies financières.
Quand des décisions importantes doivent être prises
chaque seconde par beaucoup de personnes…
Brise le modèle asynchrone des ETL classiques
TI vs. Business
TI vs Business
TI vs. Business
Processus d’entreprise changent beaucoup trop vite
pour les TI
Les méthodes agiles ne règlent que partiellement le
problème
BI et DW sont devenus trop important pour les
laisser aller à leur rythme
Éléments de solution
Ce qui se fait actuellement pour pallier aux problèmes
Cloud Computing
L’infrastructure en tant que service
Cloud Computing
Permet d’héberger des données et du traitement
dans des environnements spécialisés
Réduit le TCO en infrastructure
Met à disposition une capacité de traitements
phénoménale
Nouvelle génération de matériel
Plus vite, plus efficace, moins cher
Nouvelle génération de hardware
SSD
Nouvelle génération d’OS
Nouvelles générations de RAM
Nouvelles technologies (SAN, DFS)
Nouveaux processeurs
Architectures distribuées
Diviser pour régner
Architectures distribuées
Permet de mettre à profit des machines de faible
puissance pour des traitements complexes sur de
gros volumes de données
Mets en réseau stockage, RAM et processeur pour
gérer la charge
Initiative de Google
Le mouvement NoSQL
L’alternative venue du Web
Mouvement NoSQL
Nouvelle génération d’outils de stockage née avec les grosses
compagnies du Web
Aux antipodes des règles de CODD
Inventés pour répondre aux besoins des géants du Web (Google,
Facebook, Twitter, Ebay,…)
Récemment adopté pour des besoins BI en entreprise
Principe simple: stocker des fichiers avec un SGF distribué
Permet de gérer des Péta Bytes (index de recherche de Google)
Mouvement NoSQL
Columnar Databases
Pensé pour les DW
Columnar Databases
Columnar Databases
Bénéfices:
Taux
élevé de compression au niveau colonne (1:4)
On ne lit que ce qu’on a besoin
On retrouve l’information de manière efficace
Outils de visualisation de données
De plus en plus matures
Outils de visualisation
Permettent de traiter des volumes importants de
données
Plus simples d’utilisation
Un marché encore jeune mais avec des leaders
émergents
Outils de visualisation de données
Ex: Tableau Software
Conclusion
Questions / Contact
[email protected]
www.yazidgrim.com
Widescreen Test Pattern (16:9)
Aspect Ratio Test
(Should appear
circular)
4x3
16x9