Transcript temps

DATA WAREHOUSING
Défis et pistes de solutions
Yazid Grim






Gestionaire de produit BI (PCG Canada)
Spécialiste en cycle de vie logiciel en BI
Spécialiste en produits Microsoft BI
7 ans d’éxperience en BI et DW (consultation)
10 ans d’éxperience en TI
Ingéniorat en Informatique (SI) à l’INI (2000-2005)
Agenda





Mise en contexte: le monde a changé…
Rappel: la mission d’un Data Warehouse
Les problématiques actuelles du Data Warehousing
Des pistes de solutions
Q&R
Le monde a changé…
… Et les entreprises aussi
Le monde a changé






+ de données (Internet)
+ de clients
+ de compétition
+ de maturité
+ de consommation
+ de régulations






+ d’innovations
+ personne compétentes
+ défis
- de frontières
- de droit à l’erreur
- de limites…
Mission du DW


TEMPS




Stockage de données pour du reporting
Mémoire « passive » d’entreprise
Source pour les analystes
Outil de prédiction
Nouveau modèle d’affaire (Google, Facebook, …)
…
Mission du DW
Stocker des données qui
seront utilisées pour de la
prise de décision
Mission du DW
Stocker des données qui
seront utilisées pour de la
prise de décision
Les défis du Data Warehousing
Données / Utilisateurs / Gestion d’entreprise
Volumétrie des données
Volumétrie des données
"...notre PME accumule plus 50Go de données par mois dans son DW..."
"...notre infrastructure ne tient plus la route avec des
tables de faits de 500 Millions de lignes..."
"...on veut analyser l'achalandage des utilisateurs mais ça
représente plus 3 millions de passages par jour"
"...notre process ETL prend plus de 24h..."
Volumétrie des données





Architectures matérielles ne peuvent plus supporter
les charges des DW (stockage et traitement)
Architectures logicielles désuètes
Les SGBD relationnels montrent leurs limites
Le paradigme E-T-L ne répond plus au besoin initial
Nos méthodes de modélisation n’ont pas été pensés
pour de tels volumes de données
BI pour tous
Le BI pour les décideurs n’existe plus…
BI pour tous

Data-Driven businesses
 Nouvelles
façon de gérer les entreprises
 Exige que tous les employés prennent des décisions à
leur niveau
 Offre les outils nécessaires pour ce faire
BI pour tous

Les travailleurs en entreprises sont:
 Mieux
formés
 Plus responsables
 Plus instruits
 Plus désireux d’exceller dans leur travail
 Plus « branchés »
BI pour tous

Real-Time BI / Operational BI
 Utilisé
dans les grosses entreprises manufacturières et
les compagnies financières.
 Quand des décisions importantes doivent être prises
chaque seconde par beaucoup de personnes…
 Brise le modèle asynchrone des ETL classiques
TI vs. Business
TI vs Business
TI vs. Business



Processus d’entreprise changent beaucoup trop vite
pour les TI
Les méthodes agiles ne règlent que partiellement le
problème
BI et DW sont devenus trop important pour les
laisser aller à leur rythme
Éléments de solution
Ce qui se fait actuellement pour pallier aux problèmes
Cloud Computing
L’infrastructure en tant que service
Cloud Computing



Permet d’héberger des données et du traitement
dans des environnements spécialisés
Réduit le TCO en infrastructure
Met à disposition une capacité de traitements
phénoménale
Nouvelle génération de matériel
Plus vite, plus efficace, moins cher
Nouvelle génération de hardware





SSD
Nouvelle génération d’OS
Nouvelles générations de RAM
Nouvelles technologies (SAN, DFS)
Nouveaux processeurs
Architectures distribuées
Diviser pour régner
Architectures distribuées



Permet de mettre à profit des machines de faible
puissance pour des traitements complexes sur de
gros volumes de données
Mets en réseau stockage, RAM et processeur pour
gérer la charge
Initiative de Google
Le mouvement NoSQL
L’alternative venue du Web
Mouvement NoSQL






Nouvelle génération d’outils de stockage née avec les grosses
compagnies du Web
Aux antipodes des règles de CODD
Inventés pour répondre aux besoins des géants du Web (Google,
Facebook, Twitter, Ebay,…)
Récemment adopté pour des besoins BI en entreprise
Principe simple: stocker des fichiers avec un SGF distribué
Permet de gérer des Péta Bytes (index de recherche de Google)
Mouvement NoSQL
Columnar Databases
Pensé pour les DW
Columnar Databases
Columnar Databases

Bénéfices:
 Taux
élevé de compression au niveau colonne (1:4)
 On ne lit que ce qu’on a besoin
 On retrouve l’information de manière efficace
Outils de visualisation de données
De plus en plus matures
Outils de visualisation



Permettent de traiter des volumes importants de
données
Plus simples d’utilisation
Un marché encore jeune mais avec des leaders
émergents
Outils de visualisation de données

Ex: Tableau Software
Conclusion
Questions / Contact


[email protected]
www.yazidgrim.com
Widescreen Test Pattern (16:9)
Aspect Ratio Test
(Should appear
circular)
4x3
16x9