Transcript temps
DATA WAREHOUSING Défis et pistes de solutions Yazid Grim Gestionaire de produit BI (PCG Canada) Spécialiste en cycle de vie logiciel en BI Spécialiste en produits Microsoft BI 7 ans d’éxperience en BI et DW (consultation) 10 ans d’éxperience en TI Ingéniorat en Informatique (SI) à l’INI (2000-2005) Agenda Mise en contexte: le monde a changé… Rappel: la mission d’un Data Warehouse Les problématiques actuelles du Data Warehousing Des pistes de solutions Q&R Le monde a changé… … Et les entreprises aussi Le monde a changé + de données (Internet) + de clients + de compétition + de maturité + de consommation + de régulations + d’innovations + personne compétentes + défis - de frontières - de droit à l’erreur - de limites… Mission du DW TEMPS Stockage de données pour du reporting Mémoire « passive » d’entreprise Source pour les analystes Outil de prédiction Nouveau modèle d’affaire (Google, Facebook, …) … Mission du DW Stocker des données qui seront utilisées pour de la prise de décision Mission du DW Stocker des données qui seront utilisées pour de la prise de décision Les défis du Data Warehousing Données / Utilisateurs / Gestion d’entreprise Volumétrie des données Volumétrie des données "...notre PME accumule plus 50Go de données par mois dans son DW..." "...notre infrastructure ne tient plus la route avec des tables de faits de 500 Millions de lignes..." "...on veut analyser l'achalandage des utilisateurs mais ça représente plus 3 millions de passages par jour" "...notre process ETL prend plus de 24h..." Volumétrie des données Architectures matérielles ne peuvent plus supporter les charges des DW (stockage et traitement) Architectures logicielles désuètes Les SGBD relationnels montrent leurs limites Le paradigme E-T-L ne répond plus au besoin initial Nos méthodes de modélisation n’ont pas été pensés pour de tels volumes de données BI pour tous Le BI pour les décideurs n’existe plus… BI pour tous Data-Driven businesses Nouvelles façon de gérer les entreprises Exige que tous les employés prennent des décisions à leur niveau Offre les outils nécessaires pour ce faire BI pour tous Les travailleurs en entreprises sont: Mieux formés Plus responsables Plus instruits Plus désireux d’exceller dans leur travail Plus « branchés » BI pour tous Real-Time BI / Operational BI Utilisé dans les grosses entreprises manufacturières et les compagnies financières. Quand des décisions importantes doivent être prises chaque seconde par beaucoup de personnes… Brise le modèle asynchrone des ETL classiques TI vs. Business TI vs Business TI vs. Business Processus d’entreprise changent beaucoup trop vite pour les TI Les méthodes agiles ne règlent que partiellement le problème BI et DW sont devenus trop important pour les laisser aller à leur rythme Éléments de solution Ce qui se fait actuellement pour pallier aux problèmes Cloud Computing L’infrastructure en tant que service Cloud Computing Permet d’héberger des données et du traitement dans des environnements spécialisés Réduit le TCO en infrastructure Met à disposition une capacité de traitements phénoménale Nouvelle génération de matériel Plus vite, plus efficace, moins cher Nouvelle génération de hardware SSD Nouvelle génération d’OS Nouvelles générations de RAM Nouvelles technologies (SAN, DFS) Nouveaux processeurs Architectures distribuées Diviser pour régner Architectures distribuées Permet de mettre à profit des machines de faible puissance pour des traitements complexes sur de gros volumes de données Mets en réseau stockage, RAM et processeur pour gérer la charge Initiative de Google Le mouvement NoSQL L’alternative venue du Web Mouvement NoSQL Nouvelle génération d’outils de stockage née avec les grosses compagnies du Web Aux antipodes des règles de CODD Inventés pour répondre aux besoins des géants du Web (Google, Facebook, Twitter, Ebay,…) Récemment adopté pour des besoins BI en entreprise Principe simple: stocker des fichiers avec un SGF distribué Permet de gérer des Péta Bytes (index de recherche de Google) Mouvement NoSQL Columnar Databases Pensé pour les DW Columnar Databases Columnar Databases Bénéfices: Taux élevé de compression au niveau colonne (1:4) On ne lit que ce qu’on a besoin On retrouve l’information de manière efficace Outils de visualisation de données De plus en plus matures Outils de visualisation Permettent de traiter des volumes importants de données Plus simples d’utilisation Un marché encore jeune mais avec des leaders émergents Outils de visualisation de données Ex: Tableau Software Conclusion Questions / Contact [email protected] www.yazidgrim.com Widescreen Test Pattern (16:9) Aspect Ratio Test (Should appear circular) 4x3 16x9