Télécharger le programme complet (PDF)
Download
Report
Transcript Télécharger le programme complet (PDF)
Big Data Hadoop & son
écosystème - Cursus développeur
Durée
3 jours
Prix 2014 Interentreprises
2150 ¤ HT
PRÉSENTATION
Code stage HADEV
Public Développeur et Chef de projet technique
Prérequis Maitrise du langage Java, Connaissance des bases algorithmiques
Pédagogie 30% de travaux pratiques
OBJECTIFS
Hadoop est la plateforme logicielle libre préférée des entreprises qui
doivent traiter rapidement des téraoctets voire des pétaoctets de
données.
Hadoop a rendu accessible et simple le traitement parallèle de données
sur des machines de type commodité.
L’objectif de ce cours est de vous enseigner les fondations et les bonnes
pratiques du big data et de la programmation avec Hadoop.
ORATEUR
Durant cette formation vous apprendrez à :
Appréhender les technologies et outils Big Data disponibles
Comprendre et modéliser la structuration des données et le fonctionnement
des architectures distribuées et bases de données non relationnelles
Accélérer la courbe d’apprentissage sur du développement Big Data
Implémenter des jobs MapReduce
Développer des programmes parrallèlisés
Debugger des programmes MapReduce
Après 25 ans passés dans la R&D innovante de sociétés telles que IBM
Dublin, Hewlett Packard, Xerox et Cap Gemini, Laurence Hubert assure
aujourd’hui la présidence et la direction technique de la société Hurence,
spécialisée en Big Data.
De la structuration de la recherche sur le nouveau supercalculateur IBM
Exascale à l’implementation actuelle de nombreuses chaines de traitements basées sur les technologies Big Data open-source en passant par
le développement de produits logiciels Big Data sur les socles Hadoop,
Storm ou ElasticSearch, Laurence est un expert reconnu sur les problématiques de traitements de données sur de très gros volumes.
Expliciter les bonnes pratiques dans l’optimisation et la configuration d’outils
Big Data et en particulier sur les architectures de traitement de données distribuée et les bases de données NoSQL
Intégrer les technologies open-source dans des data pipeline existants ou
dans le cadre de projets datawarehouse ou autour d’un contexte applicatif métier
innovant
Travailler et coder avec les outils de l’écosystème Hadoop (langages de scripting
comme PIG par exemple)
Concevoir architecturalement des implémentations Big Data
PROGRAMME DÉTAILLÉ
Fondamentaux Big Data
Qu’est ce que le Big Data ?
Les deux composantes fondamentales d’un socle Big Data
Topologie des clusters Hadoop, choix des distributions et du hardware
Introduction à l’écosystème Big Data Hadoop
Le système de fichier distribué Hadoop HDFS
Le modèle de programmation Hadoop Map/Reduce
Les autres modèles de programmation Big Data (MPI avec Storm, MPP, etc...)
Topologie des clusters Hadoop, choix des distributions et du Hardware
Panorama et sensibilisation aux outils de l’éco-système Hadoop, Oozie, Hue etc
Sensibilisation au langage R et Rhadoop
Programmation Hadoop en Java
Paramétrisation de Hadoop
Manipulations de fichiers HDFS avec TP
Les formats d’entrée sortie Hadoop
Écriture et paramétrage de jobs Map/Reduce avec TP
Exécution de job Map/Reduce
Le scheduling des jobs sur le cluster (les différents schedulers)
La surveillance de Job Map/Reduce
Programmation HBase en Java
Les bases de données Big Data NoSQL
Le modèle de données en colonne par opposition au modèle de données en ligne
La base de donnée HBase de Hadoop
Les autres bases de données Big Data dont MongoDB (avec démonstration)
Hadoop, Scripts & outils
PIG comme outil d’ETL ou d’ELT avec TP
Les moteurs SQL sur socles Big Data : le SQL sur de la grosse volumétrie et de la
donnée brute
Le SQL refait son apparition dans le NoSQL
L’analyse de logs : la collecte, l’agrégation et l’enrichissement des logs sur HDFS avec
Flume, Hive et PIG (avec démonstration)
Sessions
Disponible également en intra-entreprise
Paris 24 > 26 mars 2014 30 juin > 2 juil 8 > 10 déc Lyon
Grenoble
Toulouse
78
Nous consulter
17 > 19 mars 2014 6 > 8 oct
Nous consulter
BIG DATA