Presentación PowerPoint

Download Report

Transcript Presentación PowerPoint

UNIDAD 1
ESTUDIO DE UNA APLICACIÓN DISTRIBUIDA: HADOOP HDFS PARA
EL ALMACENAMIENTO DE BIG DATA
1
Índice
1
Introducción
2
Big Data
3
Arquitectura HDFS
4
Proceso de Lectura de datos
5
Proceso de Escritura de datos
6
Q&A
2
Generamos más datos que nunca
3
Usos potenciales
•
•
•
•
•
•
Análisis de negocio
Recomendaciones de producto
Previsión de demanda
Seguridad ciudadana
Estadística
…
4
Big Data
Toda esta enorme cantidad de información que
se genera cada día y los sistema preparados para
procesarla con el objetivo de ayudar en la toma
de decisiones o análisis estadístico es lo que se
conoce como Big Data.
5
Dificultades técnicas principales
• Almacenamiento
• Procesamiento
• Heterogeneidad de los datos
6
Almacenamiento
Aumento de capacidad de almacenamiento
Disminución del precio por MB
Aumento de ratio de transferencia en porcentajes muy inferiores
7
Almacenamiento - Contención
8
Procesamiento
•
Tradicionalmente para aumentar la capacidad de procesamiento se ha
optado por aumentar los recursos disponibles en un servidor o adquirir
otro de mayor capacidad.
• Sin embargo, es posible repartir el trabajo a realizar distribuyéndolo
entre servidores de menor capacidad con un almacenamiento propio y
un conjunto de datos único, evitando contención, SPOF y abaratando
costes.
9
Procesamiento
“In pioneer days they used oxen for heavy pulling, and when one ox
couldn’t budge a log, we didn’t try to grow a larger ox.”
Grace Hopper, early advocate of distributed computing (1906-1992)
10
Heterogeneidad
Las soluciones tradicionales de almacenamiento y tratamiento de los datos
(RDBMS con herramientas de Business Intelligence o Data Mining) no son
válidas, pues es difícil homogeneizar toda esta información en un modelo de
datos que permita almacenarlo de manera estructural
11
Hadoop
Para cubrir esta necesidad surgió en 2005 Hadoop.
Hadoop es todo un ecosistema de aplicaciones que permite el procesamiento distribuido de largas
cantidades de datos repartiéndolos entre todos los nodos de un cluster de servidores usando modelos de
programación sencillos (MapReduce)
12
Arquitectura Hadoop HDFS
• Bloques
Bloques de gran tamaño replicados
• NameNodes
Metadatos
• DataNodes
Datos
13
Operación de lectura
14
Operación de escritura
15
Más información
Hadoop: The Definitive Guide
Oracle Big Data (https://www.oracle.com/bigdata/index.html)
Cloudera (http://www.cloudera.com)
16
Q&A
17