Transcript HDFS

© Copyright 2012 EMC Corporation. All rights reserved.
1
充分利用大数据
凭借分析和存储解决方案,深
入了解具有重大影响的业务
Yang Feng
EMC大中国区中端产品部技术经理
© Copyright 2012 EMC Corporation. All rights reserved.
2
大数据时代的横向扩展架构 VS 纵向扩展架构
纵向扩展架构
Slower…………………………………………………………….
TRAIN STOPS!!!!!!!!!!!!
横向扩展架构
Faster…………………………………………………………….
TRAIN KEEPS
© Copyright 2012 EMC Corporation. All rights reserved.
GOING!!
3
Isilon典型架构
Windows
HDFS
NFS, CIFS,
FTP, HTTP
UNIX/LINUX
(optional 2nd
switch for
additional subnet)
(optional 2nd
switch for high
availability)
MAC
客户端/应用端
层
© Copyright 2012 EMC Corporation. All rights reserved.
标准的网络层
千兆/万兆
Isilon
集群存储
OneFS
集群存储内部通讯
InfiniBand 层
4
EMC Isilon
横向扩展的集群存储产品
数据和元数据跨所有节点存放实现数据安全和性能提高
使用 Infiniband进行群集内通信
支持单一文件系统最大到20 PB(并且还在增长)
S/X/NL 三种不同的硬件配置用于处理不同的工作负载
使用 Isilon 的操作系统和文件系统“OneFS”
具有 NFS、CIFS、FTP、HTTP、HDFS 等接口
© Copyright 2012 EMC Corporation. All rights reserved.
5
Isilon HDFS 接口
 Isilon 支持从 NameNode 和
DataNode 到主机及元数据和数据的
HDFS 接口
 底层文件系统是 OneFS
 就像将 HDFS 客户端指向 Isilon 群
集的 DNS 名称一样简单!
© Copyright 2012 EMC Corporation. All rights reserved.
6
Hadoop配置文件
© Copyright 2012 EMC Corporation. All rights reserved.
7
传统hadoop
© Copyright 2012 EMC Corporation. All rights reserved.
8
技术回顾
NameNode
从属 NameNode
Job Tracker
DataNode/Task Tracker
© Copyright 2012 EMC Corporation. All rights reserved.
9
NameNode
 1:主要功能提供名称查询服务,NameNode主要保存metadata信息;
 2:metadata信息包括:文件的权限,某一上传文件包含哪些Block块,Bolck块有保存在
哪些DataNode上面;
 3:DataNode在启动时候也会上报block信息
 4:NameNode的metadata信息在启动后会加载到内存
 5:metadata中文件块存储记录如下
– file.txt = block1:DN1,DN3,DN6 block2:DN2,DN3,DN5 block3:DN1,DN3,DN4
– 解释:一个文件分成三个块,每个块分配到三个DataNode上面
 6:NameNode对内容和I/O进行集中式管理,是个单点,发生故障容易集群崩溃,每个
NameNode能够带动4000节点
© Copyright 2012 EMC Corporation. All rights reserved.
10
从属 NameNode
 1:主要工作保存namenode中对HDFS metadata的信息的
备份
 2:主要工作帮助NameNode合并edit log,减少
NameNode的启动时间
 3:不提供 NameNode 故障切换
–
–
–
–
是 NameNode 的冷备份
将本地保存的fsimage(镜像)导入;
修改所有cluster的所有DN的master地址;
修改所有client端NameNode地址;
© Copyright 2012 EMC Corporation. All rights reserved.
11
Job Tracker
 管理群集的所有作业
 跟踪和报告作业和任务的状态
 提供作业排队功能
© Copyright 2012 EMC Corporation. All rights reserved.
12
DataNode/Task Tracker
 在本机主机操作系统文件系统
(例如 EXT3、ZFS)上存储文件的数据块
 处理来自客户端的读/写请求
 执行数据块创建、删除和复制
 同一数据块可以存储在多个 DataNode 上以实现冗余
 Isilon本身只做HDFS部分,M/R部分在计算服务器上做。
 在传统的Hadoop中这两部分是放在一起的,其实是可以分开
的。这是最大不同
© Copyright 2012 EMC Corporation. All rights reserved.
13
传统Hadoop+isilon HDFS
© Copyright 2012 EMC Corporation. All rights reserved.
14
传统 NameNode 体系结构
未使用 NameNode 的
自动化恢复 = 宕机
即使有 Hadoop 即将推出的
NameNode 故障切换,
也需要手动恢复
NameNode
当
NameNode“地
NameNode 提
图”丢失或损坏
供所有已存储的
信息的位置详情
时,数据位置信
息将不复存在
© Copyright 2012 EMC Corporation. All rights reserved.
15
使用 Isilon 时的分布式(群集化) NameNode
元数据以与标准文件元数据
相同的方式跨系统存储
跨大量节点实现内置的群集化冗余
在 Isilon 上建立
NameNode 群
集可实现 Isilon
已经提供的故障
保护级别
© Copyright 2012 EMC Corporation. All rights reserved.
群集化 NameNode
NameNode
16
Hadoop配置文件
© Copyright 2012 EMC Corporation. All rights reserved.
17
快照/版本控制
之前
 传统 HDFS 没有复制功能
 无法拍摄数据快照
 缺少版本控制
 不是针对任务关键型环境而设计
之后
 与 SnapshotIQTM 完全集成,
可识别更改
 多线程、多节点横向扩展复制
 针对业务连续性改进了
RPO/RTO
 跨不同地理位置复制的 Hadoop!
© Copyright 2012 EMC Corporation. All rights reserved.
18
传统的“无共享”Hadoop
非结构化数据
1
将您的所有数据拷贝到另一个存储平台
• 串联的 Hadoop (R=3) 意味着需
需要多长时间?
要 5 份数据拷贝(资金)
当您的主存储上的文件发生变更时,
• 数据必须先拷贝到 Hadoop 群集,
您如何保持数据一致性?
然后分析才能开始(收效时间)
现有主存储
2
现有虚拟化数据中心
© Copyright 2012 EMC Corporation. All rights reserved.
3
4
2
3
4
2
3
4
2
3
4
无共享 Hadoop 基础架构
19
“共享一切”的 Isilon Hadoop
非结构化数据
1
• 借助您环境中未被占用的处理资
源和 RAM,可立即开始使用
Hadoop
• 无需复制(使用现有数据)
• 通过 NAS 和 HDFS 协议访问同
一数据
• 使用现有数据即可实现极短的收
效时间,无需使用拷贝,也不会
浪费资金
现有主存储
使用本地 HDFS 协议
现有虚拟化数据中心
© Copyright 2012 EMC Corporation. All rights reserved.
新的 Hadoop 计算节点
20
依赖式扩展
传统 Hadoop HDFS
 存储/计算比率固定
所需的 Hadoop 群集节点
 扩展计算意味着扩展容量
 难以提供 QoS
 计算的升级属于断代升级
所需的性能/容量
Isilon HDFS
存
储
 独立于存储扩展计算
 即使在工作负载增长时也可实现最佳性
能平衡
 永远不需要迁移数据!
 随着硬件发展实现性能增长
计算
© Copyright 2012 EMC Corporation. All rights reserved.
22
独立式扩展
传统 Hadoop HDFS
 存储/计算比率固定
 扩展计算意味着扩展容量
 难以提供 QoS
 计算的升级属于断代升级
所需的性能/容量
存
储
Isilon HDFS
所需的 Hadoop 群集
节点
 独立于存储扩展计算
 即使在工作负载增长时也可实现最佳性
能平衡
 永远不需要迁移数据!
 随着硬件发展实现性能增长
计算
© Copyright 2012 EMC Corporation. All rights reserved.
23
协议支持
服务器
之前
 HDFS 对 Windows、Unix、
Linux、Apple 或任何其他
本机文件系统不可见
 大数据仅用于大数据
服务器
之后
服务器
服务器
© Copyright 2012 EMC Corporation. All rights reserved.
 Isilon 中固有的多协议支持
允许随时随地访问包括
Hadoop 在内的所有文件
系统
 大数据是实际的数据!
24
收效时间
您是否曾经将 100 TB
数据从主存储拷贝到
Hadoop 系统?
现有主存储
通过 10 GB 链路将
100 TB 数据从一个地
方拷贝到另一个地方
大约需要花多长时间?
数据中心网络
> 24 小时
串联式 Hadoop
数据拷贝
© Copyright 2012 EMC Corporation. All rights reserved.
现有主存储
数据中心网络
读取相关数据进行
分析
Hadoop 处理节点
分析
就地分析
25
益处和不足
益处
不足
使用标准奇偶校验实现数据保护,无需复制数据
与在大多数连接到网络的资源中看到的一样,在实
际 Hadoop 分析中的网络延迟会导致意料中的微
小延迟
使用多种行业标准协议进行连接
 数据可以更方便地进出
在 90% 的情况下会远远快于传统的 Hadoop
 原始数据可以被多种应用程序共享
可以非常轻松地投入使用和管理
没有大多数标准 HDFS 的限制
© Copyright 2012 EMC Corporation. All rights reserved.
26
在 Isilon 上的 Hadoop 方面学习的知识
Hadoop 成本低廉
Hadoop 易于部署
Hadoop 可以使用现有数据
Hadoop NameNode 数据可受到保护
Hadoop 数据的正常运行时间可获得保证
HDFS 更适合用作协议而不是文件系统
Isilon 修复了 Hadoop 的许多问题
© Copyright 2012 EMC Corporation. All rights reserved.
27
Hands-on
 一段视频,在isilon HDFS上做wordcount
 8:19-11:24
© Copyright 2012 EMC Corporation. All rights reserved.
28