Transcript HDFS
© Copyright 2012 EMC Corporation. All rights reserved.
1
充分利用大数据
凭借分析和存储解决方案,深
入了解具有重大影响的业务
Yang Feng
EMC大中国区中端产品部技术经理
© Copyright 2012 EMC Corporation. All rights reserved.
2
大数据时代的横向扩展架构 VS 纵向扩展架构
纵向扩展架构
Slower…………………………………………………………….
TRAIN STOPS!!!!!!!!!!!!
横向扩展架构
Faster…………………………………………………………….
TRAIN KEEPS
© Copyright 2012 EMC Corporation. All rights reserved.
GOING!!
3
Isilon典型架构
Windows
HDFS
NFS, CIFS,
FTP, HTTP
UNIX/LINUX
(optional 2nd
switch for
additional subnet)
(optional 2nd
switch for high
availability)
MAC
客户端/应用端
层
© Copyright 2012 EMC Corporation. All rights reserved.
标准的网络层
千兆/万兆
Isilon
集群存储
OneFS
集群存储内部通讯
InfiniBand 层
4
EMC Isilon
横向扩展的集群存储产品
数据和元数据跨所有节点存放实现数据安全和性能提高
使用 Infiniband进行群集内通信
支持单一文件系统最大到20 PB(并且还在增长)
S/X/NL 三种不同的硬件配置用于处理不同的工作负载
使用 Isilon 的操作系统和文件系统“OneFS”
具有 NFS、CIFS、FTP、HTTP、HDFS 等接口
© Copyright 2012 EMC Corporation. All rights reserved.
5
Isilon HDFS 接口
Isilon 支持从 NameNode 和
DataNode 到主机及元数据和数据的
HDFS 接口
底层文件系统是 OneFS
就像将 HDFS 客户端指向 Isilon 群
集的 DNS 名称一样简单!
© Copyright 2012 EMC Corporation. All rights reserved.
6
Hadoop配置文件
© Copyright 2012 EMC Corporation. All rights reserved.
7
传统hadoop
© Copyright 2012 EMC Corporation. All rights reserved.
8
技术回顾
NameNode
从属 NameNode
Job Tracker
DataNode/Task Tracker
© Copyright 2012 EMC Corporation. All rights reserved.
9
NameNode
1:主要功能提供名称查询服务,NameNode主要保存metadata信息;
2:metadata信息包括:文件的权限,某一上传文件包含哪些Block块,Bolck块有保存在
哪些DataNode上面;
3:DataNode在启动时候也会上报block信息
4:NameNode的metadata信息在启动后会加载到内存
5:metadata中文件块存储记录如下
– file.txt = block1:DN1,DN3,DN6 block2:DN2,DN3,DN5 block3:DN1,DN3,DN4
– 解释:一个文件分成三个块,每个块分配到三个DataNode上面
6:NameNode对内容和I/O进行集中式管理,是个单点,发生故障容易集群崩溃,每个
NameNode能够带动4000节点
© Copyright 2012 EMC Corporation. All rights reserved.
10
从属 NameNode
1:主要工作保存namenode中对HDFS metadata的信息的
备份
2:主要工作帮助NameNode合并edit log,减少
NameNode的启动时间
3:不提供 NameNode 故障切换
–
–
–
–
是 NameNode 的冷备份
将本地保存的fsimage(镜像)导入;
修改所有cluster的所有DN的master地址;
修改所有client端NameNode地址;
© Copyright 2012 EMC Corporation. All rights reserved.
11
Job Tracker
管理群集的所有作业
跟踪和报告作业和任务的状态
提供作业排队功能
© Copyright 2012 EMC Corporation. All rights reserved.
12
DataNode/Task Tracker
在本机主机操作系统文件系统
(例如 EXT3、ZFS)上存储文件的数据块
处理来自客户端的读/写请求
执行数据块创建、删除和复制
同一数据块可以存储在多个 DataNode 上以实现冗余
Isilon本身只做HDFS部分,M/R部分在计算服务器上做。
在传统的Hadoop中这两部分是放在一起的,其实是可以分开
的。这是最大不同
© Copyright 2012 EMC Corporation. All rights reserved.
13
传统Hadoop+isilon HDFS
© Copyright 2012 EMC Corporation. All rights reserved.
14
传统 NameNode 体系结构
未使用 NameNode 的
自动化恢复 = 宕机
即使有 Hadoop 即将推出的
NameNode 故障切换,
也需要手动恢复
NameNode
当
NameNode“地
NameNode 提
图”丢失或损坏
供所有已存储的
信息的位置详情
时,数据位置信
息将不复存在
© Copyright 2012 EMC Corporation. All rights reserved.
15
使用 Isilon 时的分布式(群集化) NameNode
元数据以与标准文件元数据
相同的方式跨系统存储
跨大量节点实现内置的群集化冗余
在 Isilon 上建立
NameNode 群
集可实现 Isilon
已经提供的故障
保护级别
© Copyright 2012 EMC Corporation. All rights reserved.
群集化 NameNode
NameNode
16
Hadoop配置文件
© Copyright 2012 EMC Corporation. All rights reserved.
17
快照/版本控制
之前
传统 HDFS 没有复制功能
无法拍摄数据快照
缺少版本控制
不是针对任务关键型环境而设计
之后
与 SnapshotIQTM 完全集成,
可识别更改
多线程、多节点横向扩展复制
针对业务连续性改进了
RPO/RTO
跨不同地理位置复制的 Hadoop!
© Copyright 2012 EMC Corporation. All rights reserved.
18
传统的“无共享”Hadoop
非结构化数据
1
将您的所有数据拷贝到另一个存储平台
• 串联的 Hadoop (R=3) 意味着需
需要多长时间?
要 5 份数据拷贝(资金)
当您的主存储上的文件发生变更时,
• 数据必须先拷贝到 Hadoop 群集,
您如何保持数据一致性?
然后分析才能开始(收效时间)
现有主存储
2
现有虚拟化数据中心
© Copyright 2012 EMC Corporation. All rights reserved.
3
4
2
3
4
2
3
4
2
3
4
无共享 Hadoop 基础架构
19
“共享一切”的 Isilon Hadoop
非结构化数据
1
• 借助您环境中未被占用的处理资
源和 RAM,可立即开始使用
Hadoop
• 无需复制(使用现有数据)
• 通过 NAS 和 HDFS 协议访问同
一数据
• 使用现有数据即可实现极短的收
效时间,无需使用拷贝,也不会
浪费资金
现有主存储
使用本地 HDFS 协议
现有虚拟化数据中心
© Copyright 2012 EMC Corporation. All rights reserved.
新的 Hadoop 计算节点
20
依赖式扩展
传统 Hadoop HDFS
存储/计算比率固定
所需的 Hadoop 群集节点
扩展计算意味着扩展容量
难以提供 QoS
计算的升级属于断代升级
所需的性能/容量
Isilon HDFS
存
储
独立于存储扩展计算
即使在工作负载增长时也可实现最佳性
能平衡
永远不需要迁移数据!
随着硬件发展实现性能增长
计算
© Copyright 2012 EMC Corporation. All rights reserved.
22
独立式扩展
传统 Hadoop HDFS
存储/计算比率固定
扩展计算意味着扩展容量
难以提供 QoS
计算的升级属于断代升级
所需的性能/容量
存
储
Isilon HDFS
所需的 Hadoop 群集
节点
独立于存储扩展计算
即使在工作负载增长时也可实现最佳性
能平衡
永远不需要迁移数据!
随着硬件发展实现性能增长
计算
© Copyright 2012 EMC Corporation. All rights reserved.
23
协议支持
服务器
之前
HDFS 对 Windows、Unix、
Linux、Apple 或任何其他
本机文件系统不可见
大数据仅用于大数据
服务器
之后
服务器
服务器
© Copyright 2012 EMC Corporation. All rights reserved.
Isilon 中固有的多协议支持
允许随时随地访问包括
Hadoop 在内的所有文件
系统
大数据是实际的数据!
24
收效时间
您是否曾经将 100 TB
数据从主存储拷贝到
Hadoop 系统?
现有主存储
通过 10 GB 链路将
100 TB 数据从一个地
方拷贝到另一个地方
大约需要花多长时间?
数据中心网络
> 24 小时
串联式 Hadoop
数据拷贝
© Copyright 2012 EMC Corporation. All rights reserved.
现有主存储
数据中心网络
读取相关数据进行
分析
Hadoop 处理节点
分析
就地分析
25
益处和不足
益处
不足
使用标准奇偶校验实现数据保护,无需复制数据
与在大多数连接到网络的资源中看到的一样,在实
际 Hadoop 分析中的网络延迟会导致意料中的微
小延迟
使用多种行业标准协议进行连接
数据可以更方便地进出
在 90% 的情况下会远远快于传统的 Hadoop
原始数据可以被多种应用程序共享
可以非常轻松地投入使用和管理
没有大多数标准 HDFS 的限制
© Copyright 2012 EMC Corporation. All rights reserved.
26
在 Isilon 上的 Hadoop 方面学习的知识
Hadoop 成本低廉
Hadoop 易于部署
Hadoop 可以使用现有数据
Hadoop NameNode 数据可受到保护
Hadoop 数据的正常运行时间可获得保证
HDFS 更适合用作协议而不是文件系统
Isilon 修复了 Hadoop 的许多问题
© Copyright 2012 EMC Corporation. All rights reserved.
27
Hands-on
一段视频,在isilon HDFS上做wordcount
8:19-11:24
© Copyright 2012 EMC Corporation. All rights reserved.
28