Transcript HDFS
© Copyright 2012 EMC Corporation. All rights reserved. 1 充分利用大数据 凭借分析和存储解决方案,深 入了解具有重大影响的业务 Yang Feng EMC大中国区中端产品部技术经理 © Copyright 2012 EMC Corporation. All rights reserved. 2 大数据时代的横向扩展架构 VS 纵向扩展架构 纵向扩展架构 Slower……………………………………………………………. TRAIN STOPS!!!!!!!!!!!! 横向扩展架构 Faster……………………………………………………………. TRAIN KEEPS © Copyright 2012 EMC Corporation. All rights reserved. GOING!! 3 Isilon典型架构 Windows HDFS NFS, CIFS, FTP, HTTP UNIX/LINUX (optional 2nd switch for additional subnet) (optional 2nd switch for high availability) MAC 客户端/应用端 层 © Copyright 2012 EMC Corporation. All rights reserved. 标准的网络层 千兆/万兆 Isilon 集群存储 OneFS 集群存储内部通讯 InfiniBand 层 4 EMC Isilon 横向扩展的集群存储产品 数据和元数据跨所有节点存放实现数据安全和性能提高 使用 Infiniband进行群集内通信 支持单一文件系统最大到20 PB(并且还在增长) S/X/NL 三种不同的硬件配置用于处理不同的工作负载 使用 Isilon 的操作系统和文件系统“OneFS” 具有 NFS、CIFS、FTP、HTTP、HDFS 等接口 © Copyright 2012 EMC Corporation. All rights reserved. 5 Isilon HDFS 接口 Isilon 支持从 NameNode 和 DataNode 到主机及元数据和数据的 HDFS 接口 底层文件系统是 OneFS 就像将 HDFS 客户端指向 Isilon 群 集的 DNS 名称一样简单! © Copyright 2012 EMC Corporation. All rights reserved. 6 Hadoop配置文件 © Copyright 2012 EMC Corporation. All rights reserved. 7 传统hadoop © Copyright 2012 EMC Corporation. All rights reserved. 8 技术回顾 NameNode 从属 NameNode Job Tracker DataNode/Task Tracker © Copyright 2012 EMC Corporation. All rights reserved. 9 NameNode 1:主要功能提供名称查询服务,NameNode主要保存metadata信息; 2:metadata信息包括:文件的权限,某一上传文件包含哪些Block块,Bolck块有保存在 哪些DataNode上面; 3:DataNode在启动时候也会上报block信息 4:NameNode的metadata信息在启动后会加载到内存 5:metadata中文件块存储记录如下 – file.txt = block1:DN1,DN3,DN6 block2:DN2,DN3,DN5 block3:DN1,DN3,DN4 – 解释:一个文件分成三个块,每个块分配到三个DataNode上面 6:NameNode对内容和I/O进行集中式管理,是个单点,发生故障容易集群崩溃,每个 NameNode能够带动4000节点 © Copyright 2012 EMC Corporation. All rights reserved. 10 从属 NameNode 1:主要工作保存namenode中对HDFS metadata的信息的 备份 2:主要工作帮助NameNode合并edit log,减少 NameNode的启动时间 3:不提供 NameNode 故障切换 – – – – 是 NameNode 的冷备份 将本地保存的fsimage(镜像)导入; 修改所有cluster的所有DN的master地址; 修改所有client端NameNode地址; © Copyright 2012 EMC Corporation. All rights reserved. 11 Job Tracker 管理群集的所有作业 跟踪和报告作业和任务的状态 提供作业排队功能 © Copyright 2012 EMC Corporation. All rights reserved. 12 DataNode/Task Tracker 在本机主机操作系统文件系统 (例如 EXT3、ZFS)上存储文件的数据块 处理来自客户端的读/写请求 执行数据块创建、删除和复制 同一数据块可以存储在多个 DataNode 上以实现冗余 Isilon本身只做HDFS部分,M/R部分在计算服务器上做。 在传统的Hadoop中这两部分是放在一起的,其实是可以分开 的。这是最大不同 © Copyright 2012 EMC Corporation. All rights reserved. 13 传统Hadoop+isilon HDFS © Copyright 2012 EMC Corporation. All rights reserved. 14 传统 NameNode 体系结构 未使用 NameNode 的 自动化恢复 = 宕机 即使有 Hadoop 即将推出的 NameNode 故障切换, 也需要手动恢复 NameNode 当 NameNode“地 NameNode 提 图”丢失或损坏 供所有已存储的 信息的位置详情 时,数据位置信 息将不复存在 © Copyright 2012 EMC Corporation. All rights reserved. 15 使用 Isilon 时的分布式(群集化) NameNode 元数据以与标准文件元数据 相同的方式跨系统存储 跨大量节点实现内置的群集化冗余 在 Isilon 上建立 NameNode 群 集可实现 Isilon 已经提供的故障 保护级别 © Copyright 2012 EMC Corporation. All rights reserved. 群集化 NameNode NameNode 16 Hadoop配置文件 © Copyright 2012 EMC Corporation. All rights reserved. 17 快照/版本控制 之前 传统 HDFS 没有复制功能 无法拍摄数据快照 缺少版本控制 不是针对任务关键型环境而设计 之后 与 SnapshotIQTM 完全集成, 可识别更改 多线程、多节点横向扩展复制 针对业务连续性改进了 RPO/RTO 跨不同地理位置复制的 Hadoop! © Copyright 2012 EMC Corporation. All rights reserved. 18 传统的“无共享”Hadoop 非结构化数据 1 将您的所有数据拷贝到另一个存储平台 • 串联的 Hadoop (R=3) 意味着需 需要多长时间? 要 5 份数据拷贝(资金) 当您的主存储上的文件发生变更时, • 数据必须先拷贝到 Hadoop 群集, 您如何保持数据一致性? 然后分析才能开始(收效时间) 现有主存储 2 现有虚拟化数据中心 © Copyright 2012 EMC Corporation. All rights reserved. 3 4 2 3 4 2 3 4 2 3 4 无共享 Hadoop 基础架构 19 “共享一切”的 Isilon Hadoop 非结构化数据 1 • 借助您环境中未被占用的处理资 源和 RAM,可立即开始使用 Hadoop • 无需复制(使用现有数据) • 通过 NAS 和 HDFS 协议访问同 一数据 • 使用现有数据即可实现极短的收 效时间,无需使用拷贝,也不会 浪费资金 现有主存储 使用本地 HDFS 协议 现有虚拟化数据中心 © Copyright 2012 EMC Corporation. All rights reserved. 新的 Hadoop 计算节点 20 依赖式扩展 传统 Hadoop HDFS 存储/计算比率固定 所需的 Hadoop 群集节点 扩展计算意味着扩展容量 难以提供 QoS 计算的升级属于断代升级 所需的性能/容量 Isilon HDFS 存 储 独立于存储扩展计算 即使在工作负载增长时也可实现最佳性 能平衡 永远不需要迁移数据! 随着硬件发展实现性能增长 计算 © Copyright 2012 EMC Corporation. All rights reserved. 22 独立式扩展 传统 Hadoop HDFS 存储/计算比率固定 扩展计算意味着扩展容量 难以提供 QoS 计算的升级属于断代升级 所需的性能/容量 存 储 Isilon HDFS 所需的 Hadoop 群集 节点 独立于存储扩展计算 即使在工作负载增长时也可实现最佳性 能平衡 永远不需要迁移数据! 随着硬件发展实现性能增长 计算 © Copyright 2012 EMC Corporation. All rights reserved. 23 协议支持 服务器 之前 HDFS 对 Windows、Unix、 Linux、Apple 或任何其他 本机文件系统不可见 大数据仅用于大数据 服务器 之后 服务器 服务器 © Copyright 2012 EMC Corporation. All rights reserved. Isilon 中固有的多协议支持 允许随时随地访问包括 Hadoop 在内的所有文件 系统 大数据是实际的数据! 24 收效时间 您是否曾经将 100 TB 数据从主存储拷贝到 Hadoop 系统? 现有主存储 通过 10 GB 链路将 100 TB 数据从一个地 方拷贝到另一个地方 大约需要花多长时间? 数据中心网络 > 24 小时 串联式 Hadoop 数据拷贝 © Copyright 2012 EMC Corporation. All rights reserved. 现有主存储 数据中心网络 读取相关数据进行 分析 Hadoop 处理节点 分析 就地分析 25 益处和不足 益处 不足 使用标准奇偶校验实现数据保护,无需复制数据 与在大多数连接到网络的资源中看到的一样,在实 际 Hadoop 分析中的网络延迟会导致意料中的微 小延迟 使用多种行业标准协议进行连接 数据可以更方便地进出 在 90% 的情况下会远远快于传统的 Hadoop 原始数据可以被多种应用程序共享 可以非常轻松地投入使用和管理 没有大多数标准 HDFS 的限制 © Copyright 2012 EMC Corporation. All rights reserved. 26 在 Isilon 上的 Hadoop 方面学习的知识 Hadoop 成本低廉 Hadoop 易于部署 Hadoop 可以使用现有数据 Hadoop NameNode 数据可受到保护 Hadoop 数据的正常运行时间可获得保证 HDFS 更适合用作协议而不是文件系统 Isilon 修复了 Hadoop 的许多问题 © Copyright 2012 EMC Corporation. All rights reserved. 27 Hands-on 一段视频,在isilon HDFS上做wordcount 8:19-11:24 © Copyright 2012 EMC Corporation. All rights reserved. 28