Transcript 第二代架构
Hadoop在京东的应用 作者:唐红军 邮箱:[email protected] 我的团队 联系方式:[email protected] 导航 四纷 五落 -历史状况 众流 归海 - 改进 - 第一代架构 -挑战与解决方案 统一 分治 - 变革 - 第二代架构 -关键技术 历史状况 • 现象 – 集群众多 – 规模小 – 版本不一 • 问题 – 资源不能合理分配 – 人力资源浪费 – 无法满足大数据对资源 的要求 导航 四纷 五落 -历史状况 众流 归海 - 改进 - 第一代架构 -挑战与解决方案 统一 分治 - 变革 - 第二代架构 -关键技术 改进 • 现象 – – – – 统一硬件 统一数据 统一人力 统一调度 • 目的 – – – – 资源合理利用 节约成本 适应海量数据计算需求 提高效率 第一代架构 数据平台 搜索 推荐 hue impala 仓储供应 链 oozie hbase 机器人 … 权限管理 Mapred,hive,R,mahout 日志 系统 统一 监控 HDFS 流式日志同步 sqoop 挑战- HDFS稳定性 问题 单namenode稳定性无法得到保障; 用户多、业务多平台异常损失影响大; 解决方案 挑战- 无报警预警 问题 无法及时发现问题;无法预防问题的发生;无法了解运营数据。 解决方案 端口存活性监控 主服务可用性监控 URL存活性监控 所有进程僵死监控 任务运行阀值报警 运行耗时趋势预警 新老生代容量变化 监控预警报警 Hdfs数据上传耗时 阀值报警;hdfs上 传耗时趋势预警 YOUNG与FULL GC时间/频率 监控 Zookeeper所有操作 耗时阀值报警与 趋势预警 运行线程,最大线程 阀值报警线程趋势 预警 Hbase读写计算耗时 报警和趋势预警 hdfs写入/读取/操 作监控记录 任务输出/使用资 源/读取/运行时段 挑战- 无安全 问题 大量部门和小组接入平台,用户数据和任务安全问题突出。 解决 hive 添加用户密码 改进库表权限控制 增加用户密码 增加服务端组验证 验证中心化 服务端 客户端 验证用户密码 用户 获取用户组 用户密码 验证用户和组 挑战- 效率 Jobtracker 网络调整 smart scheduler Reduce启动时间调整 推测执行规则修改 Namenode 提供主从可读 意向锁 修改checkpoint方式 Datanode 单机多datanode改造 增加读写锁 修改块汇报方式 导航 四纷 五落 -历史状况 众流 归海 - 改进 - 第一代架构 -挑战与解决方案 统一 分治 - 变革 - 第二代架构 -关键技术 变革 • 现象 数据处理平台和服务管理平台 – – – – 一个大集群 众多不同用途集群 统一的入口 不同类型数据处理框 架集群共存 • 目的 – 运维自动化 – 资源合理利用 – 适应用户对新技术使 用需求 – 提高人效和资源的利 用率 第二代架构 用户 业务方 数据管理 数据 处理 平台 资源管理 报表管理 监控预警管理 流失计算服 务 实时计算服 务 离线/批量 计算服务 分布式数据 库服务 海量存储服 务 缓存服务 storm Hbase hadoop/Impa la/spark mysql hbase/hdfs redis 数据库数据同步 数据源 任务管理 数据库数据 日志数据同步 日志文本数据 第二代-资源管理 第二代-任务管理 第二代-Geminifs3.0 / k a ax ka kk Namespace a1 •虚拟节点 •每个虚拟节点代表原目录树空间 中以此节点为根的子树 •每个Namenode负责1个或多个虚 拟节点所对应的子树 z kz zx zn zz zxn … … Namenode BlockManager •Heartbeat •Block replicate check •Block management Storage BlockManager Namenode Datanode Datanode Datanode Datanode 下一步 谢谢! Thank you! 唐红军 成都市武侯区武兴三路19号西部智谷D区39栋B座7层 T. 028-65057196 F. 028-65057196 E. [email protected] www.jd.com