第二代架构

Download Report

Transcript 第二代架构

Hadoop在京东的应用
作者:唐红军
邮箱:[email protected]
我的团队
联系方式:[email protected]
导航
四纷
五落
 -历史状况
众流
归海
- 改进
- 第一代架构
-挑战与解决方案
统一
分治
- 变革
- 第二代架构
-关键技术
历史状况
• 现象
– 集群众多
– 规模小
– 版本不一
• 问题
– 资源不能合理分配
– 人力资源浪费
– 无法满足大数据对资源
的要求
导航
四纷
五落
 -历史状况
众流
归海
- 改进
- 第一代架构
-挑战与解决方案
统一
分治
- 变革
- 第二代架构
-关键技术
改进
• 现象
–
–
–
–
统一硬件
统一数据
统一人力
统一调度
• 目的
–
–
–
–
资源合理利用
节约成本
适应海量数据计算需求
提高效率
第一代架构
数据平台
搜索
推荐
hue
impala
仓储供应
链
oozie
hbase
机器人
…
权限管理
Mapred,hive,R,mahout
日志
系统
统一
监控
HDFS
流式日志同步
sqoop
挑战- HDFS稳定性
 问题
单namenode稳定性无法得到保障;
用户多、业务多平台异常损失影响大;
 解决方案
挑战- 无报警预警
 问题
无法及时发现问题;无法预防问题的发生;无法了解运营数据。
 解决方案
端口存活性监控
主服务可用性监控
URL存活性监控
所有进程僵死监控
任务运行阀值报警
运行耗时趋势预警
新老生代容量变化
监控预警报警
Hdfs数据上传耗时
阀值报警;hdfs上
传耗时趋势预警
YOUNG与FULL
GC时间/频率
监控
Zookeeper所有操作
耗时阀值报警与
趋势预警
运行线程,最大线程
阀值报警线程趋势
预警
Hbase读写计算耗时
报警和趋势预警
hdfs写入/读取/操
作监控记录
任务输出/使用资
源/读取/运行时段
挑战- 无安全
 问题
大量部门和小组接入平台,用户数据和任务安全问题突出。
 解决
hive
添加用户密码
改进库表权限控制
增加用户密码
增加服务端组验证
验证中心化
服务端
客户端
验证用户密码
用户
获取用户组
用户密码
验证用户和组
挑战- 效率
 Jobtracker




网络调整
smart scheduler
Reduce启动时间调整
推测执行规则修改
 Namenode



提供主从可读
意向锁
修改checkpoint方式
 Datanode
 单机多datanode改造
 增加读写锁
 修改块汇报方式
导航
四纷
五落
 -历史状况
众流
归海
- 改进
- 第一代架构
-挑战与解决方案
统一
分治
- 变革
- 第二代架构
-关键技术
变革
• 现象
数据处理平台和服务管理平台
–
–
–
–
一个大集群
众多不同用途集群
统一的入口
不同类型数据处理框
架集群共存
• 目的
– 运维自动化
– 资源合理利用
– 适应用户对新技术使
用需求
– 提高人效和资源的利
用率
第二代架构
用户
业务方
数据管理
数据
处理
平台
资源管理
报表管理
监控预警管理
流失计算服
务
实时计算服
务
离线/批量
计算服务
分布式数据
库服务
海量存储服
务
缓存服务
storm
Hbase
hadoop/Impa
la/spark
mysql
hbase/hdfs
redis
数据库数据同步
数据源
任务管理
数据库数据
日志数据同步
日志文本数据
第二代-资源管理
第二代-任务管理
第二代-Geminifs3.0
/
k
a
ax
ka
kk
Namespace
a1
•虚拟节点
•每个虚拟节点代表原目录树空间
中以此节点为根的子树
•每个Namenode负责1个或多个虚
拟节点所对应的子树
z
kz
zx
zn
zz
zxn
… …
Namenode
BlockManager
•Heartbeat
•Block replicate check
•Block management
Storage
BlockManager
Namenode
Datanode
Datanode
Datanode
Datanode
下一步
谢谢!
Thank you!
唐红军
成都市武侯区武兴三路19号西部智谷D区39栋B座7层
T. 028-65057196 F. 028-65057196
E. [email protected] www.jd.com