Transcript HADOOP

HADOOP的高
能物理分析平
台
孙功星
高能物理研究所/计算中心
2013-07-05
HEP EXPERIMENT(INTERNATIONAL)
CMS experiment as a example.
Raw data sent to online farm.(1PB/s)
Physics Data: 1.5MB @ 150Hz=225MB/s (->tape)
Alignment and Calibration Data: 100MB/s
LHC runs for 10 million of seconds/year.
> 3PB/year.
Life time 20 years: 60PB. Atlas is same as CMS.
> 150PB for all 4 Experiments on LHC
高能物理实验(国内)
国内的BESIII实验为例。
北京正负对撞机从2009年运行,产生了大量数据。
产生的数据量约3PB。
物理分析的数据约1/10,即300TB,10亿个事例(event)。
特点:数据量大、物理事例无关,同时属于“大海捞针”。
IHEP COMPUTING ENVIRONMENT
ARCHITECTURE
CNIC
Login Servers
Disk Servers
ON-line farm
10Gbps
10Gbps
TPservers
10Gbps
10Gb Ethernet
(computing. & Storage
Network)
10Gbps
IHEP
Campus Network
10Gbps
1GE
Home Dirs(AFS)
+Monitoring
+Scheduler
1GE
FC
1GE
1Gbps
CPU servers
Tape Lib.
COMPUTING & STORAGE
FACILITIES AT IHEP
2 Tape Libraries(5PB)
Computing Cluster(+10000cores)
柜
180X10Gb ports
core switch
Disk storage(4PB)
Central shift room
计算技术发展
主机时代:打孔—>操作系统。
专用连接时代:MPP。
以太网时代:Cluster计算/PC-FARM。
广域互联时代:网格计算。
强PC时代:强处理能力、大内存、大磁盘容量。如何利用?
PC时代:先进的数据处理
框架
键-值对(Key,value):扩展性好、并发性高、速度快。存储:
PB->EB。
索引:分布式、稀疏的、高并发、列查询。
更多优势:便宜、高效。
1991年伯克利内存数据库:一个内存(key,value)应用。
计算模式改变
传统集群:数据—>计算;
Hadoop集群:计算—>数据。
后果:
- 充分利用本地资源;
- 减少了I/O的压力;
- 减少系统造价;
- 提高性能。
搜索引擎:GOOGLE
GFS(Google File System)。
BigTable:打破了传统数据库
的局限,使非SQL数据库成研
究热点
MAP/Reduce并行处理框架。
PageRank:对网页重要性评
估的算法。
极强创新群体,工程师大都是
自然科学博士。微软大都是本
科生。
2003年开始发表论文,介绍研
究及应用成果。
Sergey Brin(1973),
Larry Page(1973),
身价198亿美元。密执 身价198亿美元。斯坦
福大学博士
安州立大学博士
开源项目:HADOOP
组件:HDFS、HBASE、Mapreduce ….。(2005年)
Examples
• Yahoo:
• >40,000 nodes,100,000 cores
• The largest cluster has 4500 nodes
• Facebook:two hadoop clusters
• 1100 nodes, 8800 cores, ~12PB disk space
• 300 nodes, 2400 cores, ~3PB disk space
• Each node has 8 cores, 12TB disk space
• Baidu (year 2011):
10
• >10,000 nodes
• Customized nodes based on Intel framework, each node cost 3K-5K
USD, with 12*1TB disks, 32GB memory
高能物理与HADOOP
Bioinformatics, weather prediction, astronomical image
processing, …
High Energy Physics
• 7 CMS sites in the US
• Use HDFS as storage system
• Ref.:HEPiX Fall 2011
• INFN Perugia:
• HDFS as Storage Element
• MapReduce for Root file analysis
• Ref.:CHEP2012
• STAR project at Brookhaven Lab
12
• Build a MapReduce workflow for analysis of particle data
• Running Hadoop in Virtual Machine
• Thanks to Charles Earl([email protected]) for sharing the
information
13
BESIII COMPUTING
FRAMEWORK BASED ON
HADOOP
解决的关键问题
随机写支持;(事例以树结构,快速遍历)
物理分析的类库;(与互联网搜索引擎不一样)
物理分析分为两步:预筛选与分析;
与现有系统的集成。
主要目标
建立高能物理分析的Hadoop平台。
建立物理事例Tag的Hbase索引数据库。
改变高能物理分析方式,提高效率,节省在计算上的造价。
下面几张幻灯片就是一些测试结果。
HADOOP集群的并行加速
效果
70000
66153.9
60000
每秒钟分析事例数
事 50000
例
个 40000
数
30000
40620.8
20000
15351.6
10000
0
7759.0
1
2
3
4
工作节点数
5
6
SINGLE NODE TESTING:
LUSTRE VS FUSE+HDFS
Time used
600
500
400
min
HDFS
Lustre
300
200
100
0
job 2
job 3
job 4
job 5
job 6
job 7
job 8
17
job 1
SINGLE NODE TESTING:
LUSTRE VS FUSE+HDFS
user, wait & sys time used
500
450
400
300
sys
wait
user
250
200
150
100
50
0
Lustre
HDFS
Lustre I/O wait time(~100 minutes) is about twice of
HDFS
18
min
350
物理数据分析
MAPREDUCE模型
TAG信息生成
split0
Mapper
split1
split2
TAG
TAG
Mapper
split3
基于TAG信息的事例统计
事例分析
Mapper
split4
DST/RAW
数据
挑选事例属性 本地缓存
TAG数据
Mapper
split0
split1
split2
split3
split4
Mapper
Mapper
TAG数据
split0
事例筛选
DST数据&
筛选事例号
Reducer
NTuple
Reducer
Histogram
Mapper
split3
split4
筛选出的事例号
Mapper
split1
split2
Selected
EventIDs
Mapper
事例分析 中间结果 结果合并
输出
19
基于TAG信息的事例预筛选模型
重组事例及仿真结果
TAG标识及无标识比较
• 对2,727,074个事
例进行了Rhopi分
析。
• 预筛选系统使得事
例分析时间减少到
原来的16.9%:加
速5.9倍。
• 对文件进行重构之
后,时间进一步缩
短到只有原来的
2.3%:43倍多。
结论
通过研究BESIII的物理分析,了解分析的特点。
进行的仿真计算,若系统设计恰当,可以大幅度提高性能。
将进一步研究和开发,扩大系统测试规模,进一步取得新的结论。
SDN@IHEP
一个计划投入使用的进行高能物理大批量数据传输
的基于IPv6广域网链路的虚拟专用网络环境
CHEPDTN
• End user network
• Backbone network(IPv6)
• L2VPN gateway
• Openflow switch
• Control center
计划参与方
23
• 高能所/上海交大/山大/清华/……
• CSTNet/CERNet
• Ruijie/CNLink
SDN@IHEP进展
和企业合作成立SDN联合实验室
完成IPv6链路优化
• 点对点测试达到800Mbps
完成L2VPN开发、测试与部署
• 网络效率达到85%
控制器平台建设进行中
24
2013年7月底部署OpenFlow交换机(暂定4台)
控制器
--FLOODLIGHT
一个Apache许可的openflow控制器
方便使用,可扩展,基于java开发环境
企业级水平
• 其核心引擎由bigswitch支持
• 生产系统使用
支持大量的物理或者虚拟交换机
• Openstack quantum
25
不断支持新版本的openflow协议版本
谢谢!