Transcript HADOOP
HADOOP的高 能物理分析平 台 孙功星 高能物理研究所/计算中心 2013-07-05 HEP EXPERIMENT(INTERNATIONAL) CMS experiment as a example. Raw data sent to online farm.(1PB/s) Physics Data: 1.5MB @ 150Hz=225MB/s (->tape) Alignment and Calibration Data: 100MB/s LHC runs for 10 million of seconds/year. > 3PB/year. Life time 20 years: 60PB. Atlas is same as CMS. > 150PB for all 4 Experiments on LHC 高能物理实验(国内) 国内的BESIII实验为例。 北京正负对撞机从2009年运行,产生了大量数据。 产生的数据量约3PB。 物理分析的数据约1/10,即300TB,10亿个事例(event)。 特点:数据量大、物理事例无关,同时属于“大海捞针”。 IHEP COMPUTING ENVIRONMENT ARCHITECTURE CNIC Login Servers Disk Servers ON-line farm 10Gbps 10Gbps TPservers 10Gbps 10Gb Ethernet (computing. & Storage Network) 10Gbps IHEP Campus Network 10Gbps 1GE Home Dirs(AFS) +Monitoring +Scheduler 1GE FC 1GE 1Gbps CPU servers Tape Lib. COMPUTING & STORAGE FACILITIES AT IHEP 2 Tape Libraries(5PB) Computing Cluster(+10000cores) 柜 180X10Gb ports core switch Disk storage(4PB) Central shift room 计算技术发展 主机时代:打孔—>操作系统。 专用连接时代:MPP。 以太网时代:Cluster计算/PC-FARM。 广域互联时代:网格计算。 强PC时代:强处理能力、大内存、大磁盘容量。如何利用? PC时代:先进的数据处理 框架 键-值对(Key,value):扩展性好、并发性高、速度快。存储: PB->EB。 索引:分布式、稀疏的、高并发、列查询。 更多优势:便宜、高效。 1991年伯克利内存数据库:一个内存(key,value)应用。 计算模式改变 传统集群:数据—>计算; Hadoop集群:计算—>数据。 后果: - 充分利用本地资源; - 减少了I/O的压力; - 减少系统造价; - 提高性能。 搜索引擎:GOOGLE GFS(Google File System)。 BigTable:打破了传统数据库 的局限,使非SQL数据库成研 究热点 MAP/Reduce并行处理框架。 PageRank:对网页重要性评 估的算法。 极强创新群体,工程师大都是 自然科学博士。微软大都是本 科生。 2003年开始发表论文,介绍研 究及应用成果。 Sergey Brin(1973), Larry Page(1973), 身价198亿美元。密执 身价198亿美元。斯坦 福大学博士 安州立大学博士 开源项目:HADOOP 组件:HDFS、HBASE、Mapreduce ….。(2005年) Examples • Yahoo: • >40,000 nodes,100,000 cores • The largest cluster has 4500 nodes • Facebook:two hadoop clusters • 1100 nodes, 8800 cores, ~12PB disk space • 300 nodes, 2400 cores, ~3PB disk space • Each node has 8 cores, 12TB disk space • Baidu (year 2011): 10 • >10,000 nodes • Customized nodes based on Intel framework, each node cost 3K-5K USD, with 12*1TB disks, 32GB memory 高能物理与HADOOP Bioinformatics, weather prediction, astronomical image processing, … High Energy Physics • 7 CMS sites in the US • Use HDFS as storage system • Ref.:HEPiX Fall 2011 • INFN Perugia: • HDFS as Storage Element • MapReduce for Root file analysis • Ref.:CHEP2012 • STAR project at Brookhaven Lab 12 • Build a MapReduce workflow for analysis of particle data • Running Hadoop in Virtual Machine • Thanks to Charles Earl([email protected]) for sharing the information 13 BESIII COMPUTING FRAMEWORK BASED ON HADOOP 解决的关键问题 随机写支持;(事例以树结构,快速遍历) 物理分析的类库;(与互联网搜索引擎不一样) 物理分析分为两步:预筛选与分析; 与现有系统的集成。 主要目标 建立高能物理分析的Hadoop平台。 建立物理事例Tag的Hbase索引数据库。 改变高能物理分析方式,提高效率,节省在计算上的造价。 下面几张幻灯片就是一些测试结果。 HADOOP集群的并行加速 效果 70000 66153.9 60000 每秒钟分析事例数 事 50000 例 个 40000 数 30000 40620.8 20000 15351.6 10000 0 7759.0 1 2 3 4 工作节点数 5 6 SINGLE NODE TESTING: LUSTRE VS FUSE+HDFS Time used 600 500 400 min HDFS Lustre 300 200 100 0 job 2 job 3 job 4 job 5 job 6 job 7 job 8 17 job 1 SINGLE NODE TESTING: LUSTRE VS FUSE+HDFS user, wait & sys time used 500 450 400 300 sys wait user 250 200 150 100 50 0 Lustre HDFS Lustre I/O wait time(~100 minutes) is about twice of HDFS 18 min 350 物理数据分析 MAPREDUCE模型 TAG信息生成 split0 Mapper split1 split2 TAG TAG Mapper split3 基于TAG信息的事例统计 事例分析 Mapper split4 DST/RAW 数据 挑选事例属性 本地缓存 TAG数据 Mapper split0 split1 split2 split3 split4 Mapper Mapper TAG数据 split0 事例筛选 DST数据& 筛选事例号 Reducer NTuple Reducer Histogram Mapper split3 split4 筛选出的事例号 Mapper split1 split2 Selected EventIDs Mapper 事例分析 中间结果 结果合并 输出 19 基于TAG信息的事例预筛选模型 重组事例及仿真结果 TAG标识及无标识比较 • 对2,727,074个事 例进行了Rhopi分 析。 • 预筛选系统使得事 例分析时间减少到 原来的16.9%:加 速5.9倍。 • 对文件进行重构之 后,时间进一步缩 短到只有原来的 2.3%:43倍多。 结论 通过研究BESIII的物理分析,了解分析的特点。 进行的仿真计算,若系统设计恰当,可以大幅度提高性能。 将进一步研究和开发,扩大系统测试规模,进一步取得新的结论。 SDN@IHEP 一个计划投入使用的进行高能物理大批量数据传输 的基于IPv6广域网链路的虚拟专用网络环境 CHEPDTN • End user network • Backbone network(IPv6) • L2VPN gateway • Openflow switch • Control center 计划参与方 23 • 高能所/上海交大/山大/清华/…… • CSTNet/CERNet • Ruijie/CNLink SDN@IHEP进展 和企业合作成立SDN联合实验室 完成IPv6链路优化 • 点对点测试达到800Mbps 完成L2VPN开发、测试与部署 • 网络效率达到85% 控制器平台建设进行中 24 2013年7月底部署OpenFlow交换机(暂定4台) 控制器 --FLOODLIGHT 一个Apache许可的openflow控制器 方便使用,可扩展,基于java开发环境 企业级水平 • 其核心引擎由bigswitch支持 • 生产系统使用 支持大量的物理或者虚拟交换机 • Openstack quantum 25 不断支持新版本的openflow协议版本 谢谢!