幻灯片内容 - 东南大学计算机科学与工程系

Download Report

Transcript 幻灯片内容 - 东南大学计算机科学与工程系

大数据及其相关新兴技术
Big Data and It’s Related Emerging Technologies
陈国良
深圳大学计算机与软件学院
2014年8月
Version 1: 07/2013
...
Version 8: 08/2014
摘要:
大数据、物联网和云计算是新一代信息技术发
展中的华彩乐章。物联网使成千上万的网络传感器
嵌入到现实世界中,云计算为物联网产生的海量数
据提供了存储空间和在线处理,而大数据则让海量
数据产生了价值。本报告,首先介绍大数据世界和
大数据潮流;其次讲解什么是大数据和大数据的一
般处理流程;接着介绍产生大数据来源之一的物联
网的产生、发展及其系统架构;然后讲述大数据与
云计算的关系和两者的异同点;最后在简介高性能
计算与高性能计算机的基础上,阐述了在大数据面
前高性能计算本身所面临的技术挑战等。
2
目
录
4.2 物联网的发展历程
4.3 大数据与物联网
1. 大数据浪潮汹涌澎湃
1.1 大数据世界
1.2 大数据潮流
1.3 什么是大数据
1.4 变革思维研究大数据
1.5 大数据的价值
1.6 大数据的管理
1.7 大数据时代的产业界情况
2. 大数据引领社会、经济和科技发展
2.1 大数据对国家社会的作用
2.2 大数据推动国民经济发展
2.3 大数据促进科技发展
2.4 大数据应用及实例
3. 大数据的处理流程
3.1 大数据的采集与预处理
3.2 大数据的传输
3.3 大数据的存储
3.4 大数据的处理
3.5 大数据的展现
4.
大数据与物联网
4.1 物联网
5.
大数据与云计算
5.1 什么是云计算
5.2 大数据与云计算的关系
5.3 大数据与云计算的不同点
6.
高性能计算与高性能计算机
6.1 什么是高性能计算
6.2 高性能计算机系统举例
6.3 高性能计算应用
7. 高性能计算面临大数据的挑战
7.1 计算模型的转变
7.2 系统结构的转变
7.3 编程模型的转变
7.4 应用方式的转变
7.5 其他方面的转变
8. 结论
8.1 从量变到质变
8.2 各领风骚十数年
3
1、大数据浪潮汹涌澎湃
1.1 大数据世界
(1) 网络连接的世界涌现出大数据
•
互联网和社交网产生的数据:现代网络社会中,人们在通过电子邮件、维基、微
博、博客、娱乐节目、网上购物、银行交易、股票数据等进行互动和交易,每个
人在分享网上数据的同时,又在不断制造数据。
•
无线移动互联网络产生的数据:移动智能终端接入互联网就形成了移动互联网,
它虽兼具了通信网之“随时、随地、随身”和互联网之“共享、开放、交互”的
优势,但仍面临着海量数据通信对网络带宽带来的巨大负担;而移动互联网的无
线接入网络使得数据流量剧增,迫使网络运营商不断增加基站数和进一步挖掘频
谱利用率;网络应用和服务的多元化使得传统的微观小尺度(分组级和数据帧级)
的业务规律分析无法从宏观上描述业务特征规律。
•
物联网上采集和观测数据:在遍布全球各地的移动传感器、无线传感器、空间遥
感器、射频识读器和摄像、照相机等各种采集和观测数据设备,都在时时、处处
捕获大量诸如位置数据、传感数据、卫星图像数据、气象数据等。
•
社会发布的信息数据:现代社会中,政府、企事业、行业等机关部门都不断地向
社会发布政务信息、公共服务信息、卫生保健信息、社会保险信息、科技教育信
息、安全预警信息、金融服务信息、证据投资信息等数据。
4
1、大数据浪潮汹涌澎湃
(2) 大科学工程产生了大数据
•
*大型强子碰撞(LHC:Large
Hadron Collider)试验:美国大数据研究计划
中专门列出寻找希格斯粒子(被称为“上帝粒子”)的LHC实验。据说至
少要1万亿个事例中才可能找出一个希格斯粒子。在发生碰撞时,LHC检测
器(Detector)在一秒钟内能捕获到其临近0.4亿(40 million)个快照。当
LHC试验时,约有1.5亿个传感器(Sensor)每秒传递数据0.4亿次,大约每
秒近6.0亿碰撞。如果所有的传感器数据均记录在LHC中,则在重复之前每
天将近有500EB(E=1018)数据流量,几乎是世界上所有其他资源的200倍。
*希格斯粒子以2013年诺贝尔奖获主之一现年84岁的英国科学家彼得·希格斯命名。他在1964年
曾预言玻色子粒子的存在。时隔50年之后,被总部设在瑞士日内瓦的欧洲核子研究中心LHC实
验项目所证实。因为诺贝尔奖至多3人分享,所以欧洲核子研究中心参与发现这种粒子的数以
千计的研究人员就成了无名英雄了。
*参与“上帝粒子”项目的28岁小伙子,计昊爽,合肥庐江人,毕业于中国科学技术大学,后
去美国威斯康辛大学读博士。他是欧洲核子研究组织(CERN)团队成员,他在计算和实验证
明出“上帝粒子”存在功不可没。他首次计算得到了5倍西格玛(Sigma)的显著度,有
99.9999%的可信度表明了该粒子的存在。这在科学界被认为已经证明了上帝粒子的存在。
•
•
斯隆数字天空勘探(SDSS:Sloan Digital Sky Survey)计划:从2008年开始
收集天文数据,并且每晚以200GB的速率继续收集,到2012年,SDSS已积
累了超过140TB的信息。
基因测序:2013年全球至少有30万个人类个体基因组被全部或部分测序,
这就意味着将会产生30Pb的序列数据,至少需要相当150PB的存储和分析
计算能力。
5
1、大数据浪潮汹涌澎湃
(3) 新技术新应用催生的大数据
•
新技术:传感技术、新型通信技术、物联网技术等高速发展,让人们感知的东西很
多;人与人、人与机器、机器与机器时刻都在互联互动;新的获取、搜索、发现和
分析工具更使人们获得更丰富的数据。
•
新应用:物联网(使成千上万的网络传感器嵌入到现实世界中)和云计算(为海量
数据提供了存储空间和在线处理)等新型应用更使得数据激增。
(4) 大数据发展的主要推动力
•
大数据推动者是企业界:企业界的经济效益推动了大数据的发展。IBM、Oracle、
微软、谷歌、亚马逊、Facebook等跨国巨头是大数据处理技术的主要推动者。
O’Reilly公司断言:数据是下一个“Intel Inside”,未来属于将数据转换成产品的公
司和人们。
•
大数据主要消费者是网民:近年来大数据骤增主要还是来自人们的日常生活(图片、
视频、音乐等),特别是互联网公司的服务。
传感网和物联网等相关技术催生了大数据的蓬勃发展。
•
6
1、大数据浪潮汹涌澎湃
1.2 大数据潮流
(1)大数据时代
•
大数据的价值
① 21世纪数据的价值有可能等同于20世纪的石油,但石油资源会不断
耗尽,而数据会随应用不断增长,呈“无限增长”的趋势。
② 信息经济早期,数据只作为一种“资源”;后来人们逐渐把它视为一
种“资产”;而现今数据却成了一种“能力”,是企业的核心竞争
力。
•
大数据成了国际业界热门话题
① 21世纪是个数据为王的时代,每个人都必须“用数据说话”,谁拥有
了数据,谁就有了话语权。
② 大数据是继云计算、物联网之后的IT界又一次颠覆性技术变革。2012
年世界经济论坛发布了“Big Data, Big Impact”的报告,阐述了大数
据对农业、金融、医疗、健康、教育等发展带来了新机遇。
7
1、大数据浪潮汹涌澎湃
(2) 大数据研究计划
•
美国“大数据研发创新”计划
① 计划概况:2012年3月,美国Obama政府宣布了“Big Data Research and
Development Initiative”计划,探讨如何利用大数据分析来应对政府所面临的
一些重大问题。该计划由跨6个部门的84个大数据项目组成,总投资共
$200million(2亿美元)。
② 计划目的:通过抽取知识和洞察大而复杂的数据,改进工作能力;通过创新,
加速科学和工程发现的步伐;增强国家安全和改观国民教育现状与面貌等。
③ 计划落实实施:除了投放2亿美元资金外,政府希望工业界、大学、非盈利企
事业单位加入联邦政府,利用大数据所提供的机遇。总统号召:“all hands on
deck”(各就各位,全体出场),共同努力。在此形势下,美国有些公司已为
大学提供大数据方面的研究项目与资金;大学已开设大数据的课程,为培养下
一代“数据科学家”做准备等。
•
日本“新ICT战略研究”计划
① 计划发起:2012年7月日本推出“新ICT战略研究计划”,在新一轮IT振兴计划
中日本政府把大数据发展作为国家层面战略提出。这是日本新启动的2011年大
地震一度搁置的政府ICT战略研究。
② 计划关注点:所推出的新的综合战略“活力ICT日本”,“提升日本竞争力,
大数据应用不可缺少”,重点在大数据的应用所需的云计算、传感器、社会化
媒体等智能技术开发,大数据将为新医疗技术开发、交通拥堵的缓解等带来方
便和贡献。
8
1、大数据浪潮汹涌澎湃
•
英国“聚焦大数据和节能计算”计划
① 做好准备:英国认为自己为大数据革命做好了准备,英国把大数据看作是自
己的优势,政府加大对大数据等IT技术的投入,并带动企业对该领域的投资。
② 资金投入:英国政府宣称投资6亿英镑科学资金,并计划在未来两年内在大数
据和节能计算研究投资1.89亿英镑。政府把大量的资金投入到计算基础设施
,用以捕捉并分析通过开放式数据革命获得的数据流,带动企业投入更多的
资金。
•
我国大数据论坛及研究计划
① 在2013年:
 中国计算机学会率先于2013年成立“大数据专业委员会”,李国杰院士任
主任。
② 在2011~2014年:
 2013年3月国家自然基金委在上海举行规模浩大的“大数据双清论坛”。
 中国分别举办了第一届(2011年)和第二届(2012年)“大数据世界论
坛”。
 IT时代周刊等举办了“大数据2012论坛”,中国计算机学会举办了
“CNCC2012大数据论坛”。
 国家自然科学基金委,2014年立项重点和重大项目“大数据技术和应用中
的挑战性科学问题”研究,拟从10个方向中选择资助8个重点项目。
 国家科技部,863计划信息技术领域2015年备选项目包括超级计算机、大
数据、云计算、信息安全、第五代移动通信系统(5G)等。
9
1、大数据浪潮汹涌澎湃
(3) Gartner预测大数据的发展周期
•
•
2011年:大数据进入技术导入期(Trigger),呈上升发展趋势;同时大数
据预测分析等相关技术已较为成熟,而云计算、内存数据库管理和社会
分析等也处于期望膨胀期(Inflated Expectation)。
2012年:大数据已进入井喷期(Inflated),处于接近高峰期,同时大数
据相关预测分析、云计算、内存数据库管理、社会分析等技术已逐步发
展且趋于成熟。
导入
上胀
低落
回升
稳定
10
1、大数据浪潮汹涌澎湃
•
2013年:大数据带动了数据科学的研究热潮和相关使能技术的兴起。
11
1、大数据浪潮汹涌澎湃
1.3 什么是大数据
(1) 认识大数据
•
大数据一般来源于网络用户、网络应用、智能终端、政府、企业和个人,所以大
数据包含了互动数据、交易数据和观测数据等。
•
所谓大数据(Big Data)就是指用目前常用的软件工具无法在容许的时间(可接受
的时间)内进行获取、存储、管理和分析等的数据集(Data sets)。
•
数据之所以称为大数据,首先是因为其量大(Large Quantity),而量大对不同的
领域的界定也不同;目前,大数据一般典型范围为几十TB(T=1012)到PB
(PB=1015),将来会更大。
(2) 大数据的4V定义
大数据可按其大容量、快速率、多样性和高价值等4个“V”进行定义如下:
•
Volume(Amount of Data):大容量
(主要体现数据存储量大和计算量大)
•
Velocity(Speed of Data in & out ):快速率
(主要指数据更新、增长速度快,数据存储、传输、处理速度快)
•
Variety(Range of Data Types & Sources):多样性
(包括结构化的原数据库表格数据和半结构化、非结构化的文本、视频、图像等信息)
•
Value(Usefulness of Data):高价值
(大海捞针,“在大数据困难面前,不被利用就是成本”)
12
1、大数据浪潮汹涌澎湃
(3) 处理大数据的基本原理
•
数据量的巨大(本身也包含着数据大小变化范围大)使得数据无法集中存储和必
须使用并行与分布计算技术。
•
数据的快速,使得数据到达速率快和输出结果快,这就需要实时处理和快速决策。
•
数据的多样性,数据结构化、非结构化、半结构化甚至不可预知的结构使得数据
难以统一表达、处理系统极其复杂。
•
大数据的价值弥足珍贵,但大数据的价值密度低,在浩瀚的大数据海洋中,如何
挖掘有用的东西,似如“大海捞针”!利用好大数据的价值并非易事!
•
大数据的研究大体上包含数据获取、存储、传输、分析、管理与应用等诸多方面,
显然涉及到物理、材料、电子、计算机、通信、数学、统计、信息管理以及各应
用行业,不是单一学科能解决的问题,需要多学科交叉综合研究!
(4) 大数据的4层技术架构
•
•
•
•
基础层:横向可扩展存储和计算平台;虚拟化、网络化的分布式架构。
管理层:并行、分布式管理平台;结构化和非结构化的统一管理。
分析层:基于统计学的数据挖掘和机器学习算法;分析和解释数据,提供自动服
务。
应用层:提供实时决策;内置预测能力。
13
1、大数据浪潮汹涌澎湃
(5) 大数据所带来的技术挑战
•
•
•
•
•
大数据存储与管理:虽然大数据价值稀疏,但保留它还是非常有价值的!解决大数
据的存储问题首先是对其进行去重和压缩;其次是降低副本比,提高存储效率和降
低存储成本。
传统IT系统到大数据系统的过渡:在现有的数据软/硬件平台基础上做渐进式改进;
大数据分析要平民化;大数据应用要直观、易用和网络化。
大数据分析:需要革命性理论和新算法;不能抽样分析,要全数据聚合分析;以计
算为中心转移到以数据为中心;系统架构应分布式和并行化兼顾;将结构化数据的
分析方法、工具与新兴的非结构化数据方法、工具相结合;提供数据实时分析能力;
云计算是提高大数据分析能力的一种可行方案等。
大数据安全:发展信息安全技术;加强技术保护;提高全民信息安全意识;完善信
息安全政策和流程;完备信息安全标准等。
大数据的兴起催生了数据科学:数据科学可简单理解为预测分析和数据挖掘,是统
计分析和机器学习技术的结合,相关方法包括回归分析、关联规则、优化技术和仿
真建模。
(6) 大数据所带来的威胁
•
无处不在的“第三只眼”和大数据的二次利用会使人们惶恐不安,威胁公众的隐私,
伤害人类的自由和尊严。
•
运用大数据预测来判断和惩罚人类潜在行为,会给社会和人类带来不公和无法弥补
的损伤。
•
数据的质量不高、数据的不客观性、数据分析中的差错等所导致的人们对数据的执
迷和崇拜,形成了数据独裁是可怕的,应引以为戒!
14
1、大数据浪潮汹涌澎湃
1.4 变革思维研究大数据
(1) 数据的获取
•
不能依靠随机采样进行分析,采样无法揭示细节信息,不能期望像小数据时代那样,
可用最少的数据获得最多的信息。
•
大数据时代要利用尽可能多的全样数据,收集与某事物相关的所有的数据。
(2) 数据的分析
•
在大数据时代,分析如此之多的数据,不能热衷于追求精确性,也无法实现精确性。
•
须知,大数据的简单算法比小数据的精确复杂算法会更有效。
(3) 数据的解释
•
大数据时代,无需紧紧盯着事物之间为什么的因果关系,要侧重寻找事物之间是什么
的相关关系。
•
知道“是什么”是大数据从业人员急需的,知道“为什么”可容后让科学家们去分析。
(4) 数据的处理
•
面对数据纷繁杂乱的局面,要接受处理大数据无理论、无模型的理念与现实。
•
不能避免数据纷繁多样、优劣共存的混杂性,要容忍模糊性和不精确性的处理方法。
•
不建立新模型,没有统一的理论和机械式的证明,科学也可以照样进步。
15
1、大数据浪潮汹涌澎湃
1.5 大数据的价值
(1) 数据的用途
•
数据的基本用途:数据的分析、处理和使用提供定量可信的科学依据。
•
数据不限于特定用途:数据可以为同一目的而多次重复使用,它也可以用于不同
目的。
(2) 数据的潜在价值
•
数据的再利用:对收集、处理和使用过的数据,存储下来备以后再利用。
•
数据的重组:对数据而言,将多个数据集进行重组总和的价值比单个总和的价值
更大。
•
数据的可扩展:将相同数据集设计成可扩展的各种潜在的二次用途。
•
数据的折旧:所收集的数据,做尽可能多的和尽可能长的时间保存,以便再次用
于相同或类似的用途。
•
数据的开放:特别是“开放政府数据”,供全民使用,更广泛地服务于社会。
(3) 大数据的商业价值
•
大数据掌控公司的发展:掌握大数据,多渠道获取拥有大数据,巧妙地挖掘大数
据的价值,使数据能优化生产和服务,甚至催生新的行业,便会使公司大放异彩。
•
大数据决定企业的竞争力:大数据是企业的双刃剑——因大数据诞生了很多公司,
也倒闭破产了很多公司。在激烈的竞争中,所有行业均存在着威胁、挑战、转型
与机遇!
16
1、大数据浪潮汹涌澎湃
1.6 大数据的管理
(1) 隐私保护
•
对大数据的使用进行正规评测和正确引导,将隐私保护的责任从民众转移到数据
使用者,让他(她)们对自己的行为负责。
•
设立数据隐私保护模式,将数据的使用权从收集数据进行“个人许可”的拥有者
转移到承担责任的数据使用者(他们是数据二级应用的受益者)。
(2) 公正评判
•
在大数据时代,有了大数据我们可以预测人的行为,这很容易诱使我们依据预测
行为进行评判。
•
在大数据时代,在利用“客观”数据进行预测评判时,要考虑个人动因,而个人
可以而且应该为他们的实际行为而不是倾向负责。
(3) 反对数据垄断大亨
•
我们应借鉴当年的铁路和钢铁等强盗大亨,防止他们垄断一切。
•
反对数据垄断大亨,就可以将大数据的不利影响得到控制,相应的法律、法规支
持不可缺少。
•
反对对数据的执迷和崇拜所形成的数据独裁!
17
1、大数据浪潮汹涌澎湃
1.7 大数据时代的产业界情况
•
传统IT巨头(IBM、微软、惠普、Oracle等)
① 通过“硬件+软件+数据”整合平台,向用户提供大数据完备的基础设施和服务,实现“处理-存
储-网络设备-软件-应用”,即所谓“大数据一体机”。
② 通过并购大数据分析企业,迅速增强大数据分析实力和扩展市场份额。
③ 但依赖厂商自身原有技术优势和收购整合不同公司,不能从根本上突破大数据发展的关键核心
技术和实现对大数据各个领域的覆盖。
•
商务智能厂商(SAS,Teradata等)
① 长期专注行业(银行、电信等)智能数据分析,技术实力强,产品线丰富,行业业务精。
② 在大数据时代,这些厂商在原有结构化数据处理的同时,开始加大在可扩展计算、内存计算、
库内分析、实时流处理和非结构化数据处理等方面的投入。
③ 这些厂商凭借在以往数据建模和分析方面的长期积累,虽处于行业领导地位,但面临大数据,
它们的诸多产品性能仍跟不上大数据的需求。
•
互联网公司(Google、Facebook、阿里巴巴、百度、腾讯等)
① 这些公司基于自身应用平台、庞大的用户群、海量用户信息以及互联网处理平台,可提供精确
营销、个性化推介等商务活动。
② 在大数据时代,催生了大数据分布式处理软件框架Hadoop:包括分布式文件系统HDFS,并行编
程框架Map-Reduce,数据仓库工具Hive和大数据分析平台Pig等。
③ 国内阿里巴巴推出“淘宝指数”,用于商家指导生产、制定价格和控制库存;百度从数据、工
具和应用三个层面规划大数据时代的企业战略;腾讯通过大数据挖掘社会网络中的商业价值等。
•
大数据的“春秋战国”
① 目前,世界上各企业产业界正处于群雄并行的“大数据春秋时期”。
② 可以预计,今后的五至十年,大数据领域将会聚集成若干个核心企业、公司和典型应用的“大
数据战国时代”。
18
2、大数据引领社会、经济和科技的发展
2.1 大数据对国家社会的作用
(1)增强国家安全
•
•
•
通过海量数据挖掘出高价值的军事情报。
通过海量数据的分析迅速布置军事行动。
通过海量数据处理实现军事决策自动化、精准化和快速化。
(2)促进政府开发
•
•
•
数据开放:通过数据开放,可为政府决策提供真实数据。世界上不少国
家已推出各自国家的公共数据库开放网站,网站数据库公布的数据不受
私人或国家部门的限制。
基于数据驱动的政府决策:利用“基于实证的事实”可更加有效、更加
开放、更加负责地引导政府前进,而不是“意识形态”,也不是利益集
团对政府决策施加影响。
使用大数据可以提升公共服务的透明度,通过数据模块等形式,辅助公
共服务部门更好地发现需求、提升绩效、降低运营开支成本等。
(3)提高政策预见性和响应性
利用互联网、社交网和手机信息等,对社会舆论、失业率、疾病爆发、天气
预报、股票走势等,进行:
• 情绪分析
• 趋势预测分析
19
• 早期预警
2、大数据引领社会、经济和科技的发展
2.2 大数据推动国民经济发展
(1) 人类社会的三次浪潮给人类社会带来了巨大深刻的影响,极大地推动
了人类社会经济的发展
•
•
•
农业社会
工业社会
信息社会
(2) 大数据是第三次浪潮的华彩乐章,在新一代信息技术发展中:
•
物联网:使成千上万的网络传感器嵌入到现实世界中。
•
云计算:使物联网产生的海量数据提供了存储空间和在线处理变得可能。
•
大数据:则让海量数据产生价值,使数据成为宝贵“资产”。
(3) 大数据产生大价值
•
大数据所催生的硬件、软件及服务市场产生了巨大的价值。
•
通过大数据推动的相关行业(制造业、医疗业、零售业等)产生巨大的
价值。
20
2、大数据引领社会、经济和科技的发展
2.3 大数据促进科技发展
(1) 科学发现的“第四范型”(The Fourth Paradigm)
2007年,图灵奖得主Jim Gray曾在美国国家科学研究会发表演讲,指出:
•第一范型 - 实验科学:几千年前凭经验描述自然现象。
•第二范型 - 理论科学:过去几百年靠理论分析(牛顿定律、麦克斯韦方程式
等)研究自然规律。
•第三范型 - 计算科学:过去几十年用计算机仿真模拟复杂现象。
•第四范型 - 数据密集型科学:基于大规模数据获取、分析、处理的科学发现。
(2) 大数据引领互联网技术创新
•大数据的快速率:促使互联网行业推出诸如流式处理、实时计算、内存计算
等技术。
•大数据的大容量:促使互联网公司构造分布式架构,利用大量廉价的服务器
与存储器来应付大数据集,并灵活进行弹性部署。
•大数据的多样性:促使互联网公司采用非关系型数据库技术,不断强化对日
益增加的非结构化数据的驾驭能力。
21
2、大数据引领社会、经济和科技的发展
2.4 大数据应用及实例
(1) 应用场合(Use Cases):
•
•
•
•
•
•
•
•
…
(2)
大数据来源
•
•
•
•
•
(3)
政府运作(国家档案管理,人口普查,政府发布的信息…)
国防安全(军事情报,军事决策,军事行动…)
社会民生(社会网络,淘宝网,支付宝…)
健康医疗(疾病档案,流行病传播,远程医疗…)
商业金融(商业新闻,投资风险,股票走势…)
地球海洋(地震预报,检测冰川雪崩,风暴潮海啸预报…)
能源环境(能源挖掘与利用,消耗与再生,能源与环境…)
大科学工程(大型强子LHC,斯隆数字天空勘探,基因测序…)
网络服务器日志数据(Web Servers Logs)
互联网点击流数据(Internet Clickstream Data)
社会媒体发布(Social Medial Activity Reports)
移动呼叫记录(Mobile-phone Call Records)
传感器或IOT设备捕获信息(Information Captured by Sensors or IOD Devices)
大数据实例
•
•
中国互联网数据中心统计:
①
淘宝网同时每天在线商品数已超过8亿件,平均出售4.8万件/分钟。
②
Facebook网站上每天的评论达32亿条,新上传照片3亿张/天。
③
Youtube每天页面浏览数达20亿次,上传15万部电影/周;上传83万部视频/天。
④
新浪微博注册用户超过3亿,用户发布超过1亿条微博/天。
大数据有多大?
①
②
2011年时,全球数据规模约1.8ZB(Z=1021),可以填满575个32GB的ipad,它们如果当砖头使用,可以
修建2座中国长城。
到2020年,全求数据规模将达40ZB,可以修建45座中国长城。
22
3、大数据处理流程
3.1 大数据的采集与预处理
(1) 网络采集的大数据
•
互联网上系统日志信息的采集。
•
互联网上非结构化数据的采集。
(2) 采集数据的观测设备
•
传感器:无线传感器、移动传感器、空间传感器。
•
射频识读器(RFID)。
•
摄像机、照相机等。
(3) 采集数据的ETL预处理技术
•
数据提取(Extraction):通过接口设备从分布的、异构的数据源中提取
数据。
•
数据转换(Transformation):将提取的数据转换成业务需要的目标数据
结构并实现汇总。
•
数据加载(Loading):将转换和汇总后的数据加载到目标数据库或相应
的文件存储系统中。
23
3、大数据处理流程
3.2 大数据的传输
(1) 加速海量数据近实时传输(near-real time delivery)的关键在于
研发超高速的交换与传输设备。
• 传输介质
① 宽带接入铜退光进:光纤以石英材质为主,具有绿色和宽带的优势,可进一步
提升大数据传输所需要的带宽。
② 有线与无线结合:无线可为基站和终端间构筑泛在网络;有线光纤可为基站和
城域间提供高效传输平台。
• 传输设备
① 光电结合:电子属于费米子,电处理在逻辑和缓存等功能上具有优势;光子属
于玻色子,光处理在高速并行传输和交叉上具有优势,所以两者结合有可能应
对大容量节点交换的需求。
② 传输与交换相结合:使用光联网可将单纯的传输功能集成到节点设备中去,利
于网络规划和运维。
• 传输协议
① 多复用方式:使用光纤接入可从时分发展到时分、波分和频发等多复用方式。
② 电路与分组相结合:前者利于大粒度数据流;后者利于小粒度数据流,两者结
合大大有利于减少功耗和成本。
24
3、大数据处理流程
(2) 数据增长速度超过通信能力的增长,单纯依赖物理层技术的提升无
法满足大数据的需求。
•
物理层:超大规模集成电路、高速路由器/交换机、全光网络、4G/5G…等
等面临着物理极限。
•
网络结构与核心协议:30多年基本没有太大的变化——IP设计的初始理念
是用户少、设备贵、流量小、应用简单,确立了简单清晰的网络结构;
当物联网和社交网的出现和发展,迫使IP网络架构不断“打补丁”,结果
弄得“杂乱臃肿”。
•
存在的问题:不能充分利用带宽而效率低;难以有效支持多径路由而不
灵活;无法进行统一的流量管理。
25
3、大数据处理流程
(3) 软件定义网络(Software Defined Network,SDN,由斯坦福大学提
出)是解决大数据传输的有效方法。
•
SDN的核心思想:其核心技术OpenFlow将网络设备控制面(Control Plane)
与数据传输面(Forwarding and Data Plane)分离开来。
① 控制面:决定网络设备中路由表的内容,即路由算法。
② 数据面:决定网络设备如何对数据包进行转发,即转发表本身。
•
SDN的意义:可实现网络流量的灵活控制——路由算法可以运行在与网络
设备独立的节点上(SDN控制器),以实现集中式路由算法控制。
•
SDN的优点:可有效利用空闲带宽,提高带宽利用率;可灵活利用多条路
径进行数据传输;易于对数据传输进行有效管理。
•
SDN的问题:集中式的SDN控制器存在单节点失效问题和网络可扩展性问
题;SDN包含多个物理和逻辑层面,含有大量的异构设备和协议,管理很
复杂;这种全新的架构在基础理论、网络协议、路由算法、网络安全等
方面有大量亟待解决的问题。
26
3、大数据处理流程
3.3 大数据的存储
(1) 新型存储技术
•
要研发高密度、低功耗、速度快、非易失的新型存储器件,
•
要研究固态存储阵列和大容量混合存储技术,
•
要研究高性能、大容量、低延迟、高可靠的I/O存储技术。
(2) 新型存储结构
•
直接连接存储(DAS,Direct-Attached Storage)结构:通过总线适配器将
硬盘等存储介质直接连到主机上。大数据从业人员不喜欢慢速昂贵的共
享的外存,而希望不同形式的,包括固态硬盘(SSD,Solid State Disk)、
埋置在并行处理节点内的高容量SATA(Serial Advanced Technology
Attachment)磁盘等。
•
智能化分布存储结构:大数据不可能集中存储,要构建智能化的分布式
存储结构。改变传统“哑存储设备”的观点,可将部分公共数据处理和
管理任务下移至存储设备,达到数据就地、就近处理,充分利用存储设
备的处理能力,减轻网络传输的压力。
27
3、大数据处理流程
•
新型存储级内存(SCM,Storage Class Memory):它是将SCM设计成整个
存储系统的一部分,而非作为虚拟内存交换区域和外存补充,使得计算
不仅仅存在传统的内存Memory上,同时也在SCM存储设备上。
(3) 大数据分布、容错、列存储
通过分布式实时列存储可对数据统一进行结构化存储管理,避免了传统数据
存储方式的关联查询。
•
分布式存储主从控制模式:主节点存元数据,且负责接收请求并应答;
从节点负责存数据。
•
冗余存储:为可靠起见,文件块被复制到三个不同的存储位置。
•
用列存储代替行存储:将记录按行排序、按列存储,将相同字段数据作
为一个列族而聚合存储之。
•
去重和压缩:研究表明,应用数据近75%是副本,原本只占25%,降低副
本是提高存储效率的首要因素。
28
3、大数据处理流程
3.4 大数据的处理
(1) 大数据的管理
•
在线事务处理OLTP(OnLine Transaction Processing)
① 数据加载:将多个OLTP系统通过ETL工具将其中的数据导入到一个或多个数据
仓库中,以满足高吞吐量和实时分析的需求。
② 并发查询:NoSQL是对不同于传统关系数据库的数据库管理系统的总称,它不
使用SQL作为查询语言(SQL是结构化的查询语言,它接收记录条目<Records>
集作为输入,输出也是条目集)。区别于传统关系数据库的按行存储,NoSQL
支持列存数据库按列存储。
•
在线分析处理OLAP(OnLine Analysis Processing)
① 大规模并行数据库:是无共享数据库,可以有效提高查询效率和平台的可扩
展性,主要用在数据仓库和大规模分析处理应用中。
② 分布式大规模批处理(MapReduce):它是一个支持非结构化大数据分析的
分布式编程模型。MR来源于函数式编程语言LISP中两个高阶函数Map和
Reduce。Map被用来遍历输入数据,并进行划分,再以Key/Value对方式输出
中间结果;然后这些中间结果按Key的取值聚集到Reducer上执行Reduce操作
,产生最终计算结果。
29
3、大数据处理流程
(2) 大数据的挖掘
定义:从大量、随机的、不完整的、有噪声的、模糊的数据中,提取隐含的
事先不知道的,但有潜在应用价值的信息和知识的过程。
•数据挖掘的一般步骤:
①
②
③
④
⑤
数据筛选:从目标数据中提取与分析相关的数据。
数据预处理:清除目标数据中的噪声或不一致的数据。
数据变换:将已预处理的数据统一成适合挖掘的格式。
数据挖掘:从变换后的数据中,使用智能方法提取数据模式。
评估与展现:识别真正有用的模式并进行可视化展现。
•大数据挖掘的几个阶段:
① 数据预处理阶段:包括数据准备,数据提取,数据预处理和数据变换等。
② 数据挖掘阶段:包括确定挖掘目标,选择合适的挖掘算法,从数据库中提取
用户感兴趣的知识。
③ 数据评估与展示阶段:包括对发现的模式(知识)评估,向用户呈现所挖掘
的知识等。
•新型挖掘技术:大数据的异构性、非确定性、关联性、结构不一致性、稀疏泛分布
性、数据流动性、动态变化性等复杂因素需要研究诸如迭代性和探索性分析等新型数
据挖掘技术。例如,Hive是在Hadoop之上的,管理和查询结构化数据,可完成PB级数
据的挖掘。
30
3、大数据处理流程
(3) 大数据的分析
• 大数据的描述分析
① 关联分析(Association Analysis):是从给定的数据中发现频繁出现的模式(关
联规则),其形式表达为 X => Y,即“数据库中满足条件的X的记录多半也满足
条件Y”。
② 聚类分析(Clustering Analysis):是将数据对象划分成多个类或簇,使之同簇中
对象有较高的相似度。
③ 离群点分析(Outlier Analysis):分析数据集合中那些与绝大多数数据特性或模
型不一致的数据对象(称之为离群点,Outlier)。
④ 演化分析(Evolution Analysis):其目的是挖掘随时间变化的数据对象的变化规
律和趋势,并对其建模。
• 大数据的实时分析
① 库内分析:数据分析在数据库内可以即时完成,这样既节省时间又提高了安全
性。
② 内存计算:在服务器的主存中处理分析数据。
③ 流处理:实时处理新数据和更新数据库。
④ 连续计算:对数据进行连续查询、边计算边以流的形式输出之。
• 集成多种学习算法:包括人工智能有关的机器学习算法、A/B Test法、分类
/聚类算法、学习与演化算法、识别和预测算法、监督与非监督学习算法等。
31
3、大数据处理流程
(4) 大数据信息处理平台
•
高通量计算结构:改变传统的以计算为中心的高性能(HP,High
Performance)计算结构为以数据为中心的高通量(HT,High Throughput)
计算结构。高通量计算结构特别适合于来自Web服务的大量面向网络的
日志(Log)信息的处理。
•
端云协同计算系统:该系统在终端低层硬件上集成多种异构并行的计算
设施,将其与虚拟化的云计算网络构成端云协同的大数据信息处理计算
平台。
•
高性能云计算(High Performance Cloud Computing)数据中心基础设施:
普及型高性能计算机(PHPC,Popular High Performance Computing)可以
应对大数据应用中数据量大(Volume)和处理速度要求高(Velocity)等
方面的挑战。
32
3、大数据处理流程
(5) 大数据分布式处理软件架构:Hadoop
•
•
Hadoop的优点:它是一种能处理PB级数据应用程序的分布式计算平台,其优点是:
① 高可靠性:能自动保存多个副本的存储数据,可自动将失败的任务重新分配
处理。
② 高可扩展性:Hadoop可在机群间分配数据和完成计算,机群可以方便地扩展
数以千计的节点。
③ 高效性:Hadoop可在节点间移动数据,保证负载动态平衡,以实现快速高效
处理。
Hadoop的组成:Hadoop的组成元素如下:
① 分布式文件系统HDFS:其架构由一个Namenode节点(提供元数据服务)和多
个Datanode节点(为HDFS提供存储块)组成的Master-Slave架构,Datanode在
在Namenode的调度下进行数据的创建、删除和复制。HDFS内部通信基于标准
的TCP/IP协议。
② MapReduce并行编程框架:其中Map把输入分解成Key/Value对;Reduce把
Key/Value合并成最终的输出,而对Key/Value的操作是可以并行完成的。
③ 数据仓库工具Hive:它提供了一系列工具用来进行数据提取、转换、加载(
ETL);定义了类SQL的HQL查询语言,供用户查询数据;提供通过Web浏览器
WUI用户接口来访问Hive。Hive将元数据(包括表名、表列、分区属性等)存
储在数据库中,可用HQL进行查询等。
④ 大数据分析平台Pig:提供类SQL的PigLatin语言,将请求转换成一系列优化后
的MapReduce运算;Pig为海量数据并行计算提供简单的编程接口,用户可通
过Python或者Javascript编写Java程序。
33
3、大数据处理流程
(6) 大数据工具软件:Ysmart & RCFile
•YSmart (Yet another Sql-to-MApReduce Translator):SQL-to-MapReduce高效翻
译器
① 将用类SQL说明性语言描述的某一“运算”(Operation)翻译成MapReduce的“
作业”(Job)的步骤:识别“运算”的主句(如Join);主句中的每一“运算
”生成相应MR的“作业”(如join op → join MR job);将诸如选择、投影等其
他运算加入相应的MR作业中。
② 为了提高SQL-to-MR翻译的性能,对于一个SQL-like的提问,首先要转换成原语
MR作业;其次进行相关性识别;再归并相关的MR作业;最后Ysmart被集成到数
据仓库Hive中。
•RCFile(Record Columnar File):高效数据存放结构
① RCFile是Facebook公司数据分析系统中的标准数据存储结构,该结构集行存储和
列存储的优点为一体,在MR环境下的大数据分析中扮演重要角色。
② 在Hadoop系统中,常用文件存储格式有:支持文本的Text File和支持二进制的
Sequence File,它们都是按行存储的;Facebook工程师们将来自Web服务器的大
量日志(Log)数据经由数据加载器,按列存储的方式存入数据仓库中。
34
3、大数据处理流程
③ HDFS块内RCFile方式的存储示例:
首先将关系表划分成若干个行组(Row Group);在一个行组内,将原关系表中
的数据按逐列存放之。如此可确保同一行的数据位于同一节点;同时与传统
数据库的数据存储结构相比,RCFile能更有效地满足基于MR的数据仓库的快
速加载、加速处理提问、高效利用存储空间等需求。
35
3、大数据处理流程
3.5 大数据的展现
(1) 数据可视化的定义:
将数据处理的结果(图片、表格、映射关系等)以简单、友好、易用的图形
化、智能化、可视化形式呈现给用户。
(2) 数据可视化模式
•时间趋势的可视化
① 离散型数据可视化:常见的有柱状图及其变形。
② 连续型数据可视化:常见的有线型图(Line Chart)或时间线型图(Time Line
Chart),在小间隔时间步和大数据范围内画出拟合曲线展示连续变化趋势。
③ 利用线性回归方程的最小平方函数来描绘自变量和因变量之间的关系曲线函
数。
•空间趋势的可视化
① 点数据可视化:根据地理元素特性、特点和地图有机结合起来,再使用
Delaunay三角剖分算法将相近的点用不重复的三角形连接在一起。
② 区域数据可视化:根据数据的特性(例如高、中、低等),对不同的区域进
行着色,可直观地体现出区域数据的不同。
36
3、大数据处理流程
(3) 数据可视化工具
•
简单型:常见的有Microsoft Excel、Apple iWork Numbers、Google
Spreadsheets等。
•
编程型:常见的有Flash/Action Script、Processing、R和D3.js等。
(4) 大数据的处理及可视化技术小结
•
使用分布式文件系统(例如HDFS)存储海量非结构化数据。
•
使用Hadoop的MR框架处理海量非结构化数据;将结果存储到数据仓库中。
•
将结构化和半结构化的数据,经ETL存储到数据仓库中。
•
使用机群或分布式架构对大数据进行分析、处理和生成可视化结果。
•
对于实时性要求较高的数据分析,可采用流处理方式,在数据存储之前
就完成分析并生成可视化结果。
37
4、大数据与物联网
4.1 物联网
(1) 物联网定义、特征与技术基础
•
物联网(Internet of Things, IOT)定义:通过装置在物体上的各种信息传感设
备(如RFID、红外传感器、GPS、激光扫描器等等)赋予物体智能,并通过接口与
互联网相连而形成的一个物品与物品相连的巨大分布式协同网络。
•
物联网三大特征:它具有普通对象设备化,自治终端互联化和普适服务智能化
三个重要特征。
•
物联网技术基础
① 物联网的发展得益于传感器和射频识读(RFID)技术:当物品附以传感器或
标以RFID后,人们便可主动获取、处理和控制数据。
② 物联网的核心网络是互联网和电信网;物联网与互联网、移动通信网、无线
传感器等有密切的关系。
③ 物联网本身具有智能得益于网络终端设备从“机”到“物”,这些物品赋予
了终端设备的智能。
(2) 物联网的四层体系结构模型
•
•
感知识别层:包含智能设备,GPS,RFID,传感器等。
网络构建层:包括无线个域网、局域网、城域网、广域网,Internet互联网,移
动通信网等。
•
•
管理服务层:包括数据中心,搜索引擎,数据挖掘,智能决策,信息安全等。
综合应用层:诸如智能物流,智能交通,精细农业,安全环保,医疗保健等。
38
4、大数据与物联网
4.2 物联网的发展历程
(1) 互联网及其应用扩展
•
互联网的诞生、成长和发展
① 互联网诞生于20世纪60年代末和70年代初,最初是一个ARPANET。
② 互联网于20世纪90年代发展成为公众互联网。
③ 到了21世纪初发展为全球互联网。
•
互联网的应用扩展:
① 早期以传输文件、电子邮件应用为主的“计算机与计算机”互联。
② 近期以万维网、电子商务、视频点播、在线游戏和社交网等应用的“人与人
”交互。
③ 现代以物品跟踪、环境感知、自动识别、智能信息管理等应用的“物与物”
相联。
(2) 无线宽带网使物联网消除了接入设备位置限制
无线宽带消除接入设备位置限制,节省传输介质和成本,覆盖范围广阔,传
输速度快,获取信息方便等无线宽带技术(无线局域网WiFi,无线城域网
WiMAX等)势必在物联网时代扮演重要角色。
39
4、大数据与物联网
(3) 移动通信网使物联网实现了无所不在的感知
一个完整的物联网系统是由前(终)端信息生成、中间传输网络和后端应用
平台所组成。如果将信息终端(如RFID等)都局限在固定网络中,则无法实现
无所不在的感知识别,要采用第三代移动通信网络(3G),实现“全面、随
时、随地”传输信息。
(4) 低速网络协议更适合于物联网场景
在物联网中,网络中的设备不可能像互联网中的个人计算机、PDA等那样通过
路由器、交换机等级联起来使用了高速网络协议;而要采用适应于物联网中
那些计算能力较低、速度较慢、通信半径较小和能量消耗低的传感器设备的
低速网络协议(如蓝牙、红外等)。
40
4、大数据与物联网
4.3 大数据与物联网
(1) 物联网酿成了大数据
•
•
各种传感器(移动的、无线的、空间的等)采集了大量的数据。
各种观测设备(射频识读器、摄像机和照相机等)捕获了大量的数据。
(2) 物联网感知识别数据的设备
• 自动产生数据的感知设备
① 射频识别技术(RFID):RFID系统一般由阅读器(即封装在一起的接收器、传送
器和微处理器)、天线(用于传递标签和阅读器之间的射频信号)和标签(其原
理和条形码相似,内部存有唯一的编码,附着在物体上,用来标识目标对象)三
部分组成。
② 无线传感器:包括传感器(光传感器、温度传感器、二氧化碳传感器等)、微
处理器(片内集成了内存、闪存、A/D转换器、数字I/O等)和无线通信芯片(如
常用的符合IEEE 802.15物理层协议规范的低功耗通信芯片)以及供能装置电池。
•
人工生成数据的联网电子产品
① 智能信息设备:包括传统智能设备(如个人计算机、个人数字助理PDA等)和新
一代智能设备(如车载设备、数字标牌、医疗设备、智能电视、智能手机等)。
② 定位系统:包括GPS、蜂窝基站定位、无线室内环境定位和一些诸如A-GPS(辅
助GPS)和无线AP(无线接入点)等新兴定位系统。
(3) 大数据技术使物联网采集的数据产生了价值
•
•
物联网使成千上万的传感器嵌入到了现实世界中。
物联网采集的数据通过存储处理后,使得海量的大数据产生了价值,使数据变成了
“资产”。
41
5、大数据与云计算
5.1 什么是云计算
(1) 基本概念
•
•
•
云计算模式:用户终端通过互联网向“云”提出服务请求;“云”收到
服务请求后,组织计算资源和存储资源,对请求进行处理;然后将处理
的结果通过网络返回给用户。
云计算的定义:云计算是提供便捷的、通过互联网访问一个可定制的、
能够快速部署的IT资源(包括网络、服务器、存储、应用服务等)共享池
能力的、按使用量付费的计算服务模式。
云计算的核心技术:云计算利用分布式计算和虚拟资源管理等技术,通
过互联网将分散的IT资源集中起来形成共享资源池,并以动态按需、按量
向用户提供服务。
(2) 云计算四层体系架构
•
•
•
•
物理层:包括支持系统运行的计算设备、存储设备及其他硬件设备等。
虚拟层:包括虚拟主机、虚拟存储、虚拟网络等虚拟设备。
管理层:包括用户管理、资源管理、安全管理等。
业务层:包括IaaS服务、PaaS服务、SaaSQL服务等。
(3) 云计算关键技术
•
•
•
存储技术:分布式和冗余存储方式(如Hadoop的分布式文件系统HDFS)。
管理技术:如谷歌公司的BigTable数据管理技术采用了列存储方式。
42
编程模式:云计算采用类似于Map-Reduce的编程模式。
5、大数据与云计算
5.2 大数据与云计算的关系
(1) 两者的侧重点不同
•
大数据侧重于“数据”的采集、分析挖掘、数据的存储能力。
•
云计算侧重于“计算”,关注IT基础架构、数据处理计算能力。
(2) 两者相辅相成
•
若没有大数据的沉淀,则云计算的计算能力再强大也难以找到用武之地。
•
若没有云计算的处理能力,则大数据的信息沉淀再丰富,也终究只是镜
花水月。
(3) 两者优势互补
•
利用云计算的强大计算能力,则可迅速处理大数据,即时提供服务。
•
通过大数据的业务需求,则可为云计算落地找到更多的实际应用。
•
云计算为大数据提供弹性可扩展的存储和高效的数据并行处理能力;云
计算为大数据提供了有力的工具和途径,大数据为云计算提供了很有价
值的用武之地。
43
5、大数据与云计算
(4) 大数据根植于云计算
•
云计算技术:包括虚拟化技术、平台管理技术、MR编程技术、海量数据
存储技术、海量数据管理技术等。
•
大数据关键技术:MR编程技术、海量数据存储技术、海量数据管理技术。
•
结论:云计算中的海量数据存储、管理技术和MR编程技术都是大数据的
技术基础。
(5) 两者的相同点
•
均为数据的存储和处理服务。
•
都需要占用大量的存储资源和计算资源。
•
都要用到海量数据存储技术、海量数据管理技术和Mapreduce并行编程技
术。
44
5、大数据与云计算
5.3 大数据和云计算的不同点
大数据
云计算
现有数据处理技术不能胜任
社交网络、物联网中的大量
异构数据
基于互联网的相关服务日益
丰富和频繁
充分挖掘海量数据中的信息
通过互联网更好地调用、扩
展和管理计算及存储资源和
能力
研究对象
数据
IT资源、能力和应用
推动力量
来自于从事数据存储与处理
的软件厂商和拥有大量数据
的企业
来自于生产计算及存储设备
的厂商和拥有计算和存储资
源的企业
带来价值
发现数据中的价值
节省IT的部署成本
不同点
出现背景
主要目的
45
6、高性能计算与高性能计算机
6.1 什么是高性能计算
(1) 高性能计算的含义
•
高性能计算,简称HPC(high Performance Computing),泛指计算速度快、
计算量大、效率高等的运算。
•
HPC主要包括向量计算、并行计算、分布式计算、网格计算、效用计算等。
•
高性能与并行密切相关:欲达到高性能,则应采用并行,运用了并行,
必可达到高性能。
(2) 高性能计算的战略地位
•
HPC是一个国家综合国力的体现。
•
HPC是支撑国家实力持续发展和确保国防安全的关键技术之一。
•
一些重大挑战问题(大飞机设计、全球气候预测、人类基因、油藏模拟、
海洋环流、药物设计、超导材料等)都离不开HPC。
46
6、高性能计算与高性能计算机
(3) 高性能计算的度量
•
高性能计算的千进位量纲
前缀
缩写
基幂
含意
数值
Kilo
K
103
Thousand
千
Mega
M
106
Million
兆,百万
Giga
G
109
Billion
千兆,10亿
Tera
T
1012
Trillion
垓,万亿
Peta
P
1015
Quadrillion
千万亿
Exa
E
1018
Quitillion
百亿亿
Flops:每秒所执行的浮点运算次数 (Floating-point operations per second )
目前的PC机运算速度通常在GFlops量级,高性能计算机运算速度通常在TFlops至
PFlops量级。
•
HPC主要采用峰值速度(单CPU速度×CPU数目,单位是每秒百万次浮点
运算,即MFlops)、Linpack实测速度(求解高阶线性方程组的基准测试
程序,单位是MFlops)和性能/功耗比(Flops/W)等来度量。
47
6、高性能计算与高性能计算机
6.2 高性能计算机系统举例
(1) 美国:曾经是超级计算机霸主的2008年和2009年两年夺冠的IBM
Roadrunner(走鹃)
(2) 中国:曾在2010年11月排在世界第一的TH-1A(天河一号)
48
6、高性能计算与高性能计算机
(3) 日本:2011年11月曾排在世界第一的K-Computer(京计算机)
49
6、高性能计算与高性能计算机
(4) 近几年来Top1的机器
•
•
•
•
•
•
•
•
•
•
•
2001年,为IBM ASCI WHITE,LINPACK峰值为12TFLOPS,处理器数目为8192。
2002年—2004年上半年,为NEC Earth-Simulator,LINPACK峰值为40TFLOPS,处
理器数目为5120。
2004年下半年—2007年11月,为IBM BlueGene,LINPACK峰值为478TFLOPS,处
理器数目为212992。
2008年6月,为IBM Roadrunner(走鹃),LINPACK峰值为1.026PFLOPS,处理
器核数目为122400。
2009年6月,为IBM Roadrunner(走鹃),LINPACK峰值为1.105PFLOPS,处理
器核数目为129600。
2009年11月- 2010年6月, 为Jaguar,峰值为1.759PFLOPS,处理器核数目为
224162。
2010年11月, 为TH-1A,峰值为2.566PFLOPS,处理器核数目为186368。
2011年6月-11月,为K computer,峰值为10.51PFLOPS,处理器核数目为
705024。
2012年6月, 为Sequoia,峰值为16.325PFLOPS,处理器核数目为1572864。
2012年11月, 为Titan,峰值为17.59PFLOPS,处理器核数目为560640。
2013年11月, 为Tianhe-2,峰值为33.86PFLOPS,处理器核数目为3120000。
50
6、高性能计算与高性能计算机
6.3 高性能计算的应用
(1) 从传统的应用到新兴应用
•
过去:物理和工程科学是计算和计算机科学应用驱动者。
•
现今:像生物科学(从基于实验发展为基于计算、从个体研究发展为跨学
科研究、从注意数值技术发展为生物医学计算方法等 ) 等是计算和计算机
科学的受益者。
•
将来:社会科学和人文科学则是计算和计算机科学的主要消费者。
(2) 传统的科学与工程计算
•
科学工程计算的共性:在过去20年,计算物理是应用的主要驱动力,这
类应用具有如下共同特点:
① 应用程序常常由定义在R3×t子空间的一组PDE所描述。
② 多物理模拟的不同物理区域的计算方法各不相同。
③ 很多应用均主要集中在大学和研究所。
•
研究侧重点
① 离散化PDE及其相应的线性/非线性方程的求解。
② 强调并行机的速度和问题求解精度。
③ 很少关心相关的I/O操作。
51
6、高性能计算与高性能计算机
•
并行化方法与编程模型
① 并行化方法:最常使用区域分解法。
② 编程模型:最常使用数据并行。
(3) 与社会相关的新兴应用
•
新应用的共性:最近几年,与社会相关的应用急剧增加与传统的计算应
用分享市场空间,其共性是:
①
②
③
④
•
应用问题常常由图来定义,而不是离散的R3空间。
计算过程中的交互常是全局性的,而不是通过边界来交换信息的。
新出现的应用,无相应的使用经验和成熟的软件。
很多应用常集中在与社会相关的国计民生方面。
研究侧重点
① 建立诚信机制:包括硬件、软件、人机界面、安全协议的使用等。
② 巨量的数据,而不是科学计算,将是此类应用的主要处理对象,I/O是最为关
心的。
③ 数据的安全、属主、管理等带来一系列技术、法律和人道等问题。
52
7、高性能计算面临大数据的挑战
7.1 计算模型的转变:从Scale-up到Scale-out
(1) 传统的高性能(High Performance)并行处理模型基于“Scale-up”
•
所谓机器的性能(Performance)是指:机器能做计算的能力(Capability,
Ability to do computation)。
•
所谓“Scale-up”意思是指:在并行系统中,利用增多处理器的数目而维
持机器性能(即计算能力)的提高。
(2) 大数据使用的是高通量(High Throughput)并行处理模型“Scaleout”
•
所谓吞吐量(Throughput)是指:穿过系统(进程)的数据项(Items)
的数目(Amount of number of items)。
•
所谓“Scale-out”意思是指:在分布式系统中,利用连续不断地加入低成
本的计算和存储节点而维持系统吞吐率的增加。
53
7、高性能计算面临大数据的挑战
7.2 系统结构的转变:从HP到HT
(1) 传统的高性能计算使用大规模并行处理结构
•
大规模并行处理(MPP:Massively Parallel Processing)系统结构
•
MPP特点
①
②
③
④
处理器节点采用商用微处理器。
系统中有物理上分布的存储系统。
处理器节点间采用定制的高带宽、低延迟的互连网络。
整个系统扩充到成千上万乃至更多的处理器。
54
7、高性能计算面临大数据的挑战
(2) 大数据处理利用高通量分布处理结构
•
分布自治的工作站机群(COW:Cluster of Workstations)系统结构
•
机群的特点
①
②
③
④
每个节点是一台独立自治的PC机或服务器工作站等。
各节点之间通过标准商用或低成本的网络(千兆位以太网等)连接。
整个系统可包含成百上千乃至更多的服务器。
为适应大数据需要,系统中需配置不同形式的诸如固态存储器(SSD)和高容
量的SATA硬盘等磁盘阵列。
55
7、高性能计算面临大数据的挑战
7.3 编程模型的转变:从BSP到MR
(1) 大规模并行编程常使用大同步并行模型
•
大同步并行(BSP:Bulk Synchronous Parallel)计算模型
•
计算步骤
在BSP模型中,计算是由一系列超步(Supper step)组成,在每一个超步
中,首先各个处理器(或进程)均各自执行自己的局部计算;然后通过
接收/发送施行全局通信;最后施行路障同步。如此重复直至完成计算。
56
7、高性能计算面临大数据的挑战
(2) 大数据并行处理常使用映射-归约
引擎
•
映射-归约(MR:Map-Reduce)
大数据处理引擎:实际上是一种先
“分”后“合”的数据处理方式。
•
右图所示,采用MapReduce来统计
集合形状数量:①先把任务分配到
两个节点上分别并行统计,②把结
果汇总,得到最终结果。
•
处理作业(Job)步骤:
在MR中,一个作业(Job)被提交
给主节点(Master node),由其将
任务(Tasks)指派给各个工作节点
(Worker nodes),进行分布并行
处理:即经过“Map”将存储在DFS
中的海量数据分割成若干部分,由
各个工作节点并行处理;经
“Reduce”把各工作节点处理后的
结果,进行汇总写入到输出DFS中去。
57
7、高性能计算面临大数据的挑战
7.4 应用方式的转变
(1) 高性能计算(HPC)的应用
•
应用对象(用户):基本上是从事科学研究的大型工程计算的科学家和
工程师们。
•
应用模式:高性能计算(HPC)运营模式基本上是采用向计算中心事先预
约,独占计算资源,分时使用,统一付费的传统科学工程计算模式。
(2) 大数据处理的应用
•
应用对象(用户):大都是广大的大数据分析从业人员。
•
应用模式:大数据处理的运营模式是从业人员通过互联网络,对基于云
计算的基础设施(存储和计算资源等)施行资源租用、即用即约、虚拟
占用、按量付费的云计算运营模式。
58
7、高性能计算面临大数据的挑战
7.5 其他方面的转变
(1) 计算模式的转变
•
以计算为中心转向以数据为中心:传统的高性能计算主要以计算为中心,
着重研究算法以及复杂性;而大数据时代除了研究计算外,更重要的是
要研究计算对象,即数据的复杂性。
•
以离线批处理计算转向实时流计算:大规模科学工程计算往往是采用离
线批处理集中计算方式;而大数据时代通常采用在其生命周期内呈现的
一连串连续变化数据的实时流计算模式。
(2) 数据存储的转变
•
从集中式存储转向分布式存储:传统的高性能计算,数据通常集中存储
在磁盘、磁带等外部存储器中;而大数据时代文件系统往往存储在不同
层次的分布式存储器中。
•
从以行存储转向以列存储:传统的高性能计算,存储在关系数据库中的
文件将记录按行排序存储;而大数据时代,将文件记录的相同字段作为
一个列簇而聚合存储。
59
8、结论
8.1 物联网(IOT)、大数据(BD)、云计算(CC)生态链
①
④
IOT
BD
②
③
CC
⑤
HPC
[注]: ① IOT通过采集与捕获产生了BD;
② BD为CC找到了更多的实际应用;
③ CC为BD提供了弹性可扩展的存储和并行处理能力;
④ BD使IOT产生了大价值;
⑤ 云计算与高性能计算是一对出生时被分开的“双胞胎”;云计算改变了
高性能计算的运营模式;两者结合(高性能云计算)则变成了“超常双人”。
8.2 “各领风骚十数年”
•
•
•
•
计算科学是随着时间快速变化的学科:从串行计算→并行计算→分布式计
算→网络计算→网格效用计算→云计算等。各个计算学科,不是各领风骚
“数百年”,可能只是“十数年”!
计算机各学科的出现与变化:“制无美恶,期于适时;变无迟速,要在
当可。”(严复:宪法大义)
现在“大数据浪潮席卷全球”,“大数据潮流浩浩荡荡”,大数据时代
已经到来了。我们要“顺乎时代之潮流”不断学习新知识,与时俱进,
跟上时代之步伐!
计算机事业永远是年轻人的天下,大数据对年轻的一代而言,既是挑战
更是机遇,“无限风光在险峰”!
60
谢谢!
恳请大家批评指正!
61