BigData-潘正祥.ppt
Download
Report
Transcript BigData-潘正祥.ppt
大数据的概念,
计算及产业未来
潘正祥
福建工程学院
信息科学与工程学院
2015.10.23
报告提纲
大数据的概念
大数据的计算方案
大数据的产业未来
大数据的概念
“大数据”的诞生:
进入21世纪,数据信息大发展,移动互联、社交网络、电子商务等极大拓展
了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。产生了“大数据”
的概念。
…
电子商务
facebook
社交网络
…
淘宝、
ebuy
互联网(社交、搜索、电商)、移动
互联网(微博)、物联网(传感器,
智慧地球)、车联网、GPS、医学影
像、安全监控、金融(银行、股市、
保险)、电信(通话、短信)都在疯
狂产生着数据。
特种行业:航天、航空?
…
微博、
Apps
移动互联
大数据的概念
大数据的数据量
地球上至今总共的数据量:
TB
EB
PB
GB
1PB (拍字节) = 2^50字节
1EB (艾字节) = 2^60字节
1ZB (泽字节) = 2^70字节
ZB
2006 年:个人用户才刚迈进TB时代;
全球一共新产生了约180EB的数据;
2011 年:数字达到了1.8ZB。
据预测:
2020 年:数据总量将会增长44 倍;
达到35.2ZB(1ZB=10 亿TB)。
大数据的概念
大数据的4V特征
Volume
Variety
数据量巨大
结构样式多样
2020 年:数据总量将会增长44 倍;达到35.
2ZB(1ZB=10 亿TB)。
今的数据类型早已不是单一的文本形式,订单、日
志、音频,能力提出了更高的要求
value
Velocity
冗余大,有价值密度低
处理要求实时
以视频为例,一部一小时的视频,在连续不间断监
控过程中,可能有用的数据仅仅只有一两秒。如何
通过强大的机器算法更迅速地完成数据的价值“提
纯”是目前大数据汹涌背景下亟待解决的难题
大数据区分于传统数据最显著的特征。如今已是ZB
时代,在如此海量的数据面前,处理数据的效率也
是重要的问题之一。
大数据的概念
大数据的构成
大数据 = 海量 + 复杂类型
海量交易数据:
企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、
通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了
解过去发生了什么。
海量交互数据:
源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括
了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过
管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和
点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。
海量数据处理:
大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源
码、在商品硬件群中运行的Apache Hadoop。
大数据的概念
技术领域的挑战
1、数据库技术
传统的数据库部署不能处理数TB 级别的数据,急速膨胀的数据体量即将超越传统数据库的管理能
力。
如何构建全球级的分布式数据库,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数
据。
经典数据库技术并没有考虑数据的多类别(variety),在设计的一开始是没有考虑非结构化数据的。
2、实时性的技术挑战:
大的数据量对目前的处理器的实时性要求;
3、数据分析技术
目前的分析技术不能适用于大数据量的分析技术;
大数据的概念
相关技术
分析技术:
•
•
•
•
数据处理:自然语言处理技术
统计和分析:A/B test; top N排行榜;地域占比;
文本情感分析
数据挖掘:关联规则分析;分类;聚类
模型预测:预测模型;机器学习;建模仿真
中提取有意义的信息,是大
数据应用的终极目标。
数据采集存储技术:
•
•
•
•
通过大数据计算,从大数据
数据采集:ETL工具
数据存取:关系数据库;NoSQL;SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现:云计算;标签云;关系图等
数据采集
数据管理
数据储存
数据分析与挖掘(计算)
报告提纲
大数据的概念
大数据的计算方案
大数据的产业未来
大数据的计算方案
大数据计算面临的主要技术问题:
需要提供一个高效稳定的存储和计算引擎
如何支撑1万、10万台以上的机群规模?
• 多集群架构,运维和管理系统
如何在一个平台上支持多个组织的多个用户进行开发?
• 多租户支持,安全隔离,权限控制
如何了解业务运行状态?
• 元数据管理,指标系统
如何管理不同种类的任务?
• 服务化,统一计算入口,可度量和控制的计算资源
快速查询,精准搜索,智能分析…
大数据的计算方案
大数据计算架构-模型
智能分析
大规模计算
海量数据存储
分布式文
件系统
机器学习
数据挖掘
语义搜索
……
分布式并行计算系统
海量结构化数据存储系统
(SQL)
海量非结构化数据存储系统
(SQL)
分布式文件系统
大数据的计算方案
大数据计算的支持技术:云计算
•
•
•
云计算被认为是大数据计算的最有前途的技术;
数据是资产,云为数据资产提供存储、访问和计算。
当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘
活数据资产的能力,挖掘价值性信息和预测性分析。
大数据的计算方案
举例:阿里巴巴
□ 淘宝主站(2011年): □ 数据产品(2011年) :
• 30亿店铺、宝贝浏览• 50G统计汇总结果
• 10亿计的在线宝贝数• 千万量级数据查询请求
• 千万量级交易笔数 • 平均20.8ms的响应时间
数据来源:阿里相关技术介绍ppt
大数据的计算方案
举例:阿里技术架构总览
数据来源:阿里相关技术介绍ppt
大数据的计算方案
举例:百度
数据来源: 2011年百度云计算总工程
师林仕鼎讲座《百度云计算总体介绍》
数据来源: 2012.10 百度杨毅
讲座《百度的下一代计算系统》
大数据的计算方案
举例:百度技术架构
数据来源: 2011年百度云计算总工程师林仕鼎讲座《百度云计算总体介绍》
大数据的计算方案
举例: 中信银行信用卡中心
大数据
挑战
发卡量增长迅速:2008年发卡约500万张,2010年增加了一倍。
业务数据增长迅速:随着业务的迅猛增长,业务数据规模也线性膨
胀。
数据存储、系统维护、数据有效利用都面临巨大压力。
需求
可扩展、高性能的数据仓库解决方案
能够实现业务数据的集中和整合;可以支持多样化和复杂化数据分析
提升信用卡中心的业务效率;通过从数据仓库提取数据,改进和推动
有针对性的营销活动。
EMC
Green
-plum
采用大数
据方案后
价值体现
17
实时的商业智能
可以结合实时、历史数据进行全局分析,风险管理部门现在可以每天评
估客户的行为,并决定对客户的信用额度在同一天进行调整;原有内
部系统、模型整体性能显著提高
秒级营销
Greenplum数据仓库解决方案提供了统一的客户视图,更有针对的进
行营销。2011年,中信银行信用卡中心通过其数据库营销平台进行了
1286个宣传活动,每个营销活动配置平均时间从2周缩短到2-3天。
大数据的计算方案
举例: 农夫山泉
大数据
挑战
需求
农夫山泉数据量变得越来越大,分销表中数据基数大,增速快,数据
展现速度越来越慢;
数据运算速度越来越慢,已经让人无法忍受,影响业务的正常进行;
数据更新慢,采用传统的ETL(数据抽取、转换、装载),农夫山泉的分
析系统数据基本上一天才能更新一次。
能够应对海量数据的挑战,实现高效的逻辑运算、实时的数据分析以
及快速的数据展现的解决方案。
SAP
HANA
采用大数
据方案后
价值体现
18
实现了快速的数据展现
与原有商业智能报表展现方案相比,新方案数据展现速度快25-30倍;
形成了强大逻辑计算能力
测试了120多张已经上线的报表,基本上速度提升100~150倍;SAP
HANA和Business Objects 4.0组合只用了46秒就完成原来需要24小时
才能完成的逻辑计算;
实现了数据的实时、同步
HANA使得数据从业务系统中转换到HANA中时基本上没有任何延迟。
大数据的计算方案
举例: IBM“数字黄河”
大数据
挑战
需求
数据激增,IT系统负担加重;
地域分隔,信息孤岛拉低效能;
无法共享,数据同步成为难题;
标准各异,数据规范有待统一。
制定短期和长期技术规划,以适应未来信息系统的发展。
IBM
InfoSphere
采用大数
据方案后
价值体现
19
解决跨平台异构应用系统的数据共享与集成问题
黄河水利委员会各部门随时获取其权限范围内的最新数据,而无须将
其存储在本部门系统中;
消除信息孤岛,实现数据统一管理
有效消除了各业务系统和各组织结构之间的信息孤岛,简单获取黄河
数据资源的单一视图,并确保了数据的完整性、及时性、准确性和一
致性,同时首次实现元数据的可视化统一管理
报告提纲
大数据的概念
大数据的计算方案
大数据的产业未来
大数据的产业未来
政府的重视
•重视应用大数据技术,盘活各地云计算中心资产:
把原来大规模投资产业园、物联网产业园从政绩工程,
改造成智慧工程;
•在安防领域,应用大数据技术,提高应急处置能力
和安全防范能力;
•在民生领域,应用大数据技术,提升服务能力和运
作效率,以及个性化的服务,比如医疗、卫生、教育
等部门;
•解决在金融,电信领域等中数据分析的问题:一直
得到得极大的重视,但受困于存储能力和计算能力的
限制,只局限在交易数型数据的统计分析;
•
国外,美国奥巴马政府在白宫网站发布
《大数据研究和发展倡议》,提出“通过
收集、处理庞大而复杂的数据信息,从中
获得知识和洞见,提升能力,加快科学、
工程领域的创新步伐,强化美国国土安全,
转变教育和学习模式” ;
•
国内,中国工程院院士邬贺铨说道,“智
慧城市是使用智能计算技术使得城市的关
键基础设施的组成和服务更智能、互联和
有效,随着智慧城市的建设,社会将步入
“大数据”时代。”
智能
感知
政府投入将形成示范效应,大大推动大数据
的发展。
协同
“智慧
互联
共享
大脑”
互通
智能
运营
大数据的产业未来
应用企业的重视
数据的再利用:
由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需
使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话
信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服
务和促销活动的公司再次利用时,则变得更有价值。
大数据价值链的3大构成:数据本身、技能与思维
其中三者兼具的又谷歌公司,谷歌在刚开始收集数据的时候就已经有多次使用数据的想
法。比方说,它的街景采集车手机全球定位系统数据不光是为了创建谷歌地图,也是为了
制成全自动汽车以及谷歌眼镜等与实景交汇的产品。
传统行业最终都会转变为大数据行业,无论是金
融服务也、医药还是制造业。
《大数据时代》
大数据的产业未来
产业分布
契合度
优先关注行业用户
值得关注行业
用户
应有特点与大
数据的契合度
及应用可能性
综合较高
政府(公共事业)
互联网(电
子商务)
High
医疗
电信
制造
能源(电力/
石油)
适当关注行
业用户
Mid
教育
两个维度暂
时都不具备
优势,可适
当给予关注
零售
金融
流通
• 纵轴契合度:
表示该用户的IT应用特
点与大数据特性的契合
程度;
• 横轴应用可能性:表示
该用户出于主客观因素
在短期内投资大数据的
可能性;
交通
• 注:
该位置为分析师访谈的
综合印象,为定性分析,
图中位置不代表具体数
值
Low
23
应用特点与大数据技
术有较高的契合度,
在主客观条件上也有
较高的应用可能性。
Low
Mid
High
应用可能性
大数据的产业未来
互联网行业
互联网行业拥抱大数据的关键因素
网络终端设备
• 网络技术的
升级和终端
设备的爆发,
使今天的用
户能够使用
多种设备、
从不同位置、
通过多种手
段来接入互
联网,并在
这一过程中
不断创造新
内容
在线应用和服
务
与各垂直行业
的融合
• 越来越丰富
的在线应用
和服务,不
断激励用户
创造和分享
信息,尤其
是社会化媒
体业务,带
动图片、视
频等非结构
化数据飞速
增长
• 互联网作为
一个高渗透
力的行业,
正在与各垂
直行业发生
深度的融合,
原本隐藏于
先下的孤岛
信息,源源
不断的输入
到线上。
互联网大数据技术的应用,会首先带动社会化媒体、
电子商务的快速发展,其他的互联网分支也会紧追
其后,整个行业在大数据的推动下将会蓬勃发展。
互联网行业大数据分析面临的主要问题
互联网行业对数据实时分析要求较高,
例如广告监测、B2C业务,往往要求在
数秒内返回上亿行数据的分析,从而达
到不影响用户体验和快速准确营销的目
的。
目前互联网企业面对大数据,会普遍
感觉到实时分析能力差、海量数据处理
效率低、缺少分析方法、分析软件能力
差等问题。
大数据的产业未来
医疗行业
医疗行业产生的数据量主要来
自于PACS影像、B超、病理分
析等业务所产生的非结构化数据。
人体不同部位、不同专科影像的
数据文件大小不一,PACS网络
存储和传输要采取不同策略。面
对大数据,医疗行业遇到前所未
有的挑战和机遇。
医疗数据透明度
远程病人监控
临床操作
临床决策支持系统
比较效果研究
医疗行业大数据应用场景非常
多,右图仅以临床操作和研发为
例,展示医疗行业大数据应用场
景。
对于公共卫生部门,可以通过
过覆盖全国的患者电子病历数据
库,快速检测传染病,进行全面
的疫情监测,并通过集成疾病监
测和响应程序,快速进行响应。
25
预测建模
研发
疾病模式的分析
提高临床试验设计的统计工具和算法
大数据的产业未来
能源行业
能源勘探开发数据的类型众多,不同类型数据
包含的信息各具特点,综合各种数据所包含的
信息才能得出地下真实的地质状况。
26
能源行业面临的大数据问题
能源行业企业对大数据产品和解决方案的需
求集中体现在:可扩展存储、高带宽、可处理
不同格式数据的分析方案。
大数据的产业未来
1
2011年-2016年中国大数据市场规模
计世资讯认为,2011年是中国大数据市场元年,
一些大数据产品已经推出,部分行业也有大数据
应用案例的产生。2012年-2016年,将迎来大数
据市场的飞速发展。
计世资讯预测,2012年中国大数据市场规模将
达到4.7亿元,2013年大数据市场将迎来增速为
138.3%的飞跃,到2016年,整个市场规模逼近
百亿。
2
2012年各行业大数据市场规模
计世资讯预测,2012年政府、互联网、电信、
金融的大数据市场规模较大,四个行业将占据一
半市场份额。
由于各个行业都存在大数据应用需求,潜在市
场空间非常可观。
大数据的产业未来
企业大数据应用需求分析
1
目前企业的数据系统架构存在问题
各行业企业对大数据的关注程度
3
28
2
目前企业数据分析处理面临的问题
大数据的产业未来
互联网行业大数据主要应用在社交和网购方面
1
互联网行业大数据应用场景
100%
2
结合位置数据、消费数据进行实时营销信息推送是电
信行业大数据应用主要场景
75.5%
80%
80%
60%
电信行业大数据应用场景
100%
83.4%
76.6%
60%
51.6%
42.3%
39.4%
40%
40%
30.7%
20.9%
20%
0%
0%
社交网络
B2C业务
精准营销 在线音视频 广告监测
业务
数据来源:CCW Research, 2012/4
金融行业大数据应用场景主要集中在投资方面
3
15.9%
20%
金融行业大数据应用场景
100%
实时营销
线路监控
新业务挖掘
业务推送
数据来源:CCW Research, 2012/4
4
制造行业具有多环节、多地域特色,各个环节的优
化是制造行业最关注的大数据应用场景
制造行业大数据应用场景
100%
80.9%
73.1%
80%
80%
60.3%
60%
57.0%
40%
20%
20%
50.9%
24.8%
0%
证券/股票投资
险种开发
信用卡欺诈
电子支付业务
数据来源:CCW Research, 2012/4
29
66.3%
60%
40%
0%
72.5%
供应链优化
产品研发
仓储监控
企业统一管理
数据来源:CCW Research, 2012/4
总结
• 1. 大数据对当前数据库技术和计算技术提出技术挑战;
• 2. 大数据计算与分析当前需求紧迫,产业未来前景广阔;
• 3. 云计算技术是解决大数据计算的最有前途的技术;
• 4. 中国的大数据产业前景广阔,涉及到各个行业,有效解决大数
据计算的问题,对于拓展行业应用具有重要意义。
30