BigData-潘正祥.ppt

Download Report

Transcript BigData-潘正祥.ppt

大数据的概念,
计算及产业未来
潘正祥
福建工程学院
信息科学与工程学院
2015.10.23
报告提纲
大数据的概念
大数据的计算方案
大数据的产业未来
大数据的概念
“大数据”的诞生:
进入21世纪,数据信息大发展,移动互联、社交网络、电子商务等极大拓展
了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。产生了“大数据”
的概念。
…
电子商务
facebook
社交网络
…
淘宝、
ebuy
互联网(社交、搜索、电商)、移动
互联网(微博)、物联网(传感器,
智慧地球)、车联网、GPS、医学影
像、安全监控、金融(银行、股市、
保险)、电信(通话、短信)都在疯
狂产生着数据。
特种行业:航天、航空?
…
微博、
Apps
移动互联
大数据的概念
大数据的数据量
地球上至今总共的数据量:
TB
EB
PB
GB
1PB (拍字节) = 2^50字节
1EB (艾字节) = 2^60字节
1ZB (泽字节) = 2^70字节
ZB
2006 年:个人用户才刚迈进TB时代;
全球一共新产生了约180EB的数据;
2011 年:数字达到了1.8ZB。
据预测:
2020 年:数据总量将会增长44 倍;
达到35.2ZB(1ZB=10 亿TB)。
大数据的概念
大数据的4V特征
Volume
Variety
数据量巨大
结构样式多样
2020 年:数据总量将会增长44 倍;达到35.
2ZB(1ZB=10 亿TB)。
今的数据类型早已不是单一的文本形式,订单、日
志、音频,能力提出了更高的要求
value
Velocity
冗余大,有价值密度低
处理要求实时
以视频为例,一部一小时的视频,在连续不间断监
控过程中,可能有用的数据仅仅只有一两秒。如何
通过强大的机器算法更迅速地完成数据的价值“提
纯”是目前大数据汹涌背景下亟待解决的难题
大数据区分于传统数据最显著的特征。如今已是ZB
时代,在如此海量的数据面前,处理数据的效率也
是重要的问题之一。
大数据的概念
大数据的构成
大数据 = 海量 + 复杂类型
海量交易数据:
企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、
通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了
解过去发生了什么。
海量交互数据:
源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括
了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过
管理文件传输Manage File Transfer协议传送的海量图像文件、Web文本和
点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。
海量数据处理:
大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源
码、在商品硬件群中运行的Apache Hadoop。
大数据的概念
技术领域的挑战
1、数据库技术
传统的数据库部署不能处理数TB 级别的数据,急速膨胀的数据体量即将超越传统数据库的管理能
力。
如何构建全球级的分布式数据库,可以扩展到数百万的机器,数已百计的数据中心,上万亿的行数
据。
经典数据库技术并没有考虑数据的多类别(variety),在设计的一开始是没有考虑非结构化数据的。
2、实时性的技术挑战:
大的数据量对目前的处理器的实时性要求;
3、数据分析技术
目前的分析技术不能适用于大数据量的分析技术;
大数据的概念
相关技术
 分析技术:
•
•
•
•
数据处理:自然语言处理技术
统计和分析:A/B test; top N排行榜;地域占比;
文本情感分析
数据挖掘:关联规则分析;分类;聚类
模型预测:预测模型;机器学习;建模仿真
中提取有意义的信息,是大
数据应用的终极目标。
 数据采集存储技术:
•
•
•
•
通过大数据计算,从大数据
数据采集:ETL工具
数据存取:关系数据库;NoSQL;SQL等
基础架构支持:云存储;分布式文件系统等
计算结果展现:云计算;标签云;关系图等
数据采集
数据管理
数据储存
数据分析与挖掘(计算)
报告提纲
大数据的概念
大数据的计算方案
大数据的产业未来
大数据的计算方案
大数据计算面临的主要技术问题:
需要提供一个高效稳定的存储和计算引擎
如何支撑1万、10万台以上的机群规模?
• 多集群架构,运维和管理系统
如何在一个平台上支持多个组织的多个用户进行开发?
• 多租户支持,安全隔离,权限控制
如何了解业务运行状态?
• 元数据管理,指标系统
如何管理不同种类的任务?
• 服务化,统一计算入口,可度量和控制的计算资源
快速查询,精准搜索,智能分析…
大数据的计算方案
大数据计算架构-模型
智能分析
大规模计算
海量数据存储
分布式文
件系统
机器学习
数据挖掘
语义搜索
……
分布式并行计算系统
海量结构化数据存储系统
(SQL)
海量非结构化数据存储系统
(SQL)
分布式文件系统
大数据的计算方案
大数据计算的支持技术:云计算
•
•
•
云计算被认为是大数据计算的最有前途的技术;
数据是资产,云为数据资产提供存储、访问和计算。
当前云计算更偏重海量存储和计算,以及提供的云服务,运行云应用,但是缺乏盘
活数据资产的能力,挖掘价值性信息和预测性分析。
大数据的计算方案
举例:阿里巴巴
□ 淘宝主站(2011年): □ 数据产品(2011年) :
• 30亿店铺、宝贝浏览• 50G统计汇总结果
• 10亿计的在线宝贝数• 千万量级数据查询请求
• 千万量级交易笔数 • 平均20.8ms的响应时间
数据来源:阿里相关技术介绍ppt
大数据的计算方案
举例:阿里技术架构总览
数据来源:阿里相关技术介绍ppt
大数据的计算方案
举例:百度
数据来源: 2011年百度云计算总工程
师林仕鼎讲座《百度云计算总体介绍》
数据来源: 2012.10 百度杨毅
讲座《百度的下一代计算系统》
大数据的计算方案
举例:百度技术架构
数据来源: 2011年百度云计算总工程师林仕鼎讲座《百度云计算总体介绍》
大数据的计算方案
举例: 中信银行信用卡中心
大数据
挑战
发卡量增长迅速:2008年发卡约500万张,2010年增加了一倍。
业务数据增长迅速:随着业务的迅猛增长,业务数据规模也线性膨
胀。
数据存储、系统维护、数据有效利用都面临巨大压力。
需求
可扩展、高性能的数据仓库解决方案
能够实现业务数据的集中和整合;可以支持多样化和复杂化数据分析
提升信用卡中心的业务效率;通过从数据仓库提取数据,改进和推动
有针对性的营销活动。
EMC
Green
-plum
采用大数
据方案后
价值体现
17
实时的商业智能
可以结合实时、历史数据进行全局分析,风险管理部门现在可以每天评
估客户的行为,并决定对客户的信用额度在同一天进行调整;原有内
部系统、模型整体性能显著提高
秒级营销
Greenplum数据仓库解决方案提供了统一的客户视图,更有针对的进
行营销。2011年,中信银行信用卡中心通过其数据库营销平台进行了
1286个宣传活动,每个营销活动配置平均时间从2周缩短到2-3天。
大数据的计算方案
举例: 农夫山泉
大数据
挑战
需求
农夫山泉数据量变得越来越大,分销表中数据基数大,增速快,数据
展现速度越来越慢;
数据运算速度越来越慢,已经让人无法忍受,影响业务的正常进行;
数据更新慢,采用传统的ETL(数据抽取、转换、装载),农夫山泉的分
析系统数据基本上一天才能更新一次。
能够应对海量数据的挑战,实现高效的逻辑运算、实时的数据分析以
及快速的数据展现的解决方案。
SAP
HANA
采用大数
据方案后
价值体现
18
实现了快速的数据展现
与原有商业智能报表展现方案相比,新方案数据展现速度快25-30倍;
形成了强大逻辑计算能力
测试了120多张已经上线的报表,基本上速度提升100~150倍;SAP
HANA和Business Objects 4.0组合只用了46秒就完成原来需要24小时
才能完成的逻辑计算;
实现了数据的实时、同步
HANA使得数据从业务系统中转换到HANA中时基本上没有任何延迟。
大数据的计算方案
举例: IBM“数字黄河”
大数据
挑战
需求
数据激增,IT系统负担加重;
地域分隔,信息孤岛拉低效能;
无法共享,数据同步成为难题;
标准各异,数据规范有待统一。
制定短期和长期技术规划,以适应未来信息系统的发展。
IBM
InfoSphere
采用大数
据方案后
价值体现
19
解决跨平台异构应用系统的数据共享与集成问题
黄河水利委员会各部门随时获取其权限范围内的最新数据,而无须将
其存储在本部门系统中;
消除信息孤岛,实现数据统一管理
有效消除了各业务系统和各组织结构之间的信息孤岛,简单获取黄河
数据资源的单一视图,并确保了数据的完整性、及时性、准确性和一
致性,同时首次实现元数据的可视化统一管理
报告提纲
大数据的概念
大数据的计算方案
大数据的产业未来
大数据的产业未来
政府的重视
•重视应用大数据技术,盘活各地云计算中心资产:
把原来大规模投资产业园、物联网产业园从政绩工程,
改造成智慧工程;
•在安防领域,应用大数据技术,提高应急处置能力
和安全防范能力;
•在民生领域,应用大数据技术,提升服务能力和运
作效率,以及个性化的服务,比如医疗、卫生、教育
等部门;
•解决在金融,电信领域等中数据分析的问题:一直
得到得极大的重视,但受困于存储能力和计算能力的
限制,只局限在交易数型数据的统计分析;
•
国外,美国奥巴马政府在白宫网站发布
《大数据研究和发展倡议》,提出“通过
收集、处理庞大而复杂的数据信息,从中
获得知识和洞见,提升能力,加快科学、
工程领域的创新步伐,强化美国国土安全,
转变教育和学习模式” ;
•
国内,中国工程院院士邬贺铨说道,“智
慧城市是使用智能计算技术使得城市的关
键基础设施的组成和服务更智能、互联和
有效,随着智慧城市的建设,社会将步入
“大数据”时代。”
智能
感知
政府投入将形成示范效应,大大推动大数据
的发展。
协同
“智慧
互联
共享
大脑”
互通
智能
运营
大数据的产业未来
应用企业的重视
数据的再利用:
由于在信息价值链中的特殊位置,有些公司可能会收集到大量的数据,但他们并不急需
使用也不擅长再次利用这些数据。例如,移动电话运营商手机用户的位置信息来传输电话
信号,这对以他们来说,数据只有狭窄的技术用途。但当它被一些发布个性化位置广告服
务和促销活动的公司再次利用时,则变得更有价值。
大数据价值链的3大构成:数据本身、技能与思维
其中三者兼具的又谷歌公司,谷歌在刚开始收集数据的时候就已经有多次使用数据的想
法。比方说,它的街景采集车手机全球定位系统数据不光是为了创建谷歌地图,也是为了
制成全自动汽车以及谷歌眼镜等与实景交汇的产品。
传统行业最终都会转变为大数据行业,无论是金
融服务也、医药还是制造业。
《大数据时代》
大数据的产业未来
产业分布
契合度
优先关注行业用户
值得关注行业
用户
应有特点与大
数据的契合度
及应用可能性
综合较高
政府(公共事业)
互联网(电
子商务)
High
医疗
电信
制造
能源(电力/
石油)
适当关注行
业用户
Mid
教育
两个维度暂
时都不具备
优势,可适
当给予关注
零售
金融
流通
• 纵轴契合度:
表示该用户的IT应用特
点与大数据特性的契合
程度;
• 横轴应用可能性:表示
该用户出于主客观因素
在短期内投资大数据的
可能性;
交通
• 注:
该位置为分析师访谈的
综合印象,为定性分析,
图中位置不代表具体数
值
Low
23
应用特点与大数据技
术有较高的契合度,
在主客观条件上也有
较高的应用可能性。
Low
Mid
High
应用可能性
大数据的产业未来
互联网行业
互联网行业拥抱大数据的关键因素
网络终端设备
• 网络技术的
升级和终端
设备的爆发,
使今天的用
户能够使用
多种设备、
从不同位置、
通过多种手
段来接入互
联网,并在
这一过程中
不断创造新
内容
在线应用和服
务
与各垂直行业
的融合
• 越来越丰富
的在线应用
和服务,不
断激励用户
创造和分享
信息,尤其
是社会化媒
体业务,带
动图片、视
频等非结构
化数据飞速
增长
• 互联网作为
一个高渗透
力的行业,
正在与各垂
直行业发生
深度的融合,
原本隐藏于
先下的孤岛
信息,源源
不断的输入
到线上。
互联网大数据技术的应用,会首先带动社会化媒体、
电子商务的快速发展,其他的互联网分支也会紧追
其后,整个行业在大数据的推动下将会蓬勃发展。
互联网行业大数据分析面临的主要问题
互联网行业对数据实时分析要求较高,
例如广告监测、B2C业务,往往要求在
数秒内返回上亿行数据的分析,从而达
到不影响用户体验和快速准确营销的目
的。
目前互联网企业面对大数据,会普遍
感觉到实时分析能力差、海量数据处理
效率低、缺少分析方法、分析软件能力
差等问题。
大数据的产业未来
医疗行业
医疗行业产生的数据量主要来
自于PACS影像、B超、病理分
析等业务所产生的非结构化数据。
人体不同部位、不同专科影像的
数据文件大小不一,PACS网络
存储和传输要采取不同策略。面
对大数据,医疗行业遇到前所未
有的挑战和机遇。
医疗数据透明度
远程病人监控
临床操作
临床决策支持系统
比较效果研究
医疗行业大数据应用场景非常
多,右图仅以临床操作和研发为
例,展示医疗行业大数据应用场
景。
对于公共卫生部门,可以通过
过覆盖全国的患者电子病历数据
库,快速检测传染病,进行全面
的疫情监测,并通过集成疾病监
测和响应程序,快速进行响应。
25
预测建模
研发
疾病模式的分析
提高临床试验设计的统计工具和算法
大数据的产业未来
能源行业
能源勘探开发数据的类型众多,不同类型数据
包含的信息各具特点,综合各种数据所包含的
信息才能得出地下真实的地质状况。
26
能源行业面临的大数据问题
能源行业企业对大数据产品和解决方案的需
求集中体现在:可扩展存储、高带宽、可处理
不同格式数据的分析方案。
大数据的产业未来
1
2011年-2016年中国大数据市场规模
计世资讯认为,2011年是中国大数据市场元年,
一些大数据产品已经推出,部分行业也有大数据
应用案例的产生。2012年-2016年,将迎来大数
据市场的飞速发展。
计世资讯预测,2012年中国大数据市场规模将
达到4.7亿元,2013年大数据市场将迎来增速为
138.3%的飞跃,到2016年,整个市场规模逼近
百亿。
2
2012年各行业大数据市场规模
计世资讯预测,2012年政府、互联网、电信、
金融的大数据市场规模较大,四个行业将占据一
半市场份额。
由于各个行业都存在大数据应用需求,潜在市
场空间非常可观。
大数据的产业未来
企业大数据应用需求分析
1
目前企业的数据系统架构存在问题
各行业企业对大数据的关注程度
3
28
2
目前企业数据分析处理面临的问题
大数据的产业未来
互联网行业大数据主要应用在社交和网购方面
1
互联网行业大数据应用场景
100%
2
结合位置数据、消费数据进行实时营销信息推送是电
信行业大数据应用主要场景
75.5%
80%
80%
60%
电信行业大数据应用场景
100%
83.4%
76.6%
60%
51.6%
42.3%
39.4%
40%
40%
30.7%
20.9%
20%
0%
0%
社交网络
B2C业务
精准营销 在线音视频 广告监测
业务
数据来源:CCW Research, 2012/4
金融行业大数据应用场景主要集中在投资方面
3
15.9%
20%
金融行业大数据应用场景
100%
实时营销
线路监控
新业务挖掘
业务推送
数据来源:CCW Research, 2012/4
4
制造行业具有多环节、多地域特色,各个环节的优
化是制造行业最关注的大数据应用场景
制造行业大数据应用场景
100%
80.9%
73.1%
80%
80%
60.3%
60%
57.0%
40%
20%
20%
50.9%
24.8%
0%
证券/股票投资
险种开发
信用卡欺诈
电子支付业务
数据来源:CCW Research, 2012/4
29
66.3%
60%
40%
0%
72.5%
供应链优化
产品研发
仓储监控
企业统一管理
数据来源:CCW Research, 2012/4
总结
• 1. 大数据对当前数据库技术和计算技术提出技术挑战;
• 2. 大数据计算与分析当前需求紧迫,产业未来前景广阔;
• 3. 云计算技术是解决大数据计算的最有前途的技术;
• 4. 中国的大数据产业前景广阔,涉及到各个行业,有效解决大数
据计算的问题,对于拓展行业应用具有重要意义。
30