演讲主题下载ppt

Download Report

Transcript 演讲主题下载ppt

大数据时代的数据观
雷涛
Chair, SNIA China, Technical Committee
天云大数据
SNIA Legal Notice
Bigdata Lab
The material contained in this tutorial is copyrighted
by the SNIA.
Member companies and individuals may use this
material in presentations and literature under the
following conditions:
Any slide or slides used must be reproduced without
modification
The SNIA must be acknowledged as source of any material
used in the body of any document containing material from
these presentations.
This presentation is a project of the SNIA Bigdata Lab
© 2013 Storage Networking Industry Association. All Rights Reserved.
2
Bigdata Lab
Evolution of Information
Information
Storage
Data
Management Management Management
Configuration,
Topology,
RAID
Data service
Volume mgmt, mirror
Replication, snapshot,
Backup, DR
ILM,
Sharing,
searching,
Collaboration,
BIG DATA
ERA
© 2013 Storage Networking Industry Association. All Rights Reserved.
Bigdata Lab
存储与计算的融合
Code
Storage + Server = Storver
Mass data
© 2013 Storage Networking Industry Association. All Rights Reserved.
4
信息技术的革新与颠覆
Bigdata Lab
允许我们使用纪录大规模人类行为活动的全量数据
全量数据,告诉了我们更多宏观统
计意义上的事实。
量尺、天平、显微镜是我们认知传统
物理世界的工具。
而今天,能够如上帝般掌控全量数据,
依赖于创新的信息技术,计算机不再
只是打字、记账、通讯工具,
大数据帮助我们重新认识探
索世界
© 2013 Storage Networking Industry Association. All Rights Reserved.
大数据不仅服务于决策,更是新的生产力
Bigdata Lab
示例:精确城市用电统计控制
动画中实时记录了每一座建筑的用电情
况,酒店因party而在周末达到峰值,
区域的用电情况并不均衡…
智能电表的应用引爆了数据激增,数据
从12条每年增至400TB(10万人口的城
镇每15秒采集)。但数据形成了新的生
产力,不仅是预测,更可精确指导送电
和发电。
如同工业时代的机器人批量生产工业品,
信息时代大数据在规模化自动化加
工新的生产资料(数据),形成新的生产
力。
大数据生产力并不仅仅是供人类使用的
洞察与决策,更可直接嵌入生产环节,
机器指导机器,形成新的控制闭环,服
务于工业、农业、商业、服务业等,相
对于互联网的注意力经济,大数据构建
了一张更为广阔的产业蓝图。
Bigdata is more about Automation than Insight
© 2013 Storage Networking Industry Association. All Rights Reserved.
Bigdata Lab
信息处理的角色演进
Technology
Information
分类
聚类
行为计算
存储
检索
语义计算
机器
学习
Ranking
建模
视觉计算
计算
© 2013 Storage Networking Industry Association. All Rights Reserved.
7
多样化数据的全量计算
Bigdata Lab
语义内容
行为关系网络
视觉信息
© 2013 Storage Networking Industry Association. All Rights Reserved.
8
据
唤醒更多沉睡在系统中的数据价值
Bigdata Lab
信息支撑系统更多面向流程与交易,与“收入”相关。而支配企业核心价值的“知识”获取,需要我
们关注应用系统生产出的大量副产品——数据;
在海量非结构化数据中,数据的价值被稀释,需要大数据手段将稀释价值的数据,收集,提炼,识别,计算。
示例:“机器解读电子病历”——服务于医院、药厂、药品监管部门、疾病预防监控部门等
挂
号
收
费
凭
证
诊
断
记
录
处
方







 收费凭证




对诊断及处方内容进行提取
分词、新词识别
辨别文本内容中的词性
分析症状、诊断与用药
© 2013 Storage Networking Industry Association. All Rights Reserved.
9
疾病辅助判别;
诊断参考;
用药指导;
疾病预防及控制;
流行病统计监控;
药品监督;
…
对更广泛的内容做“计算”
Bigdata Lab
对帐单中的数字求和“Sum”=能否对文章做缩略 ?
基于条件的选择“Select” = 海量内容的主题抽取?
基于条件的“Group by”=语义内容的相似度计算?
基于条件的“Sort”=关键词在主题上的倾向性度量?
示例:通过机器学习,计算语义内容, 了解用户真实消费行为
Wal-Mart 低值消费的主妇?
Starbucks 休闲消费的白领?
Babyface 疯狂消费的新新人类?




对诊断及处
方内容进行
提取
分词、新词
识别
辨别文本内
容中的词性
分析症状、
诊断与用药
消费指数、消费类别、
消费行为、消费偏好…
以前,我们通过数字(消费金额)了解客户群
© 2013 Storage Networking Industry Association. All Rights
Reserved.
10
今天,我们通过内容识别客户,帐单中除了数字,
文字也是可以被计算
新数据维度的计算,洞察数据的更深度价值
Bigdata Lab
面对流感这样的突发性疫情,利用互联网信息可以快速
确认疫情分布。传统做法是通过搜索引擎技术对相关
关键词进行主题跟踪,得到疫情分布。Google最早利用
大数据技术对美国流感分布情况进行预测,并取得成功。
针对不久前我国爆发的H7N9禽流感,天云大数据公司
采用语义空间主题投影方式,跟踪了数百个相互关联
的信息点,建立语义网络,在二度以上传播空间的深度
挖掘,从而发现了更多不为认知的事实。
豆粕
鸡
流感
发热
H7N9
将主题热度与豆粕价格做比较出明显的负相关性,这对于期货公司而言,这些碎片化的公共的信息
价值,具有巨大经济价值。
© 2013 Storage Networking Industry Association. All Rights Reserved.
Bigdata Lab
行为计算
示例:交往圈识别
CDR话单
一直在使用传统数据库存储处理
CDR,但关系型数据库恰恰不能计
算复杂关系和传播。
基于大数据处理及分析技术的交往圈运算
全量用户真实的交往圈
机器学习算法:
•
•
•
•
•
垃圾用户
•主叫多
• 通话人之间无社交关系
• 通话时间短
•…
最大边缘算法
最大连通图
最短路径
Hip-Hop社交圈分析
…
基于大数据技术的交往圈识别与分析
© 2013 Storage Networking Industry Association. All Rights Reserved.
优质用户
•互动
• 社交圈
• 通话时间长
•…
Bigdata Lab
视觉计算
•
•
•
以图找图;基于色彩,纹理,
变换特征,无关扭曲、缩放、
旋转、变形。
•
构建脸谱空间;
每一个模糊的马赛克后面都
有数千张清晰的图片;
在所有的脸谱空间上投影,
目标脸;
找到
© 2013 Storage Networking Industry Association. All Rights Reserved.
Q&A / Feedback
Bigdata Lab
Please send any questions or comments on this
presentation to SNIA: Bigdata Lab
Bigdata Lab, SNIA China were support by Beagledata
© 2013 Storage Networking Industry Association. All Rights Reserved.
14