yzBigData Solution to Netease (中文)

Download Report

Transcript yzBigData Solution to Netease (中文)

云展大数据机
新加坡国立大学/浙江大学数据库研究组
团队简介
• 新加坡国立大学
– 2011年美国新闻(US News)的大学排名中为第28名,亚洲第三
名
– 2011-2012泰晤士报大学排名中为世界第40名,亚洲第三名
– 2012 QS World University Rankings的计算机系排名,国立大学排第
9名
• 基于新加坡国立大学计算机系数据库组的研究团队
– 教授博士导师:3人
– 博士后:3人
– 博士生:16人
– 硕士生:10人
– 研究助理:8人
团队带头人
• 黄铭钧(Ooi Beng Chin)教授
–
–
–
–
–
–
–
–
现任新加坡国立大学计算机学院院长
ACM和IEEE双料院士
2009年SIGMOD贡献奖
2011年新加坡科学家总统奖
2012年IEEE Computer Society Kanai奖
国际知名刊物TKDE的主编
曾多次担任国际顶级会议SIGMOD, VLDB, ICDE的执行委员会主席
共发表国际论文200多篇
团队带头人
• 陈刚教授
– 浙江大学计算机学院副院长
– 近五年来共在研和完成国家863计划项目四项、国防预研项目四项,
国家计委产业化前期项目一项
– 获国家科技进步二等奖一项、国家科技进步三等奖一项、浙江省
科技进步一等奖二项、教育部科技进步二等奖一项,年度浙江省
科技进步三等奖一项
– 开发国产数据库神舟Oscar系统
云展大数据机概述
• 定位:国内大数据分析平台,为应用开发提供支撑
• 特色:
– 软硬件一体化设计
– 对大数据分析应用开发全周期的支持
•
•
•
•
大数据收集
大数据编目(元数据管理)
大数据并行处理引擎
数据可视化、知识查询
– 性能卓越
• 云计算技术
• 并行处理技术
国内大数据市场形势分析
• 数据来源:CCW Research(计世资讯 )是ICT产业权威的
市场研究和咨询机构
• 市场规模
– 2011年开始起步,2012-2016,高速发展
– 2012年为4.7亿元,每年超过100%的增长速度
大数据分析市场行业分布
• 2012年大数据分析需求行业分布
– 政府、互联网、电信、金融的大数据市场规模较大,四个行业将
占据一半市场份额。
• 结论:各个行业都存在大数据应用的需求,潜在市场空间非常可观。
云展大数据机
大数据分析应用
收集网站日志,
交易数据,音频
视频数据,即时
信息……
大数据采集
可扩展数据采集
框架
数据导入
大数据存储
元数据管理
分布式大数据存
储
确立分析目标
编写分析程序
为分析目标生成
报表,趋势图等
大数据处理
大数据可视化
大数据并行处理
引擎
图表生成工具
大数据分析平台
云展大数据机—软件架构
可视化工具
大数据知识库
文本分析工具
结构化数据
分析工具
SQL接口
E3编程接口
MapReduce接口
E3大数据并行处理框架
元数据管理
数据收集框架
基于分布式文件
系统的数据存储
云展大数据机—硬件架构
• 标准机架式设计
–
–
–
–
–
每个机架可容纳40台节点机
节点机通过千兆以太网连接
节点机采用标准PC服务器
可扩展到20个机架
原型机:awan(2个机架,76台节点机)
云展关键技术——E3引擎
pu1
pu2
pu4
pu2
pu4
pu5
pu1
pu5
pu1
pu3
pu5
pu1
PU – processing unit (处理单元)
云 数据存储服务
•
E3将数据处理过程描述为一个线性工作流,工作流中每一个节点称为一个阶
段,每阶段包含若干处理单元,每个处理单元对数据进行部分处理。
E3按照工作流的顺序,并行地调度处理单元在计算节点上运行,自动在处理
单元之间传递中间运算结果,最终完成整个数据处理过程。
云数据 存储服务
•
E3与阿帕奇Hadoop的性能比较
• Grep任务:每个节点535M
• Select任务:每个节点1G
Grep任务
Select任务
混合式数据分析工具
• 同时支持非结构化的文本分析和结构化的数据库分析
• 建立在统一的E3引擎之上,能够进行交互和联合分析
• 支持对海量数据的快速分析,发现其中隐藏的知识、行为
模式等
• 提供描述语言,支持用户进行自定义的数据分析
文本分析工具
结构化数据
分析工具
非机构化分析工具
• 分布式存储和处理模型
– 无需定义表结构
– 数据直接存储与分布式文件系统中
– 自动错误处理和恢复
• 基本的数据访问接口
– put/get: 随机的文档数据读取
– scan: 批量数据扫描
– tokenize: 将文档组织成单词组以提供给上层分析处理
• 分析数据接口
– Extract operator [ɛ]: 提供基于正则表达式和字典的匹配操作
– Select operator [σ]: 提供基于用户选择条件的过滤操作
– Join operator [⋈]: 将来自多个数据源的文档/文字流进行合并
– Consolidate operator [Ω]: 去重操作
•
提供类似于SQL的文本处理分析语言: EPQL
非结构化处理流程
• 每一个EPQL将对特定集合的文档进行处理
• 每个文档将通过4个操作的处理,然后中间结果传给连接
操作和去重操作
• 结果将是符合用户要求的文档或统计内容,比如:
– 查找所有包含关键词:[Cloud] [Computing],在2012年产生的网页
– 统计近一个月内,出现包含钓鱼岛的文档与包含日本车销量内容
的文档的关联度
文本分析示例:用户反馈信息分析
• 在电子商务网站,如京东等,用户购买结束后,会对产品
购买过程及产品本身进行评价,通过分析用户的反馈信息,
可以发现其中的问题
关键问题:发货速度慢,
需要更换物流公司
结构化数据分析
• 结构化数据分析通过维护并定期更新data cube的方式来
提供高效的分析查询结果
• 根据时间戳来实现同时支持实时事务处理和分析查询
分析查询
E3引擎
更新Cube
事务处
理查询
元数据
键值存储系统
实时数据
DataCube
数据分片
分布式文件系统
分布式索引技术
•
•
在结构化分析工具中,系统建立多维的分布式索引以支持高效的并行查找
分布式索引技术
– 建立分布式二级索引
– 支持并发地在多节点上同时查询
– 可以和本地数据库索引连接
– 例如:分布式B树索引结构,
可视化工具
• 将分析结果以报表的形式展现给用户
– 支持线图、饼图、柱装图、趋势图等常用的图表格式
– 标签云以及数据关联挖掘
云展大数据机与其他大数据分析平台的比较
云展大数据机
Greenplum HD
IBM BigInsights
是否一体机
是
是
否
硬件架构
标准
标准
N.A.
大数据收集
框架式设计
手工
手工
元数据管理
支持
不支持
不支持
大数据存储
HDFS
HDFS
HDFS
大数据处理引擎
E3
Hadoop
Hadoop
大数据处理接口
E3,MapReduce,
SQL
MapReduce,HiveQL
MapReduce,Jaql
大数据可视化
支持
不支持
不支持
如何处理分析结果
Elephant DB,支持
检索、外部应用访问
接口
需要倒入Greenplum
Database数据仓库
文件存储,无外部应用访
问接口
分析案例:95598客服服务
• 主要功能包括客户档案查询、电量电费查询、
业务办理进度查询,以及业务受理、故障报修、
咨询受理、投诉举报、消息订阅
• 主要业务流程
用户电话
客户电话记录
语音记录
客户电话记录
• 由客服人员手工录入,包括:
–
–
–
–
电话起止时间
客户身份信息
原因(归类为:电费查询、投诉、保修等几大类)
简单内容概述(不完整,客户人员匆匆记录)
• 当前的处理方式——简单的统计信息:
– 平均电话时常
– 客户分布信息
– 每种电话的统计百分比
• 缺乏深度的分析
– 用户因为什么而投诉,这种投诉是否是普遍存在的
– 每个用户是否通过拨打955598电话完成了他的请求
语音记录
• 用户和客服之间的对话会被完
整记录为语音文件
• 语音文件包含了丰富的信息:
–
–
–
–
用户打电话的主要原因
客服的服务态度
客服的服务能力
用户的满意度
• 因为缺少相关工具,当前采用
人员采样收听的策略,效率低,
覆盖率低
针对客服信息的大数据分析
关联
翻译
混合数
据分析
导入
云展数据仓库
用户数据
改进业务流程
产生新的数据
关键技术——非结构化语音分析
客服信息
语音语调分析,看是否
按照规定的态度服务
内容分割:
按照音色
音域
用户信息
记录了用户的
投诉内容和对
服务的满意度
分析结果——用户满意度
• 用户拨打客服电话都是有一定的目的,目的达到与否则表
示了客服的成功率
• 通过对用户的语义、情绪分析,符合下列模型的,分析认
为是正确满足用户需求的
不满
愤怒
疑问
称赞
感谢
释疑
平静
分析结果——客服质量
• 客服质量定义为:单位时间内满足的用户数量
• 对某一特定客服人员:
服务效率
满意的用户数
总服务时间
服务质量统计
服务质量
满意的用户数
总用户数
分析结果——热点分析
• 通过整理分析用户通话内容得到用户投诉的主
要目的
• 使用数据挖掘和数据可视化来统计关键问题
• 支持海量数据的快速处理
• 分析客户通话内容,按照词频构造标签云:
关键技术——分结构化数据分析
• 系统支持按照关键词(一个或多个)将录音电话切片分
类
– 比如,要查找关于“电费”相关的记录中主要的投诉内容
• 通过索引和分布式处理机制,可以快速的生成新的统计
数据(类似于在数据仓库中做切片操作):
关键技术——结构化/分结构化混合分析
• 客服内容由两部分:关于电话基本信息的关系数据,具体
的语音信息
• 关联分析将两者结合起来进行深度分析:
–
–
–
–
–
–
电话耗时10分钟以下和10分钟以上的用户满意度统计
分布在不同区域的用户满意度统计
收入在不同范围的用户关心的主要问题
客服填写的简要信息是否和用户录音记录一致
客户电话主要集中来电时间分布,以及和满意度的关联度
客服的效率和时间的关系
其他案例
• 网易私有云平台
– 推进企业内数据共享、全局信息挖掘与商业智能
应用
平滑
迁移
配额
与计
费
数据
共享
IP城市库、乐库、书库
扩展
功能
图像处理、文本分析(分词、标签、
分类)、数据挖掘(聚类、关联规
则)、语音处理、GIS
应用
托管
Web App
Engine for
Java
应用
架构
负载均衡(LVS、反向代理)、DNS、消息队列
数据
管理
DDB、对象存储、文件中心、关系数据存储、全文检索、并
行分析、Timeline、NewSQL、缓存服务
虚拟
化
虚拟机、网络、云硬盘
硬件
IDC、服务器、存储、网络
用户
管理
与监
控平
台
管理
员运
维平
台
epiC Group