结构化数据

Download Report

Transcript 结构化数据

秘密 Proprietary
Confidential▲
云计算业务应用-数据挖掘
目录
数据挖掘基本概念和技术
 数据挖掘在电信行业中的应用
 总结

秘密 Proprietary
Confidential▲
秘密 Proprietary
Confidential▲
目录

数据挖掘基本概念和技术








数据挖掘基本概念
数据挖掘典型流程
数据挖掘常用技术
数据挖掘业界工具
数据挖掘可用资源
本章小结
数据挖掘在电信行业中的应用
总结
如果你遇到下面的问题,你会怎么做?
秘密 Proprietary
Confidential▲
数据挖掘的原动力——怎样借助数据制定合适的决
策?
秘密 Proprietary
Confidential▲
数据挖掘是应实际需求而出现的技术
什么是数据挖掘?
秘密 Proprietary
Confidential▲
Data mining is the non-trivial
process of identifying valid,
novel, potentially useful, and
ultimately understandable
patterns from huge volume of
data.
derived from U. Fayyad, et al. ’s definition
of KDD at KDD96
数据挖掘是从巨量数据中获取正确
的、新颖的、潜在 有用的、最终
可理解的模式的非平凡过程。
能否找出以下数据挖掘的“身影”?
数据挖掘?
秘密 Proprietary
Confidential▲
数据挖掘的前景如何?
2010十大
技术趋势
云计算
高级分析
客户端计算
绿色IT
重塑数据中心
社交化计算
安全-活动监控
闪存
虚拟化的可用性
无限应用
2011十大
技术趋势
云计算
移动应用和媒体平板
社交和协作
视频
下一代分析
社交分析
上下文感知计算
存贮级内存
普适计算
基于结构的基础设施和
电脑
秘密 Proprietary
Confidential▲
2012十大
技术趋势
平板电脑与未来产品
行动为主的应用程式
与介面
情境与社群使用经验
物联网
App商店与市集
次时代分析技术
大数据
内存计算
超低耗能服务器
云端计算
秘密 Proprietary
Confidential▲
目录

数据挖掘基本概念和技术








数据挖掘基本概念
数据挖掘典型流程
数据挖掘常用技术
数据挖掘业界工具
数据挖掘可用资源
本章小结
数据挖掘在电信行业中的应用
总结
数据挖掘的标准过程:CRISP-DM
(CRoss-Industry Standard Process for Data Mining)
秘密 Proprietary
Confidential▲
可以被挖掘的数据源有哪些?

普通文件



excel,txt,csv,arff等格式的文件;
传统数据库


秘密 Proprietary
Confidential▲
关系数据库, 事务型数据库,数据仓库,
高级数据库

文本数据库

Web数据库

多媒体数据库

空间及时空数据

异构数据库
其他类型数据

流数据(data streams),如传感数据;

时序数据(time-series data), 如生产监控数据;

图结构数据(structure data), 如社交网络数据等
秘密 Proprietary
Confidential▲
数据挖掘的研究体系:以结构化数据为基础,叠加数据形态的特殊处理
(+实时处理)
流式数据
(基础)
(+音视频处理)
多媒体数据
图片
音频
视频
流媒体
…
结构化数据
数据库
数据文件
…
网络流量
话单流
传感流
…
(+自然语言处理)
文本数据
文本文件
新闻/博客
微博客/论坛/短信
…
结构化数据挖掘(KDD):整体流程
秘密 Proprietary
Confidential▲
结构化数据挖掘(KDD) :数据准备

数据采集


根据挖掘的目标,对可能涉及的数
据进行全方位的收集、整理;
数据预处理


秘密 Proprietary
Confidential▲
对错误数据、不完整数据、冗余数
据、不一致的数据等等进行统一处
理;
数据选择

结合数据大小、数据质量、数据挖
掘目标、可用资源等等,采用采
样、降维、规约等手段选取最终要
实施挖掘的数据对象;
数据质量的好坏决定了最终结果的正确与否,数据准备占据整个工作量的70%
结构化数据挖掘(KDD) :数据建模

秘密 Proprietary
Confidential▲
在理解业务背景、熟知数据状况、
明确数据挖掘任务的前提下,利用
可用的资源(技术/工具),选择
合适的数据挖掘算法,获取满意的
结果;
——知识和经验的集中体现
结构化数据挖掘(KDD) :模型评估

知识


知识在某一数据域上为真的量度。
兴趣度


满足用户兴趣度和置信度的模式—
—用高级语言表示的表达一定逻辑
含义的信息;
置信度


秘密 Proprietary
Confidential▲
在一定数据上为真的知识被用户关
注的程度。
有效性

知识的发现过程必须能够有效地在
计算机上实现。
秘密 Proprietary
Confidential▲
目录

数据挖掘基本概念和技术








数据挖掘基本概念
数据挖掘典型流程
数据挖掘常用技术
数据挖掘业界工具
数据挖掘可用资源
本章小结
数据挖掘在电信行业中的应用
总结
秘密 Proprietary
Confidential▲
数据挖掘是一门面向应用的综合性技术
信息检索
 推荐引擎
 商务智能


支
撑
技
术
:
重
在
运
用
数据可视化
并行计算
 高性能计算
 流计算


OLTP
 OLAP
数据库
 数据仓库

特
定
应
用
机器学习
 统计分析
 模式识别
 粗糙集

理
论
基
础
秘密 Proprietary
Confidential▲
数据处理与建模方法库
属性筛选
属性重要性打分
基于增益率属性
主成分分析
决策树
分类回归树
神经网络分类
支持向量机分类
线性回归
支持向量机回归
神经网络回归
组合模型
K均值聚类
分布估计聚类
属性筛选
分类预测
回归分析
高级分析
聚类分析
层次K均值聚类
购物篮分析
方法库
属性关联分析
关联分析
序列模式分析
统计分析
时间序列
自回归
自回归移动平均
相关分析
波动分析
归纳分析
方差分析
因子分析
函数拟合
分布估计
异常检测
层次聚类
数据挖掘十大经典算法
秘密 Proprietary
Confidential▲
http://www.cs.uvm.edu/~icdm/algorithms/index.shtml
秘密 Proprietary
Confidential▲
数据挖掘的任务及基本方法

因素 1
关联规则挖掘

因素 2
分类分析

发现大量数据中项集之
间有趣的关联或相关联
系。

将未知数据划分到给定
的类别中——通过训练
样本建立分类模型,根
据模型对未知数据进行
分类。
描
述

聚类分析
将物理或抽象对象集合
因素 4
分组成为由类似的对象
组成的多个类的过程。
 相比于分类,聚类是无
监督的(没有已知的类
标号)

常用
方法
预
测

预测分析
预测未来的数据趋势;
因素 3
 相比于“分类分析”来
说,“预测分析”是建
立连续函数模型 。

数据分类三个步骤
秘密 Proprietary
Confidential▲
数据挖掘的经典模式及应用
秘密 Proprietary
Confidential▲
秘密 Proprietary
Confidential▲
目录

数据挖掘基本概念和技术








数据挖掘基本概念
数据挖掘典型流程
数据挖掘常用技术
数据挖掘业界工具
数据挖掘可用资源
本章小结
数据挖掘在电信行业中的应用
总结
秘密 Proprietary
Confidential▲
数据挖掘相关技术及工具发展
数
据
分
析
技
术
模型评估
 数据建模
 数据预处理
报表
 OLAP引擎
 数据仓库
 ETL


数据挖掘
学术界及部分企业推动
数据库厂商推动
数
据
管
理
技
术
秘密 Proprietary
Confidential▲
业界主流数据挖掘工具
编程语言
名称
主要功能
是否开源
SPSS
统计分析、机器
学习
否
SAS
统计分析、机器
学习
否
Matlab
统计分析、机器
学习
否
Weka
以机器学习为主
是
R
以统计分析为主、
是
图形展示较丰富
R
Orange
以机器机器学习
为主、图形展示
较丰富
java
是
SAS
matlab
java
Weka工具概览
秘密 Proprietary
Confidential▲
业界主流数据挖掘相关的数据管理工具
产品系列
Oracle
Microsoft
IBM
秘密 Proprietary
Confidential▲
Sybase
SSIS
DataStage
Replication
Server
PowerStage
Enterprise
Manager
SQL Server
Visual
Warehouse
(或Cognos)
Warehouse
Studio
OLAP工具
Essbase
SSAS
OLAP Server
(或cognos)
Warehouse
Analyzer
数据挖掘工具
ODM
(可选)
SSAS
Intelligent Miner
(可选)
无
SSRS
Insight&Quick
view
(或Cognos)
InfoMaker,后
期会整合BO
ETL工具
ODI/OWB
(ODI可选)
数据库管理工
具
报表工具
BIEE
目录

数据挖掘基本概念和技术








数据挖掘基本概念
数据挖掘典型流程
数据挖掘常用技术
数据挖掘业界工具
数据挖掘可用资源
本章小结
数据挖掘在电信行业中的应用
总结
秘密 Proprietary
Confidential▲
扩展学习参考书籍
秘密 Proprietary
Confidential▲
理
论
介
绍
工
具
应
用
目录
数据挖掘基本概念和技术
 数据挖掘在电信行业中的应用

云计算环境下的数据挖掘需求
 海量数据分析与挖掘系统简介
 海量电信级数据挖掘应用实践
 本章小结


总结
秘密 Proprietary
Confidential▲
什么是大数据?
秘密 Proprietary
Confidential▲
“大数据是指无法在一定时间内用常规软件工具对其内容进
行抓取、管理和处理的数据集合”
—维基百科

三大特征(3 V)



Volume:数量大(Twitter1.75亿用户每天创建9500万条微博;
Facebook每天在30万台服务器上处理25Tb数据;YouTube每天上
传168Tb视频)
Velocity:时效性要求高(搜索引擎要求几分钟前的新闻能够被用
户查询到)
Variety:种类和来源多样化(结构化/半结构化/非结构化;关系数
据库/数据仓库/互联网网页等)
大数据的出现、数据结构的改变,对电信行业数
据管理及分析带来挑战
秘密 Proprietary
Confidential▲

传统数据仓库无法有效存储日益增长的业务数据


随着业务发展数据量的增加,随着应用复杂导致的数据量增加,这些数据量
导致了数据存储和处理压力; 数据仓库无法线性扩容,管理难度加大,成
本高扩容压力大,效率下降等
传统数据仓库无法有效处理新型的业务数据

公司在移劢互联网和物联网上需要有新领域的突破,不同于传统通信业务分
析特点,需要对内容等非结构化、大容量信息进行有效分析,传统的架构处
理吃力 ;
电信行业大数据分析与处理的需求
秘密 Proprietary
Confidential▲
秘密 Proprietary
Confidential▲
大数据分析与处理的行业现状
时间域
SAS
SPSS
Weka
R
…
离线分析
实时分析

Rhadoop
Mahout
BCPDM
…
Storm
S4
Streambase
…
内存级
BI级
海量级
(GB以
下)
(GB-TB)
(PB)
BI级数据的离线
分析产品已经成
熟;
 海量级数据的离
线分析是目前的
一个热点;
 借助内存数据库
的实时分析会在
未来大放异彩;
空间域
目录
数据挖掘基本概念和技术
 数据挖掘在电信行业中的应用

云计算环境下的数据挖掘需求
 海量数据分析与挖掘系统简介
 海量电信级数据挖掘应用实践
 本章小结


总结
秘密 Proprietary
Confidential▲
秘密 Proprietary
Confidential▲
秘密 Proprietary
Confidential▲
海量数据分析与挖掘系统功能架构
应
用
层
用户分析
产品优化
并行数据挖掘平台PDMP
业务推荐
信息检索
并行数据分析平台PDAP
安全监控
….
实时分析平台RTDAP
数据可视化
流程可视化
结果可视化
可视化数据探测
数据分析与挖掘算法
分
析
层
统计分析
分类分析
关联规则分析
情感分析
语义分析
实时查询
聚类分析
时间序列分析
主题发现
摘要生成
文本数据采集与处理
中文分词
网页爬取
支
撑
层
实体识别
网页解析
多媒体数据采集与处理
结构化数据采集与处理
关键词提取
文本建模
多媒体特征提取
多媒体建模
数据抽样
数据规约
特征提取
网页净化
网页索引
多媒体采集
多媒体分割
数据集成
数据清洗
数据转换
分布式计算/并行计算/流计算
分布式文件系统HDFS
分布式数据库HBASE
分布式数据仓库Hive
IT基础设施
内存数据库Redis
秘密 Proprietary
Confidential▲
海量数据分析与挖掘系统逻辑架构
流计算
触发的事件
数据采集
流
数据
块计算
块
数据
实时计算结果
离线计算结果
全局
数据
全局计算
海量数据分析与挖掘系统适应的应用场景
秘密 Proprietary
Confidential▲
目录
数据挖掘基本概念和技术
 数据挖掘在电信行业中的应用

云计算环境下的数据挖掘需求
 海量数据分析与挖掘系统简介
 海量电信级数据挖掘应用实践
 本章小结


总结
秘密 Proprietary
Confidential▲
秘密 Proprietary
Confidential▲
结合具体业务需求,开展相关产品的定制化实践
Hadoop生态系统
Hadoop
Hbase
Hive
Pig
Mahout
Flume
…..
相关定制化产品
并行数据 并行文本 海量数据
处理与挖掘 处理与挖掘 统计分析
海量数据
实时搜索
个性化
数据抽取
推荐引擎 与分发中心
基于HDFS 基于hive
和
和Pig,提
MapRedu
供Web页
ce,提供
面的海量
非结构化
数据可视
数据的海
化统计分
量文本并
析
行处理与
挖掘
基于
Hbase和
Solr集成,
提供千亿
级别数据
实时查询
和全文检
索
基于
Mahout
等,提供
个性化的
业务推荐
服务
基于
Hbase和
MapRedu
ce,提供
结构化数
据的海量
数据并行
处理与挖
掘
基于
Flume等
提供批量
数据抽取
和转载,同
时提供准
实时消
息、日志
的分发
…..
基于分布式数据库的海量数据分析平台
秘密 Proprietary
Confidential▲
面向Web访问的海量数据统计分析
秘密 Proprietary
Confidential▲
面向具体业务的个性化推荐引擎
秘密 Proprietary
Confidential▲
电信业务大数据分析与挖掘典型应用
生活形态分析
接触时机分析
终端特征分析
上网行为分析
垃圾短信识别与监控
生活圈分析
营销渠道分析
业务关联分析
精细化营销专题
秘密 Proprietary
Confidential▲
流失预警分析
营销效果分析
应用案例1:利用统计分析用户上网行为,优化网
络及业务质量
秘密 Proprietary
Confidential▲
终端类
型分析
应用流
量分析
用户偏
好分析
应用类
型分析
终端流
量分析
应用案例2:利用聚类分析实现用户生活形态分
群,指导营销方案设计
秘密 Proprietary
Confidential▲
应用案例3:利用聚类及关联,进行定向营销
秘密 Proprietary
Confidential▲
秘密 Proprietary
Confidential▲
应用案例4:利用时序分析和社交网络,进行垃圾
短信识别,提升服务品质
在线监测引擎
A  a 1 , a 2 ,  , a M , 
“空间行为指纹”
发送时序行为
模式分类
t
短信流
A   a1 , a 2 ,
社会网络行为分析
, aM

“社会网络行为指纹”
模式分类
社会网络图
离线监测引擎
原始话单库
A   a1 , a 2 ,
, aM

“社会网络行为指纹”
模式分类
垃圾短
信发送
者怀疑
名单
______
__
目录
数据挖掘基本概念和技术
 数据挖掘在电信行业中的应用

云计算环境下的数据挖掘需求
 海量数据分析与挖掘系统简介
 海量电信级数据挖掘应用实践
 本章小结


总结
秘密 Proprietary
Confidential▲
本章小结

云计算环境下数据挖掘需求


大数据(数据量大、数据异构、处理时效性)对传统数据分析及管
理工具提出了挑战,需要重新构建适应大数据的海量数据分析与挖
掘系统;
海量数据分析与挖掘系统简介


秘密 Proprietary
Confidential▲
借助云计算提供的分布式计算模式、分布式数据存贮,构建新
的、、异构性的、适合多种业务需求的海量数据分析与挖掘系统;
电信行业数据挖掘应用实践

结合电信的具体业务需求,对海量数据分析与挖掘系统进行定制化
实践,并给出部分应用案例以供参考。
目录
数据挖掘基本概念和技术
 数据挖掘在电信行业中的应用
 总结

秘密 Proprietary
Confidential▲
内容回顾










秘密 Proprietary
Confidential▲
1、什么是数据挖掘?
2、CRISP-DM具体包含哪些步骤?
3、数据挖掘与哪些技术相关?请列举出3-5个
4、数据挖掘的基本任务是什么?
5、数据挖掘常用的方法各有哪些?请列举3-4个
6、数据挖掘的工具有哪些?开源的与非开源的各举一个
7、什么是大数据?
8、大数据的三大特征是什么?
9、云计算环境下,大数据分析与挖掘系统的支撑技术有哪些?请
列举2-3个
10、电信业务大数据分析与挖掘的典型应用有哪些?请列举2-3个
讨论:搜集哪些数据?使用哪些方法?
秘密 Proprietary
Confidential▲
秘密 Proprietary
Confidential▲