2数据科学 - 浙江大学计算机辅助设计与图形学国家重点实验室

Transcript 2数据科学 - 浙江大学计算机辅助设计与图形学国家重点实验室

数据可视化基础
数据科学
陈为
[email protected]
http://www.cad.zju.edu.cn/home/chenwei/visclass
内容提纲



大数据时代
数据科学简介
大数据的案例
大数据的定义与特性
大数据用来定义那些大小超出常用
软件工具在可承受的运行时间内进
行数据捕获、管理和处理的能力的
数据集。
*
 大数据的3V特性
美国政府的大数据计划



2009年，美国国家标准技术研究所(NIST)帮助发表了一
篇题为“控制数据的力量”的报告，对
大数据研发计划的开展有许多影响。
2011年，总统科技顾问委员会(PCAST)
提出增加美国在大数据研发方面投入的
建议，同时成立大数据高层指导小组。
2012年3月29日奥巴马政府公布了“大数据研发计划”
(Big Data Research and Development Initiative）
美国政府的大数据计划
国防部(DoD)

自然语言处理(Machine Reading)
视觉智能(Mind’s Eye)
安全云(Mission Oriented Resilient Clouds)
对加密数据的编程计算(PROCEED)
对视频和图像的检索和分析工具(VIRAT)
CINDER计划
Insight计划

美国政府的大数据计划










国土安全部(DHS)
可视化数据分析(CVADA)
能源部 (DOE)
ASCR计划，提供数据管理，可视化和数据分析的社区，
包括数字化保存和社区访问
生物和环境研究计划(BER)
系统生物学知识库(Kbase)
美国核数据计划(USNDP)
NASA
全球地球观测系统(GEOSS)
行星数据系统(PDS)
美国政府的大数据计划











卫生和人类服务部(HHS)
生物传感2.0 计划
癌症成像存档(TCIA)
癌症基因组图谱(TCGA)
传染病代理研究模型(MIDAS)
人口研究数据共享(DSDR)
计算神经科学的合作研究(CRCNS)
食品药品监督管理局(FDA)
虚拟实验室环境(VLE)计划
国家安全局(NSA)
情报共同体(IC)计划
美国政府的大数据计划




美国国家自然基金委(NSF)
开发、整合一套一体化的数据工具和先进的基础设施方案以
支持科学和教育。
美国国家卫生研究院(NIH)
The Structural Genomics Initiative，通过发现，分析和
传播蛋白质的三维结构，RNA和其他生物大分子结构，展现
生物的多样性，以促进在生物学，农业和医药的基本认识和
应用。
 美国地质调查局(USGS)
 利用庞大的数据集、先进的计算能
力和协作工具，提高对一些地球问
题的认识，如气候变化，地震的复
发率。
多尺度异常检测(ADAMS)

2011年由国防部高级研究计划局(DARPA)提出。

投资：3500万美元。
该项目旨在发现和防止内部威胁。系统预期
输出对象是反间谍机构。

同时可以用于解决大规模数据集的异常检测
和特征化，用于商业融资等其他领域。

核心技术由乔治亚理工学院高性能计算团队
研发。

Insight计划

解决目前情报，监视和侦察系统的不足，
进行自动化和人机集成推理，使得能够提
前对时间敏感的更大潜在威胁进行分析

开发新的方法来检测军事计算机网络与网
络间谍活动
XDATA计划

国防部高级研究计划局(DARPA)今年提出开始XDATA计划。

将在四年里拟投资每年2500万美元。
开发用于分析大量的半结构化和非结构化数据的计算技术和
软件工具。


提出的挑战:
开发可扩展的算法处理分布式数据中不完整存储的数据。
∙
研发有效的人机交互工具促进在各种各样的任务中快速分析
并反馈最重要的视觉信息。
∙
DAX计划

高级科学计算研究办公室(ASCR)提出。
DAX是一个为推动百万兆级计算所需的数据分析和
可视化算法提供细粒度并发支持的工具包。


基本单元是实现一个网格里元素行为的函数。
每个函数只能访问传递和调用的元素，避免了内
存冲突从而实现无限数量的线程并发。

执行器遍历网格所有元素，调用一个或多个函数
处理无差别功能的元素并收集每个元素的值。

PROMIS计划
病人报告结果测量信息系统
2002年5月，国家卫生研究所召开多个会议为21世纪的医学
研究制定了发展路线并提出了NIH共同基金。

为支持重要项目之一的慢性疾病病人临床研究动态评估，由
NIH共同基金提出了合作项目PROMIS。

PROMIS是一个高度可靠，有效，灵活，准确，反应病人健康
状况的评估工具系统。

核心资源是评估中心：提供工具和数据库，以帮助研究人员
收集，存储，分析病人的健康状况有关的数据。

EOSDIS计划
NASA提出的地球科学数据和信息系统研制计划

主要目标：

处理、存储与分发地球科学卫星数据。
b)提供用于方便管理地球科学数据的工具。
c)促进地球科学数据的跨学科使用。
d)通过国际之间地球观测数据的共享和整合，推动地球系统科学，满
足气候和环境变化的挑战。
a)
有12个数据中心，14个科学研究处理系统以
及26个合作伙伴为项目提供支持。

大数据计划特点总结及高校面临的挑战

美国“大数据计划”特点

应用单位提出，应用单位主导

有非常明确的应用需求，要求解决实际问题

应用单位完全掌握大数据资源

高校参与关键技术研究

我国高校面临的挑战

不掌握大数据来源

很难得到真正的实际需求

无能力建设试验环境

不能提供足够的人力资源
数据产品
提取、转换、加载
（ETL）
商业智能
分析
数据准备-复杂化








语法错误
语义错误
缺失值
异常检测
再归一化
编码
降维
整合
数据准备-语法和语义错误

利用：日志！




对于文本格式，人来检查是可能的



维护一个记载错误记录的文件
尽可能多地捕捉出错地方的状态
能够帮助确定数据源的错误
对于二进制格式，使用16进制编辑器
进行语法或语义变化，或者检查数据源是否有
错？
涉及到其他记录和数据源的限制是十分难查的
数据准备-扩展性问题

已有的数据和需要的数据均是动态的目标




数据质量是一个过程
经常会在分析数据是发现问题
修复找到的错误会是极耗资源或不可能的
容错



保留初始数据
能够将工作流的阶段回滚
允许以前工作的重用
数据准备-扩展性问题

工作流元数据管理




工作流进度估计


现在正在运行什么？
自动源捕获
对工作流进行版本编号
必须向下流进程通信
工作流单元重用


在复合时：常用工作流库
在执行时：消除工作流常见任务的冗余
数据表现


数据表现概览
图表





单变量
双变量
其他
图表的选择
设计的考虑




表格
图表
颜色
活板印刷
数据表现-例子









图
信息图
表格
图表
信息窗
介绍
文档
视频
应用程序
数据表现
图
数据表现
图
数据表现
图
数据表现
图
数据表现
信息图
数据表现
信息图
数据表现
信息图
数据表现
信息图
数据表现
表格
数据表现
图表
数据表现
信息窗
数据表现
信息窗
数据表现
信息窗
数据表现
图像
设计的考虑
表格和图表



减少图表垃圾/表格垃圾；增加数据墨水比
认知的限制：限制一次展示的物体数量
颜色




颜色模式
对比、强调
与公司一致
6大格式塔原则：接近、相似、圈围、封闭、
连续、连接（proximity, similarity, enclosure,
closure, continuity, connection）
数据产品

不要只关注“思想”




你构建了数据集
你构建了信息窗
你构建了实验平台
其他你可以构建的事




搜索
广告定位
垃圾检测
内容推荐
Facebook大数据案例
潜在的朋友
提纲




推荐谁？
静态，离线预测
动态，在线重排序
性能/热身
你可能认识的人
• 前1～2个推荐会直接显
示在Faceboook的主页上
• 查看所有链接会使用
户看到更多的推荐
• 很多的好友都是直接
在主页而不是“查看
所有”页面被添加的
• ‘Xing’某个用户把某人
永远地从列表里删除
• 在未来的推荐中取消
掉
• 占了Facebook中朋友中
的很大一部分内容
帮助用户在FB上找到好友

推荐已经在很多应用
中得到了证明


和他们一样，我们可
以通过作出优秀的推
荐来增加我们对用户
的价值


Amazon、NetFlix等
都有复杂的系统
有更多好友的用户更
频繁地使用网站，从
中也得到更多
不像那些系统（协同
过滤）我们必须要考
虑社交背景
好友统计

大约每天有两亿的页面互访



新用户（注册帐号不超过两
周）每天要连接4千万


26%直接来自于PYMK的贡
献（点击PYMK添加链接）
另外14%是间接引起的
28%直接通过PYMK，总共
为42%
没有“你可能认识的人”
（PYMK）时很多人可能都
无法被他人所发现

被从PYMK上移除的新用户
在6周以后会少27%的好友
如何推荐

大部分的友谊来自于朋友的朋
友（Friend of Friend, F-F）



以前的工作表明FoF（2跳）的
友谊比多余3跳的友谊要多五倍
以上
FB上92%的新朋友关系
从实际的角度来看，做比F-F更
深入的工作是不可能的了

一般用户平均有超过130个好友



130×130 = 17K FoFs
130^2 = 2.2M FoFoFs
特殊的用户会有大约5000个好
友
推荐朋友的朋友

问题陈述：


给定一个源用户，找到
最佳的朋友的朋友推荐
给他
挑战：

一个典型的用户会有成
百上千的FoFs(平均为
40K，有一部分人会达
到800K！)


哪些特性可以帮助我们从
中进行选择
我们如何结合网络和人口
特性
共同好友

共同好友数目是一个很好的指标


其他社交网络特性也很有帮助：


两个有10个共同好友的人成为好友的
概率是仅有1个共同好友的12倍
比如，如果你的好友刚刚添加了一个新
的还有，这也是一个很好的推荐
我们可以结合网络特性：

𝛿𝑢,𝑣 给出了边创建以来的时间
系统概览

系统检测所有的FoFs


存储评分并且使用简便易
得的数据来预测实时的
CTRs


产生前100位候选人列表
候选人被重新排序并且在
每次访问时展示
结果被反馈到系统并保留

实时模型依赖于输出分数，
并进行在线训练来保证
CTR预测的准确性
进行静态预测

使用传统机器学习


对一个用户u，考虑所有的FoFs
w1,…,wk
对每一对(u, wj) 生成一系列特性


共同好友，很久以前的共同好友，
新的共同好友等
也结合u和wj各自的特性


年龄、性别、国家、总的朋友、在FB
的时间等
我们使用袋装决策树（许多决策
树的平均）


训练集来自于以前的PYMK
只训练 “first impression”或主页
好友的好友特性

两类特性

带权的共同好友(MFs)


个人特点



实际的MFs、带时间权重的MFs、有向
的MFs、带强度权的MFs、推迟的MFs
年龄、国家、FB年龄、性别、朋友数
由于用户平均有40K个FoFs,这些必须在
每台机器上进行冗余备份而不是共享
用于预测的最重要特性



时间流逝的共同好友
源用户的国籍和FB年龄
好友数目
特性选择

首要特性


1.时间权重，有向共同
好友
2.国家(u)


某些国家的用户相比于其
他国家的用户更倾向于使
用某些特性
3.从u到v的带权重边

来自于信息订阅的权重粗
略地暗示了联系的强度
4和5是其他的共同好友权重，其他重要特性是U的度，V的度以及U的年龄
巨大的代价




用户平均有40K个FoFs
共有超过500M的用户
40K × 500M = 20 T
多台拥有72G内存的机器
（40台）



每台机器都存了社交图的一
部分在内存中（对单台机器
来说太大了）
即便如此，我们至少要在2
天中才能算出新的推荐
为了保证对新用户进行最
佳的推荐，我们会为他们
进行更多的计算
推荐生成

社交图被40台机器所共享


请求会直接送到有用户好
友列表的机器


包括边上的注释：创建时
间、方向，权重
这台机器分割好友列表并
且向其他机器请求FoFs
结果被汇总并排序

前100位被返回
推荐生成


使用了4台机器的简单例子
4号用户请求PYMK


向其他机器请求FoFs（本地
的机器也一样被请求）


4号用户和
5,6,7,13,26,31,121等用户是
好友
请求包括去权重（如时间）
每个FoF的特征向量被聚集



14:2, 18, 81
17:2, 53, 12
123: 2, 0, 0
提高效率和内存利用率

为每个用户都运行40K个FOFs的决
策树评价是不可能的


使用启发式方法来缩小范围
通过共同好友特性建立logistic模型来
选择出前1K




使用线性时间排N算法来找到截止（不
是nlogn排序）
仅在前1K上运行完全决策树算法
不想使用网络来获得年龄、性别等
信息
从前1000用户中选择出前100


只有那些人才能被展示
为了保证多样性，会暂时不推荐已经
向用户推荐了4次以上的好友
每次都展示最好的推荐

为了优化推荐，我们在每次推荐
以后都再次重排

决策模型只能每两天运行一次


他们为每个用户对(u, wi)输出一个
评分
不能为每次推荐进行过多的运算，
但是可以适量运算

简单特性在每次推荐的时候都存在


(u, wi)的分数，对(u, wi)的推荐次数，
U的朋友数，wi的朋友数
将可获得的信息和评分相结合并通
过Logistics模型来进行重排
通过Logistics回归进行重排

简单logistics回归模型进行
CTRs预测的表现良好



对某个推荐给定特性 F1、F2、
F3
预测CTR =
logistics(C0+C1*F1+C2*F2+
…)
从两方面来提高质量


不要不断重复某个推荐，展
示过往的最佳推荐
如果用户从来都不用PYMK，
就停止推荐
通过Logistics回归进行重排

简单logistics回归模型进行CTRs
预测的表现良好



对某个推荐给定特性 F1、F2、
F3
预测CTR =
logistics(C0+C1*F1+C2*F2+…)
从两方面来提高质量


不要不断重复某个推荐，展示过
往的最佳推荐
如果用户从来都不用PYMK，就停
止推荐
• 实现简单，很多的软件可以被用来学习参数
• 使用用户历史数据来个个性化推荐能获得巨大的效果提升
机器学习挑战
在该数据上训练的模型，
部署了以后
新模型过高评价了那些没在之前
数据中出现的推荐; 点击率骤减

对过去数据的良好预测并不总是有价值


可能会给予没有出现在以前数据集里的推荐很高的评分
如果是从头开始训练，需要一定量的迭代以达到收敛

目前使用在线学习系统来进行CTR预测
组合系统
上下文PMYK

简单扩展以后使得推荐可
以根据当前的上下文

在确定了一个好友的请求
之后，推荐一些该好友的
朋友


但是应该是哪些人？
之前的排序仅根据共同好
友数据（在我和他们之间）

使用学习好的模型（和其
他PYMK基于相同的特性），
增加了40%的好友添加
性能

两个性能指标


建立的还有关系
CTR

总能通过牺牲其他指标来提高某个指标

离线模型的首次发送和早期的CTR预测




从那时开始的一些不足
总的来说，增加了60%
同时，有下调趋势的CTR预测下降了1/3
因此，CTR提高了130%
要点

边注释是重要的特性


从简单的用户需求来获得巨大的成功


图并不仅是点和边 --- 边有时间，方向和权重
了解人们在用什么、人们不在意什么、展示他
们喜欢的内容
～3个人带动了在FB上的～40%的交友==每
个人每秒交385个朋友

2数据科学 - 浙江大学计算机辅助设计与图形学国家重点实验室

Transcript 2数据科学 - 浙江大学计算机辅助设计与图形学国家重点实验室

Directory