LOGO - 东北大学 | slideum.com

LOGO - 东北大学

Transcript LOGO - 东北大学

LOGO
Hadoop，Spark，Pregel，GraphLab类
比及Graphchi原理
王春磊
2014年4月3日
Hadoop及其半壁江山
Hadoop存在的问题

负载均衡

分布式容错

初始参数配置

大量的磁盘IO

不能高效的支持迭代计算

大量的中间结果

HDFS块不可控问题
Hadoop的优点



Page
简单，易用
任务提交简单
Hadoop是一个成功的产品
2
LOGO
Spark
LOGO
 Spark是pair data-flow模型的基于内存的实现版
本
Spark最鲜明的特点——RDD
RDD让用户可以选择以何种方式存储、处理重用数
据
在Spark处理的过程中，一切数据结构都是RDD
RDD在容错方面具有绝对优势
RDD存在的问题
Page
3
LOGO
Page
4
Pregel——Giraph Giraph++
开创以点为中心的图处理模型
Page
5
LOGO
异步框架
伪异步

仍然存在超级步，只是在超级步结束时，筛选部分点进行下一超级步

Pregel，Grace
有限异步

达到了超级步的效果，但是放宽了超级步的限制

Graphlab
完全异步

各个点各行其是，完全不用考虑其他点的计算进度

Maiter
Page
6
LOGO
grace
封锁机制
Page
7
LOGO
graphlab
LOGO
Graphlab创新的使用封锁机制，实现了有限异步，
并且具有实现完全异步的能力，并且系统接管了更
多的责任，简化了用户编程、调试难度
Graphlab以图为中心，类似以点为中心，并且对
用户是透明的
同时支持同步计算和异步计算
创新的更新函数：
Page
8
LOGO
Page
9
LOGO
Page
10
graphlab
Graphlab同步引擎
Page
11
LOGO
graphlab
Graphlab异步引擎
Page
12
LOGO
LOGO
Page
13
SimRank算法
LOGO
SimRank算法的优点

节省时间成本

应对大规模数据

取得高质量的处理结果

将廉价的计算机组织成高可用性的集群
SimRank算法的优点

以数据可划分为前提

数据准备阶段的时间成本

需要大量的存储空间进行备份，容错
 在分布式横行的今天，单机处理仍然具有重要的
地位
Page
14
Graphchi
LOGO
在单机上进行大数据处理，无非是将数据一部分一
部分的调入内存处理
在数据的调入内存的过程中，就会涉及到磁盘的读
写问题
尽量的减少访问磁盘的次数
尽量的采用顺序读写的方式读写磁盘
Graphchi所解决的问题，就是成功的将随机读
写，尽可能的转化为顺序读写
Page
15
graphchi
并行滑动窗口
Page
16
LOGO
LOGO
Page
17
LOGO
Page
18
LOGO
谢谢！
2013.12.07
东北大学计算机软件与理论研究所
东北大学计算机中心

LOGO - 东北大学

Transcript LOGO - 东北大学

Directory