LOGO - 东北大学

Download Report

Transcript LOGO - 东北大学

LOGO
Hadoop,Spark,Pregel,GraphLab类
比及Graphchi原理
王春磊
2014年4月3日
Hadoop及其半壁江山
Hadoop存在的问题

负载均衡

分布式容错

初始参数配置

大量的磁盘IO

不能高效的支持迭代计算

大量的中间结果

HDFS块不可控问题
Hadoop的优点



Page
简单,易用
任务提交简单
Hadoop是一个成功的产品
2
LOGO
Spark
LOGO
 Spark是pair data-flow模型的基于内存的实现版
本
Spark最鲜明的特点——RDD
RDD让用户可以选择以何种方式存储、处理重用数
据
在Spark处理的过程中,一切数据结构都是RDD
RDD在容错方面具有绝对优势
RDD存在的问题
Page
3
LOGO
Page
4
Pregel——Giraph Giraph++
开创以点为中心的图处理模型
Page
5
LOGO
异步框架
伪异步

仍然存在超级步,只是在超级步结束时,筛选部分点进行下一超级步

Pregel,Grace
有限异步

达到了超级步的效果,但是放宽了超级步的限制

Graphlab
完全异步

各个点各行其是,完全不用考虑其他点的计算进度

Maiter
Page
6
LOGO
grace
封锁机制
Page
7
LOGO
graphlab
LOGO
Graphlab创新的使用封锁机制,实现了有限异步,
并且具有实现完全异步的能力,并且系统接管了更
多的责任,简化了用户编程、调试难度
Graphlab以图为中心,类似以点为中心,并且对
用户是透明的
同时支持同步计算和异步计算
创新的更新函数:
Page
8
LOGO
Page
9
LOGO
Page
10
graphlab
Graphlab同步引擎
Page
11
LOGO
graphlab
Graphlab异步引擎
Page
12
LOGO
LOGO
Page
13
SimRank算法
LOGO
SimRank算法的优点

节省时间成本

应对大规模数据

取得高质量的处理结果

将廉价的计算机组织成高可用性的集群
SimRank算法的优点

以数据可划分为前提

数据准备阶段的时间成本

需要大量的存储空间进行备份,容错
 在分布式横行的今天,单机处理仍然具有重要的
地位
Page
14
Graphchi
LOGO
在单机上进行大数据处理,无非是将数据一部分一
部分的调入内存处理
在数据的调入内存的过程中,就会涉及到磁盘的读
写问题
尽量的减少访问磁盘的次数
尽量的采用顺序读写的方式读写磁盘
Graphchi所解决的问题,就是成功的将随机读
写,尽可能的转化为顺序读写
Page
15
graphchi
并行滑动窗口
Page
16
LOGO
LOGO
Page
17
LOGO
Page
18
LOGO
谢谢!
2013.12.07
东北大学计算机软件与理论研究所
东北大学计算机中心