SC 2010-2011 グラフアルゴリズム特集

Download Report

Transcript SC 2010-2011 グラフアルゴリズム特集

2011/12/16 石川研 研究隣人部
SC’10, SC’11
並列・分散グラフ処理特集
秋葉 拓哉
(今井研 M1)
背景
• 大きいグラフ
– ソーシャルネットワーク,Web グラフ : 10^9
– 国土安全保障省 : 10^15 [2]
• グラフの処理の並列・分散は難しい
– ランダムなアクセスパターン
• プロジェクトなど
– JST CREST : ポストペタスケールシステムにおける超大規模グラフ
最適化基盤
– Graph500
• 大規模グラフへの世間の関心も高い
– GraphDB 勉強会:120 人参加
論文
タイトル
チーム
年
問題
環境
速度
1
Scalable Graph Exploration
on Multicore Processors
IBM +
Georgia
Tech
10
BFS
SMP
(Nehhalem-EX
32-core)
1.3B
edges/s
2
Multithreaded
Asynchronous Graph
Traversal for In-Memory
and Semi-external memory
Texas +
LLNL
10
BFS,
SSSP,
CC
SMP
(AMD 16-core)
42M
edges/s
3
Fast PGAS Implementation
of Distributed Graph
Algorithms
IBM
(別)
10
CC,
MST
クラスタ
(16-nodes)
20M
edges/s
4
Parallel Breadth-First
Search on Distributed
Memory Systems
LLNL
(別)
11
BFS
クラスタ
(40K-cores)
17.8B
edges/s
5
A Scalable Eigensolver for
LLNL +
Large Scale-Free Graphs
Texas
Using 2D Graph Partitioning (別)
11
Eigenv
ector
クラスタ
(1) Scalable Graph Exploration on
Multicore Processors
Virat Agarwal1 Fabrizio Petrini1 Davide Pasetto2 David A. Bader3
1IBM TJ Watson, Yorktown Heights, NY 10598, USA
2IBM Computational Science Center, Dublin, Ireland
3College of Computing, Georgia Tech, Atlanta, GA 30332, USA
概要
• 問題・環境
– BFS
– SMP 1 台
– Nehhalem-EX 8 コア × 4 ソケット (= 32 コア)
• アプローチ
– 並列 BFS を最適化する.
• 結果
–
–
–
–
1.3B edges / sec
すごい速そう (主観. でも,その辺の分散より速いし.)
てか 1 スレッドですら元より高速
既存のライブラリと比較してほしかった
BFS の最適化
• 到達したかのフラグをビットセットに
• ロックする前に値みてからロック
• ソケットごとにキューを別に
– ソケット内での push とソケット外への push を別に
– ソケット外から push されたのは後でまとめて処理
– 良い感じの lock-free queue
• Inter-socket キューの処理の batching
– 何個か頂点まとめて push/pop
実験結果 (性能向上)
(2) Multithreaded Asynchronous
Graph Traversal for
In-Memory and Semi-External Memory
Roger Pearceyz, Maya Gokhalez, and Nancy M. Amatoy
y Parasol Laboratory
Department of Computer Science and Engineering
Texas A&M University
z Lawrence Livermore National Laboratory
概要
• 問題・環境
– BFS, SSSP, CC
– SMP 1 台, AMD 16 core
• アプローチ
– BSP っぽいことを SMP でやる (僕の主観)
– 非同期でよくなる
• 結果
–
–
–
–
42 M edges / sec (BFS)
一応,ナイーブな BFSより 7 倍ぐらい速い
1 スレッドだと 2 倍ぐらい遅くなる
既存のライブラリより微妙に (10% とか…) はやい
実験結果
(3) Fast PGAS Implementation of
Distributed Graph Algorithms
Guojing Cong, George Almasi, Vijay
Saraswat
IBM TJ Watson Research Center
これを見よう
• http://web.yl.is.s.utokyo.ac.jp/~akiyama/talks/20110126-pgasgraph.pdf