Transcript 発表資料
エクサスケール計算と その要素技術としてのメモリアーキテクチャ 東京大学 情報理工学系研究科 石井康雄 本日の発表内容 2018年のスーパーコンピュータ アプリケーションとアーキテクチャ メモリ性能と演算性能のバランスに関して 要素技術としてのメモリアーキテクチャ 2 予測性能とアーキテクチャを紹介 DRAMの制御に関する研究 2012/03/16 エクサスケール計算に向けて アーキテクチャ検討 2011/10からのアップデート 3 2012/03/16 エクサマシンの検討の前提(2011/10) 稼働時期: 2018年ごろ 目標: Linpackで1EFLOPS 「京」の100倍の実効性能を目指す Linpackは定量的議論の土台として活用 電力: 20MW~30MW 総床面積: 50m x 50m (ラックで1000本) 価格: ~500億円 4 2012/03/16 エクサマシンの検討の前提(2012/03) 稼働時期: 2018年ごろ 目標: サイエンスロードマップの達成 2020年のロードマップから達成すべき目標を定義 おおよそ「京」の100倍の実効性能を目指す 電力: 20MW~30MW 総床面積: 50m x 50m (ラックで1000本) 価格: ~500億円 5 2012/03/16 2018年のPCクラスタ性能予想(2011/10) 電力20MWでの最大構成例 プロセッサ性能 システム性能 演算: 3.0 TFLOPS メモリ: 96 GB, 300 GB/s B/F = 0.01 電力: 200W 価格: 25万円 プロセッサ+メモリ / ノード (1プロセッサ, 150W) 6 ネットワーク: 25 GB/s B/F = 0.1 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 演算: 300 PFLOPS (10万CPU) メモリ: 9.6 PB, 30.0 PB/s Bisection BW: 5.0 PB/s ラック数: 400 電力: 20MW (1EFで80MW) 価格: 250億円 (1EFで1000億円) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) 2012/03/16 2018年のPCクラスタ性能予想(2012/03) 電力20MWでの最大構成例 プロセッサ性能 システム性能 演算: 3.0 TFLOPS メモリ: 96300 GB, 300 GB/s B/F = 0.01 電力: 200W 価格: 25万円 プロセッサ+メモリ / ノード (1プロセッサ, 150W) 7 ネットワーク: 2532 GB/s B/F = 0.1 8プロセッサ+ネットワーク / カード (8プロセッサ, 1.5KW) 演算: 300 PFLOPS (10万CPU) メモリ: 9.630.0 PB, 30.0 PB/s Bisection BW: 5.02.0 PB/s ラック数: 400 電力: 20MW (1EFで80MW) 価格: 250億円 (1EFで1000億円) 8カード/シャーシ, 4シャーシ/ラック (256プロセッサ, 50KW) 400ラック / システム (10万プロセッサ, 20MW) 2012/03/16 エクサスケール計算に向けて アプリケーションとアーキテクチャ メモリと演算のバランスの観点から 8 2012/03/16 メモリシステムとスーパーコンピュータ メモリシステムは主要課題の1つ 多様なメモリシステムが存在する 大容量・高帯域、小容量・低帯域 メモリ性能と演算性能・電力・コストがトレードオフ NEC SX-9 9 Fujitsu FX10 GRAPE-DR 2012/03/16 アプリケーションとメモリシステム SX-9 高 メモリ帯域 気象・地震 FX10 x86 第一原理計算 GDR N体問題 低 小 メモリ容量 大 メモリシステムはアプリにあわせて設計される 10 アプリケーションが多様な特性を持つ 容量・帯域・アクセスパターン(連続・ストライド) 2012/03/16 エクサの検討でのシステムの分類 メモリのバランス別に4つのシステムを検討 容量・帯域重視 汎用型 演算重視 メモリ容量削減 演算器・コア キャッシュ メモリI/F メモリ容量・帯域 バランスをとって メモリを減らして 演算器を増やす を増やしメモリ重 多目的に利用 視アプリを高速化 NEC SX-9 11 PCクラスタ・京・ BG/Q など GRAPE-DR ClearSpeed オンチップメモリ (約100MB/chip)を 主記憶に利用 DRAM 該当計算機なし 2012/03/16 システム性能予測(演算・メモリに関して) 演算性能 (PFlops) 汎用型 容量・帯域 演算重視 容量削減 京(参考) メモリ帯域 (PB/sec) 200~400 50~100 20~40 50~100 1000~2000 500~1000 10 5~10 250~500 5 メモリ容量 (PB) 20~40 B/F = 0.1 50~100 B/F = 1.0 5~10 B/F = 0.005 0.1~0.2 B/F = 0.5 1.2 B/F = 0.5 各構成でのシステム性能を予測 12 20MW・2500m2の制約下での予測 2012/03/16 アプリケーションの要求性能との相関 10,000倍の差 1,0E+1 容量・帯域 要求メモリ帯域(B/F) 容量削減 1,0E+0 汎用型 1,0E-1 1,0E-2 1,0E-3 演算重視 1,000倍の差 1,0E-4 1,0E-3 1,0E-2 1,0E-1 1,0E+0 1,0E+1 1,0E+2 1,0E+3 要求メモリ容量(PB) 各アプリケーション毎に向いている計算機が 存在していることがわかる 13 2012/03/16 何故、バランスが変化したか Weak Scaling(より細かいメッシュでの計算) メモリ容量: 増加する 1ステップあたりの計算時間: 変わらない Nノードで計算する場合、各ノードのメモリ帯域は同じ Strong Scaling (より長い時間の計算) メモリ容量: 変化なし 1ステップあたりの計算時間: 短縮する 14 各計算ノードは同じデータ量を短時間で読み書き 2012/03/16 Strong Scalingのボトルネックと対策 メモリ帯域 ← 本日紹介の例 集合演算(集約演算・同期など) 専用HWで10倍以上の高速化の可能性 通信レイテンシ 巨大なオンチップメモリの採用 強スケールのために<1usの通信が必要なアプリ 通信方式の工夫で1/10までは短縮可能 改善可能な点が多く、研究開発が必要 15 2012/03/16 エクサスケール計算に関してまとめ 2018年の計算機構成を検討 アプリ毎のメモリ帯域・メモリ容量に関して調査 調査結果に基づいて4つのアーキテクチャを検討 各アーキテクチャとアプリをマッピング 従来と異なる特性を示すアプリ 「やりたい計算」が具体的ならば計算機は工夫が 出来る可能性が高まる 16 スケーリングから最適な構成が変化することもある 2012年度には要素技術研究の予算がつく見込み 2012/03/16 エクサに向けたアーキテクチャ研究 メモリシステム 17 2012/03/16 将来のスパコンに向けたメモリシステムの課題 課題 性能: 演算性能に対するメモリ帯域の低下 電力: DRAM/キャッシュの電力が全体の約30% 解決方法 ← 私の研究課題 18 データプリフェッチによるレイテンシ隠蔽 キャッシュ置換の改善による効率化 DRAM制御の改善による性能向上と電力削減 2012/03/16 Dynamic Random Access Memory スパコンの主記憶はDRAMで構成される 性能・電力・スケーラビリティの多くに関与 特徴 19 Data Addr プロセッサ DRAM #0 Data 0 #1 Data 1 #2 Data 2 #3 Data 3 #4 Data 4 #5 Data 5 #6 Data 6 #7 Data 7 単純な機能(指定した場所のデータの読み書き) 高速化のための複雑な制御 2012/03/16 DDR3メモリのアーキテクチャ メモリの記憶素子は行列の構造をとる 行アクセスと列アクセスの2段階アクセス 行・列のペア(Bank)を持ち独立に動作する DRAM cells Row buffer プロセッサはRow bufferのデータにの みアクセス可能 Addr プロセッサ Data Bank #0 DRAM chip 20 2012/03/16 DDR3のメモリアクセス(Read)の例 3フェーズでのリード処理 Activate(ACT) → Read(RD) → Precharge(PRE) 複数バンクを切り替えながらメモリアクセス ACT/RD/PREの各操作が電力を消費 コマンドの回数を減らすことで電力削減が可能 ACT→RD アドレス ACT ACT ACT RD→PRE RD コマンド競合で次のコマンドが遅延 PRE→ACT RD PRE RD ACT PRE 隙間が残る RD→DATA データ DATA 21 RD ACT PRE DATA DATA DATA 2012/03/16 DRAM-Aware Prefetching 3フェーズでのリード処理 ACT→RDの後に積極的にプリフェッチを出力 効果 データパスの利用率改善による性能向上 ACT/PREの回数削減による電力改善 データプリフェッチによる性能改善 すぐにPREしない アドレス ACT ACT ACT データ RD プリフェッチを出力 RD PRE DATA 22 RD PRE DATA RD ACT PRE DATA RD DATA 2012/03/16 メモリスケジューリングの効果 帯域の改善などで性能が13%向上 電力は3.1%の削減 1,2 データ転送が増加したためRD/WRが25%増加 ACT/PREの回数は28%削減 Performance 1,2 1,0 1,0 0,8 0,8 0,6 0,6 0,4 0,4 0,2 0,2 0,0 0,0 Baseline 23 Proposed Background Baseline RD/WR ACT/PRE Proposed 2012/03/16 要素技術研究の成果 特に性能競争の激しい分野 テーマ JILP Computer Architecture Competitions (JWAC) メモリ(キャッシュ置換・プリフェッチ) パイプライン制御(分岐予測) DRAM制御 ← 今年開催予定 過去優勝者 24 Andre Seznec (Alpha architect) Gao Honliang (Intel x86 architect) 2012/03/16 まとめ エクサスケールシステムの検討 ターゲットアプリケーションの解析 2011年10月から継続検討 検討のベースとする4つのアーキテクチャを提示 スケーリングと最適アーキテクチャの変化 要素技術としてメモリアーキテクチャの研究 25 低下するB/Fの性能への影響をDRAM制御の改善 で最小限に抑える 2012/03/16 ご清聴ありがとうございました 明日、ポスター発表も行います 本発表はメモリにフォーカスしていますが、 ネットワーク・ストレージの話もWelcomeです 26 2012/03/16