光空間リンクを用いた相互結合網

Download Report

Transcript 光空間リンクを用いた相互結合網

光空間リンクを用いた省配線・可変
トポロジであるHPC相互結合網
鯉渕 道紘,藤原 一毅(国情研)
長谷川 洋平,橋本 陽一(NEC研)
松谷 宏紀,天野 英晴(慶大)
ハイライト
コリメーター
10Gbase-LR
Top view of Cabinet layout
ラック上にコリメータレンズを設置
ラック間を光空間リンクで通信
光空間(無線)リンクで取り組む相互結合網の課題
(光空間リンク=汎用ケーブル(10Gbase-LR/SR) + コリメーターレンズ)
•
•
スパコンのフロア内総配線長:2,000km以上 → 廃棄すら難しい
並列アプリケーションの通信パターン毎に最適化したトポロジを構成可能
(※) コリメーターレンズ:光源を焦点において平行光を得られるように収差補正2
されたレンズ。ファイバーチャネルからの射出光線を「平行光線」に変換
概要
1.HPC,データセンターのネットワークトポロジ
2.光空間(無線)リンクの構築
3.本相互結合網のスケーラビリティ
NW サイズ vs 配線長/光空間リンク数
4.光空間リンクの可能性と関連技術
5.結論
3
ネットワーク・トポロジと配線長
N次元トーラス
ハイパーキューブ
0000
0100
0001
0101
0010
0110
1000
1001
1010
Switch 1100
1101
1110
ランダム[Koibuchi et al ISCA2012]
0011
0111
1011
1111
図1:ネットワークサイズと配線長
[Koibuchi et al, HPCA2013]
NWが大きくなると配線長が劇的に増加
スパコン毎にトポロジが全然違う
例:京コンピュータ,BG/L,Q[トーラス], TSUBAME2.0[Fatツリー]
4
概要
1.HPC,データセンターのネットワークトポロジ
2.光空間(無線)リンクの構築
3.本相互結合網のスケーラビリティ
NW サイズ vs 配線長/光空間リンク数
4.光空間リンクの可能性と関連技術
5.結論
5
光空間リンクの構築
• 汎用品のデバイスの利用
– 10Gbase-SR(波長850nm)/LR(1310nm)
– コリメーターレンズ (ファイバーからの射出光線を平行光線へ)
– 焦点を合わせるための位置補正(X-Y-Z の3軸)
• 達成したこと
– 干渉無: リンクの密度増、照明などの影響なし
– ワイヤーレートのend-to-endデータ転送
– 高い安定性
コリメーター
10Gbase-LR
Data (iperf)
FSO link length
RX
TX
PC2
PC1
Sender
RX
Collimator Lens
測定条件
6
TX
Fiber
Receiver
測定結果
•
•
測定を行ったすべての距離(~10m)で9.4GbpsTCP転送(iperf)を達成
24時間測定を行ったが、性能劣化無
イーサネットカードの受信感度-12.5dBm
7
詳細な性能測定
MP1
TX
MP2
MP3
MP4
FSO link
RX
PC2
PC1
Sender
•
RX
Collimator Lens
TX
Fiber
光空間長を10mに伸長しても6.0dBのリンク損失
8
Receiver
光空間リンク帯域とエラー率計測
(光ミラー反射)
Receiver PC2
RX
TX
表1:40cm距離における減衰
信号強度
Collimator Lens
Data (iperf)
TX
FSO link
直進
- 5.1dBm
ミラー
-7.8dBm
PC1
Sender
RX
Mirror
イーサネット、IBともに-10dBm許容
Fiber
Iperf TCPで9.4Gbps転送を達成
ミラー反射により2.7dBの損失
光空間リンクは高々1つのミラーを挟むことが可能であり、
10mの距離まではワイヤーレート転送可能
概要
1.HPC,データセンターのネットワークトポロジ
2.光空間(無線)リンクの構築
3.本相互結合網のスケーラビリティ
NW サイズ vs 配線長/光空間リンク数
4.光空間リンクの可能性と関連技術
5.結論
10
光空間リンクを用いた相互結合網
コリメーター
10Gbase-LR
Top view of Cabinet layout
ラック上にコリメータレンズを設置
ラック間を光空間リンクで通信
光空間リンクは
- 安定性、設置密度、干渉の問題なし
- ラック上のスペースを利用
→どの位、配線長を削減できるのか?
11
配線長の最適化(有線 vs 有線&無線)
ラック間配線数を少なく!
クラスタリング
0000
0100
1000
0001
0101
1001
配線長を短く!
マッピング
0010
0110
1010
◆
●
▲
★
■
▲
ネットワーク・トポロジ
ラック間の配線数→min.
ラック間の配線延長→min
 配線長の最小化[Fujiwara et al, PDCAT2012]手法を適用
 CrayBlackWidow, ANSI/TIA/EIA-942標準からパラメータ抽出
配線長の評価
80%削減
 FSO Basis: 隣接キャビネット間とキャビネット内のみ配線(4次
元メッシュ、内2次元はキャビネット内)
 ランダムと比べて 80%、ハイパーキューブ比 53%配線長削減
13
光空間リンクのコネクション数の評価
 「完全な」ランダムトポロジを生成するのは困難
ただし、直径を小さく抑えたまま部分的なランダムトポロジ
[Koibuchi et al, HPCA2013]であればFSOリンク数の抑制可能
14
概要
1.HPC,データセンターのネットワークトポロジ
2.光空間(無線)リンクの構築
3.本相互結合網のスケーラビリティ
NW サイズ vs 配線長/光空間リンク数
4.光空間リンクの可能性と関連技術
5.結論
15
ところで可変トポロジは?
ユーザ毎、タスク・並列アプリケーション毎に、
光空間リンクを設定することでトポロジを更新
Switch
Switch
Host
Host
…
Random
Torus
マシンルーム内のラック配置の Top View
16
可変トポロジの実現技術
(1) 任意のスイッチ間に光空間リンクを構築する
メカニカルアラインメント技術
– 有線ネットワークにより光空間端末の位置情報の
把握が可能
– 実は、大規模な光空間リンクは、 車間通信でも
実現されている
(2) スイッチの光空間リンクの認識
– 10GBase-LR/SRにより自動
17
増強、耐故障性、パーティショニング
(1) ケーブル故障、スイッチポート接続間違い
→ 光空間リンクで代用
(2) 特にデータセンター
– ユーザ毎、タスク毎にノード間をオーバレイネットワ
ーク接続しなくても、光空間リンクで物理的に最適
なトポロジを構築可能(次スライド)
18
光空間リンクを用いたトポロジの構成
とパーティショニング(Fat ツリーの例)
①16個のキャビネットを
4x4メッシュで接続。
有線リンクのみ使用。
②16個のキャビネットを
4個のクラスタに分割。
クラスタ内の4ノードを
赤ルータで接続。
有線リンクのみ使用。
③4個のクラスタを、2個の青ルータでFat Tree の
上位階層に接続。青リンクは光空間リンクを使用。
マシンルーム内
のキャビネット
のtop view
動的に光空間リンクを
任意のキャビネット間で
構築可能
ユーザが求める物理
ネットワークトポロジを
提供可能
60GHz 無線リンク技術との比較
(1) 60GHz無線(802.11ad)
帯域は1~数Gbps、干渉、盗聴と漏えい対策
→ 光空間リンクはイーサネット技術を利用す
れば40Gbps以上も可能。干渉無、盗聴問題無
(2)配置の自由度と帯域劣化(Halperin et al,
Sigcomm2012)のトレードオフがシビア
→ ミラーも使え、配置の制約は極めて緩い
22
まとめ
(1) 光空間リンクの構築
- 低遅延:3.2ns/m (光ファイバと違い屈折しないため)
- 10m まで10GBASE-LR のワイヤーレート転送(今後 40Gbps 転送に挑戦)
- 十分な安定性、PC振動や照明、相互干渉は認められず
(2) 現実的な光空間リンク数で配線長53%~80%減
耐故障性の提供と任意のパーティショニング可能
10Gbase-LR
Top view of Cabinet layout
コリメーター
ラック上にコリメータレンズを設置
ラック間を光空間リンクで通信