Transcript ppt

グリッド技術を利用した大規模
計算機システムの構築
東大素粒子物理国際研究センター
松永浩之、磯部忠昭、小林富雄、坂本宏、
真下哲郎、松井長隆、森下可奈子
Worldwide LHC Computing Grid
• LHC実験では、データ量がかつてないほど多いの
で、 CERNだけでデータの保管や処理を行うことが
不可能
– Raw データの量だけで >3PB/year
• Worldwide LHC Computing Grid (WLCG)
– LHCの実験に必要な計算機資源を確保し、Grid
middleware の開発・配備を行う
• WLCG においても、仮想組織(VO: Virtual
Organization) ごとに使用・運用方法は少しずつ異
なる (VO は各実験に対応:ATLAS VO など)
– WLCGサイト間の連携や、サイトでのソフトウェアのインス
トール方法など
地域解析センター
• 東大素粒子センターに、日本におけるアトラス実験
のデータ解析の拠点として、「地域解析センター」を
設置
• 地域解析センターでは、WLCG として使用する資源
とそれ以外 (非WLCG) の資源に区別して運用
– WLCGでは ATLAS VO のみサポート
– 非WLCG 分は、ATLAS日本グループが独占して使用
– ただし、WLCG に提供しているストレージ(ディスク)は、
非WLCG の計算機からもアクセス可能なように設計
• WLCG で使用されている三種類の Grid
middleware のうち、ヨーロッパを中心に開発されて
いる gLite を用いて、WLCG のサイト (TOKYOLCG2) を構築・運用
計算資源
• 昨年から本システム設置
• 計算サーバー: 650 ノード x 4 コア
– 120 ノードを gLite の Worker Node として使用
(~1000kSI2k)
– また、一部は gLite “Head Node” として使用
• ディスクアレイ: 140台
– 1台に 500GB x 16 HDD、RAID-6 で使用
– 30台 (~190TB) を WLCG に提供
• 近く65台 (~400TB) まで追加予定
• テープライブラリ:8000本
– LTO-3 (400GB/本)
Tape Robot
PC Servers
Disk Arrays
Disk Arrays
~270 m2
WLCG サイト構成
• CE (Computing Element) + WN
– Torque + Maui の batch system
• Fair share、Priority (Production、software インストール)
• (将来 WN 数が増加した場合) LSF への移行も検討
– WN は、8GB memory (2GB/core)、~40GB working disk space
(10GB/core)
• SE (Storage Element)
– DPM (Disk Pool Manager) で構築
• CERN の Castor から派生(テープはなし)
– rfio、name server (MySQL based)
• データ転送は gridFTP
• xrootd の動作も可能
• rfio などにより、(非LCG 上のノードの)ジョブから直接ファイルをアクセ
ス可能
• SRM (Storage Resource Manager) プロトコル対応
– 実験からの機能要求、異なる実装に対する interoperability
• Information System (BDII、Globus MDS)、LFC File
Catalog、Resource Broker、User Interface、
Monitoring/Accounting など
SE の構築
• 1台のファイルサーバーに5台のディスクアレイ (~6TB/台) を接続
– 4Gbps の Fibre-Channel
– ファイルサーバーでは、Chelsio の 10Gbps の NIC を使用
• 遠くの相手と効率よくデータ転送するため、TCP の Window size 等を調
整
– 東大のサイトは、主にフランス・リヨンのサイトとの間でデータを転送
(RTT~280ms)
• SL3/i386 用パッケージしかないころより、 SL4/x86_64 の OS で(互換
モードで)稼動。また、filesystem には XFS を使用
– SL4 の TCP の実装 (BIC-TCP) は、SL3 のもの (TCP Reno)より輻輳制御
が優れている
– 大きな Filesystem (>2TB) を作成可能。
– 大量のファイル消去は ext3 より XFS のほうが高速。また、XFSは大きな
ファイルの扱いが得意
– gridFTP を用いた multi-stream でのデータ転送による fragmentation の効
果が XFS は ext3 より小さい
– ただし、XFS は (RedHat Linux でサポートされていないため)独自に patch
を当てたり kernel parameter の調整をしないと高負荷で不安定になる場合
がある
利用ソフトウェア
• Quattor
– OS インストール (+ アップデート)
• Lemon
– Fabric モニター
• MRTG, SmokePing
– Network モニター
• OpenManage (Dell), RAIDWatch (Infortrend)
– サーバー、RAID 管理
• 自家製 scripts
– SE でのディスク利用、データ転送状況
– CE でのアカウンティング
• その他、LCG で提供されているモニター、アカウンティング
高可用性・高信頼性
• 東大のサイトは高可用性・高信頼性を実現
– WLCGサイトにおいて上位
• 2008年1月には、可用性98%、信頼性99%
• ハードウェアの選択
– UPS、冗長構成(RAID、電源、Oracle RAC)
• 事前の高負荷でのテストによる不良発見
– FB-DIMM の ECC single bit error
– 電源ユニットの故障
– XFSに起因する kernel panic
• gLite middleware の慎重な update
– 頻繁に update が release されるが、仕様・設定の変更や bug が含
まれることが多い
• 各種モニタリング・ツールの活用
サイトの利用統計
月ごとのCPU 使用量
ディスク使用量、使用可能量
50TB
200TB
• CPU、ディスクの使用とも順調に増加
– CPU は ATLAS Production の状況で変化
– ディスクは昨年8月に~190TB追加
まとめと予定
• TOKYO-LCG2 の運用は順調
– 高可用性、高信頼性を実現
– 使用率も除々に増加
– データ転送のための最適化も進展(次のトーク)
• 今後の予定
– Oracle RAC の運用
• gLite の backend の database として
• ATLAS Conditions database
– ATLAS software 等を AFS で提供
– (非WLCG部分での)Castor の導入