Transcript ppt
グリッド技術を利用した大規模 計算機システムの構築 東大素粒子物理国際研究センター 松永浩之、磯部忠昭、小林富雄、坂本宏、 真下哲郎、松井長隆、森下可奈子 Worldwide LHC Computing Grid • LHC実験では、データ量がかつてないほど多いの で、 CERNだけでデータの保管や処理を行うことが 不可能 – Raw データの量だけで >3PB/year • Worldwide LHC Computing Grid (WLCG) – LHCの実験に必要な計算機資源を確保し、Grid middleware の開発・配備を行う • WLCG においても、仮想組織(VO: Virtual Organization) ごとに使用・運用方法は少しずつ異 なる (VO は各実験に対応:ATLAS VO など) – WLCGサイト間の連携や、サイトでのソフトウェアのインス トール方法など 地域解析センター • 東大素粒子センターに、日本におけるアトラス実験 のデータ解析の拠点として、「地域解析センター」を 設置 • 地域解析センターでは、WLCG として使用する資源 とそれ以外 (非WLCG) の資源に区別して運用 – WLCGでは ATLAS VO のみサポート – 非WLCG 分は、ATLAS日本グループが独占して使用 – ただし、WLCG に提供しているストレージ(ディスク)は、 非WLCG の計算機からもアクセス可能なように設計 • WLCG で使用されている三種類の Grid middleware のうち、ヨーロッパを中心に開発されて いる gLite を用いて、WLCG のサイト (TOKYOLCG2) を構築・運用 計算資源 • 昨年から本システム設置 • 計算サーバー: 650 ノード x 4 コア – 120 ノードを gLite の Worker Node として使用 (~1000kSI2k) – また、一部は gLite “Head Node” として使用 • ディスクアレイ: 140台 – 1台に 500GB x 16 HDD、RAID-6 で使用 – 30台 (~190TB) を WLCG に提供 • 近く65台 (~400TB) まで追加予定 • テープライブラリ:8000本 – LTO-3 (400GB/本) Tape Robot PC Servers Disk Arrays Disk Arrays ~270 m2 WLCG サイト構成 • CE (Computing Element) + WN – Torque + Maui の batch system • Fair share、Priority (Production、software インストール) • (将来 WN 数が増加した場合) LSF への移行も検討 – WN は、8GB memory (2GB/core)、~40GB working disk space (10GB/core) • SE (Storage Element) – DPM (Disk Pool Manager) で構築 • CERN の Castor から派生(テープはなし) – rfio、name server (MySQL based) • データ転送は gridFTP • xrootd の動作も可能 • rfio などにより、(非LCG 上のノードの)ジョブから直接ファイルをアクセ ス可能 • SRM (Storage Resource Manager) プロトコル対応 – 実験からの機能要求、異なる実装に対する interoperability • Information System (BDII、Globus MDS)、LFC File Catalog、Resource Broker、User Interface、 Monitoring/Accounting など SE の構築 • 1台のファイルサーバーに5台のディスクアレイ (~6TB/台) を接続 – 4Gbps の Fibre-Channel – ファイルサーバーでは、Chelsio の 10Gbps の NIC を使用 • 遠くの相手と効率よくデータ転送するため、TCP の Window size 等を調 整 – 東大のサイトは、主にフランス・リヨンのサイトとの間でデータを転送 (RTT~280ms) • SL3/i386 用パッケージしかないころより、 SL4/x86_64 の OS で(互換 モードで)稼動。また、filesystem には XFS を使用 – SL4 の TCP の実装 (BIC-TCP) は、SL3 のもの (TCP Reno)より輻輳制御 が優れている – 大きな Filesystem (>2TB) を作成可能。 – 大量のファイル消去は ext3 より XFS のほうが高速。また、XFSは大きな ファイルの扱いが得意 – gridFTP を用いた multi-stream でのデータ転送による fragmentation の効 果が XFS は ext3 より小さい – ただし、XFS は (RedHat Linux でサポートされていないため)独自に patch を当てたり kernel parameter の調整をしないと高負荷で不安定になる場合 がある 利用ソフトウェア • Quattor – OS インストール (+ アップデート) • Lemon – Fabric モニター • MRTG, SmokePing – Network モニター • OpenManage (Dell), RAIDWatch (Infortrend) – サーバー、RAID 管理 • 自家製 scripts – SE でのディスク利用、データ転送状況 – CE でのアカウンティング • その他、LCG で提供されているモニター、アカウンティング 高可用性・高信頼性 • 東大のサイトは高可用性・高信頼性を実現 – WLCGサイトにおいて上位 • 2008年1月には、可用性98%、信頼性99% • ハードウェアの選択 – UPS、冗長構成(RAID、電源、Oracle RAC) • 事前の高負荷でのテストによる不良発見 – FB-DIMM の ECC single bit error – 電源ユニットの故障 – XFSに起因する kernel panic • gLite middleware の慎重な update – 頻繁に update が release されるが、仕様・設定の変更や bug が含 まれることが多い • 各種モニタリング・ツールの活用 サイトの利用統計 月ごとのCPU 使用量 ディスク使用量、使用可能量 50TB 200TB • CPU、ディスクの使用とも順調に増加 – CPU は ATLAS Production の状況で変化 – ディスクは昨年8月に~190TB追加 まとめと予定 • TOKYO-LCG2 の運用は順調 – 高可用性、高信頼性を実現 – 使用率も除々に増加 – データ転送のための最適化も進展(次のトーク) • 今後の予定 – Oracle RAC の運用 • gLite の backend の database として • ATLAS Conditions database – ATLAS software 等を AFS で提供 – (非WLCG部分での)Castor の導入