外川氏 - 大阪大学 核物理研究センター

Download Report

Transcript 外川氏 - 大阪大学 核物理研究センター

スーパーコンの概要
日本物理学会(首都大学)
2007年3月25日
大阪大学核物理研究センター
計算機室 外川浩章
スーパーコンの概要
• Phase I (2007.1~)
32GF
64, 128, 256GB
×
8 nodes (CMC)
= 2.0 TF
6 nodes (ILE)
= 1.5 TF
6 nodes (RCNP)
= 1.5TF
Note 64GB×4nodes, 128GB×8nodes, 256GB×8nodes
128 TB (CMC suita)
64 TB (ILE)
64 TB (RCNP)
計 5 TF
スーパーコンの概要
• Phase II (2008.7~)
100GF
100GF
×
1024GB
768 TB (CMC suita)
In addition to phase I
10 nodes (CMC)
= 16 TF
スーパーコンの構成
• Phase I (2007.1~)
RCNP and ILE
32GF
64GB
32GF
128GB
CMC
×2
×4
35GF
256GB
×8
スーパーコンの構成
• Phase II (2008.7~)
RCNP and ILE
32GF
64GB
32GF
128GB
CMC
×2
35GF
256GB
100GF
×4
100GF
1024GB
×8
×10
スーパーコンの概要
• 占有ノードという固定した考え方はなくす
– が、占有ノードは残せる
• メモリの速度と容量が異なるノードの混在
– Phase2ではCPU速度が異なるノードも混在
• システム全体としてのスループットを追及する
• CMCユーザーのジョブがRCNPやILEでも流れる
• フェアシェアによる適切な資源割当て
• 利用負担金は変更なし。レンタル期間を通じての平
均化。
スーパーコンの運用
• Phase I (2007.1~)
RCNP(ILE)
CMC
RCNP(ILE)占有
CMC占有
32GF
32GF
64GB
32GF
128GB
32GF
128GB
64GB
32GF
128GB
32GF
128GB
35GF
256GB
×8
(共有2/8)
スーパーコンの運用(案)
• Phase II (2008.7~)
RCNP(ILE)
CMC
RCNP(ILE)占有
CMC占有
32GF
32GF
64GB
32GF
128GB
64GB
32GF
128GB
35GF
256GB
100GF
100GF
1024GB
32GF
128GB
32GF
128GB
×8
(共有2/8)
×10
(共有2.5/10)
スーパーコンの運用
• Phase I (2007.1~)
RCNP site
CMC site
ILE site
32GF
64GB
32GF
64GB
35GF
256GB
35GF
256GB
32GF
64GB
32GF
64GB
32GF
128GB
32GF
128GB
35GF
256GB
35GF
256GB
32GF
128GB
32GF
128GB
32GF
128GB
32GF
128GB
35GF
256GB
35GF
256GB
32GF
128GB
32GF
128GB
35GF
256GB
35GF
256GB
RCNP nodes
CMC nodes (2 nodes for RCNP)
ILE nodes
ネットワーク構成
Super SINET
fss
fss
SX8
SX8
SX8
SX8
SX8
SX8
SX8
SX8
SX8
DMZ-SC
SX8
SX8
SX8
FW
SX8
SX8
SX8
miho
Jumbo
NAS
Gfirm
NAS
SERVER
st1,2
st1,2
FC-SW
FC-SW
FC-SW
96TB
64TB
200TB
その他
ディスクの運用
fs at SUPER
/sc/rcnp/home
/sc/rcnp/work
/sc/rcnp/short
/sc/rcnp/data
/sc/rcnp/data5
fs at IBM
/home.super
/work.super
/short.super
/data.super
/data5.super
Usage
home directory
permanent file
temporary file
permanent file
permanent file
Size
4 TB
52 TB
42 TB
16 TB
16 TB
Quota
100 GB/user
none
none
none
none
Comment
snapshot
3センター共用
ディスクの運用
SX-8, etc
FC
NAS
FC
Home
Work
Short
Other
SuperSINET
Site
miho, etc
nfs
nfs
rsync
nfs
FC
ST
STS
FC
FC
DataX
Mirror
キューの運用
基本的には新しいジョブ管理システム(JM)に任せる
投入ジョブクラスは「sx-rcnp」の1つだけ
CMCノードへの投入は別
CPU数、メモリ量、経過時間を指定してジョブを投入
後はJMが「実行予定表」にジョブを貼り付けて「予約」する。
一度予約されると、その実行開始が遅れる事はない
システム障害等の不測の事態が発生した場合は除く。
あるジョブを、他の予約を破棄して優先的に実行する機能もある。
リソースの要求のされ方により、予約表には隙間ができてしまうことがあ
る。後から投入されたジョブがこの隙間に入る場合、そのジョブでそこを埋
める。(バックフィル機能)
この事で既に予約されているジョブが遅れる事はない事に注意。
使用実績を反映してジョブの優先度を決定する。(フェアシェア機能)
キューの運用
RCNP
sx-rcnp@rcnp
R4D@rcnp
CMC
SXF@cmc
SXL@cmc
DBG@cmc
LSP@cmc
qsubして1分待つ。
予約状況の表示
CMCノード
http://www.hpc.cmc.osaka-u.ac.jp/j/service/sx_jobjyoho.html
RCNPノード
https://www.hpc.cmc.osaka-u.ac.jp/manual/cis-rcnp.html
CPUの割当て
sx803
batch
batch
batch
batch
batch
batch
DEBUG
会話型
batch
batch
batch
64 GB
sx810
batch
batch
batch
batch
batch
会話型
128 GB
sx811
batch
batch
batch
batch
batch
128 GB
batch
batch
batch
ログインサーバーとフロントエンド
login.hpc.cmc.osaka-u.ac.jp
login.hpc.cmc.osaka-u.ac.jp
fronta
frontb
frontc
sx-8
会話型
login.rcnp.osaka-u.ac.jp
frontd
miho
sx803
会話型
sx810
会話型
ファイル転送サーバー
ftp.hpc.cmc.osaka-u.ac.jp
home
work
short
ftp1.rcnp.osaka-u.ac.jp
ftp2.rcnp.osaka-u.ac.jp
data
data5
home
IBM
パスワードの変更について
CMCの方針で、NIS系のコマンドは使用禁止にする。
unixのコマンドでパスワードを変更する事はできない。
wwwインターフェイスが用意される。(4月2日~)
大規模デバッグジョブの募集について
CMCのDDR2の4ノードを数時間予約してデバッグをしてもらう
運用開始直後でユーザーも使い方に悩んでいる
小規模なデバッグでは問題を発見、修正できない場合がある
数人で行なってもらう
ユーザー当たりの同時実行数は1とする
経過時間は30分。(大きくして欲しいという声はある)
管理者と常に連絡が取れる状態で行なってもらう