ppt - 大阪大学 核物理研究センター

Download Report

Transcript ppt - 大阪大学 核物理研究センター

SX5@RCNP超入門
斎藤卓也 中村純
広島大学・情報メディア教育研究センター
RCNPワークショップ「高速計算機を用いた研究の現状と将来」
2004年11月10日(水)
http://nio-mon.riise.hiroshima-u.ac.jp/~nakamura/RCNP-SX5.ppt
(出来れば英語版も準備したい)
このTalkで訴えたいこと
or
真のHPCを目指して
SX5 at RCNP
1. すばらしいハードウェア
–
是非研究に有効に役立てましょう
2.ボロボロのソフトウエア
–
–
–
我々の知識不足が原因?
どうやってうまく使うか
できれば何とか次期システムでしてほしい
国外ユーザーからのメッセージ
•
One complaint about SX5 is that there is no good and up to date help web
page (at least in English) for the users. They have changed now the
commands for submitting jobs etc. I have received e-mails concerning
those changes but the main body is in Japanese. It would be helpful if
there would be a web page with such info. in English (perhaps there is and
I don‘t know) It is also not clearly stated anywhere which are the available
disks and their characteristics, it seems that in some of them data is
removed if not used for a certain time.
Anyway, SX5 works much better than any of the systems I have used in
Spain so I don't want to complain too much.
•
SX5について不満に思うことは、どこにもユーザーに対するきちんとした最新の
HELPウェブページが(少なくとも英語では)無いことです。ジョブをサブミットする
コマンドなどが最近変更されました。この変更に関するE-メールを受け取りました
が本文は日本語でした。もし、このような情報に関する英語のウェブページがあ
れば、とても助けになります。(おそらく存在していて私が知らないだけなのででょ
う) どれが使用可能なディスクで、その条件がどうなっているのか、どこにも記述
が見当たりません。ディスクのいくつかは、一定時間使用されないと、データが消
されるようです。
しかし、SX5は私が自国でこれまで使ったどのシステムよりも、はるかによく動く
ので、あまり不満をいいたいとは思いません。
目次
1.
2.
3.
4.
5.
6.
SX5 (中村)
アカウントの取得まで (中村)
ログイン、ジョブのサブミット(SX57) (中村)
SX上でのコンパイル (斎藤)
並列実行(SX52~57) (斎藤)
要望 (斎藤)
アカウントの取得まで
1. 利用資格:素粒子・原子核の研究者


有職、無職を問わない
国外の人も利用可(これは大英断!大計センターは駄目)
2. RCNP理論部・保坂淳先生にメールでお願いする
3.
http://www.rcnp.osaka-u.ac.jp/Divisions/CN/computer/apply/apply_com.html
からUNIXマシーン(senri.rcnp.osaka-u.ac.jp)のアカ
ウントをWebで申請。

4.
このページだけ英語だが実際の申請ページ、説明は日本語なので、日
本語の読めない人は誰かに頼む
http://www.rcnp.osaka-u.ac.jp/Divisions/CN/computer/super/apply.html
を読んで、UNIXマシーンからメールでスーパーコン
ピュータ(SX5)のアカウントを申請

返事はsenriに来る
ログイン、ジョブのサブミット(SX57)
1. senri.rcnp.osaka-u.ac.jpにまずログイン
2. そこからsx5.rcnp.osaka-u.ac.jpへssh
(telnetもOK)
3. sx5上のUNIXは非常に使いにくいので、コ
ンパイル、サブミット(とキューの確認)以外
はできるだけsenriの上で
 senri上の/home.sx5/rcnpXXXX にsx5のホー
ムがマウントされている
(rcnpXXXXはsx5上のアカウント名)
SX5
ベクトル機
 長いDOループ(繰り返しループ)のある科学技術計算な
ら、PCクラスターよりはるかに高い実行スピード、容易な
プログラミング
1ノード=10GFLOPS/CPU × 16
+ 128GBメモリー
(1GFLOPS=1秒間に109回の和差積計算)
CMC(大阪大学サイバーメディアセンター)
全体では8ノード
 RCNPが1ノード、
レーザー核融合研究センターが1ノード
多分配置はこうなっている
SX50
SX51
SX52
SX53
front02
(login.hpc.cmc.osaka-u.ac.jp)
SX54
SX56 (ILE)
SX55
SX57 (RCNP)
senri
(senri.rcnp.osaka-u.ac.jp)
ログイン、ジョブのサブミット(続き)
• コンパイルは(pathは/usr/bin)
 fortran → f90
 C → cc
 C++ → c++
• 投げるキューは
 RS 5 min 2GB(最大16GB)
 RM 2 hours 2GB(最大8GB)
 RL 8 hours 2GB(最大16GB)
ログイン、ジョブのサブミット(続き)
• キューの状態を見る
 qstat -u rcnpXXXX (自分のジョブの状態)
 qstat -Q (すべての状態)
• キュー上のジョブをキャンセル
 qdel request.id
• NQSII(新しいNQSコマンド)一覧表
英語版はどこ?
簡単なサブミットの例
• qsub –q RM script-file
script-fileの中身の例
#!/bin/csh -f
setenv F_PROGINF DETAIL
cd /sx/rcnp/home/rcnpXXXX
./a.out > out
mv fort.2 fort.1
qsub -q RM goNEXT
終了後、XXX.oYYY, XXX.eYYYというファイルができる
(XXX:スクリプトファイル名、YYY:ジョブID)
SX5上でのコンパイル
On sx57 ( Super-UX UNIX), % f90 program.f
On login02 ( Linux ), % sxf90 program.f
よく使うオプション
% f90 -C hopt –Wf”-a dbl4” –ftrace
-C hopt : 最適化オプション
-Wf”-a dbl4” : 単精度実数→倍精度実数
-ftrace : 実行性能の測定
プログラム実行サイズの概算
% size ./a.out
4151696 + 237456 + 441659328 = 446048480
( cmc上では、sizeではなく、sxsize(バグあり?) )
% ftrace -f ftrace.out
(sxftrace, login02 )
Ftrace
*--------------------------*
FLOW TRACE ANALYSIS LIST
*--------------------------*
?
Execution : Fri Oct 1 18:20:26 2004
Total CPU : 1:09'01"691
PROG.UNIT FREQUENCY EXCLUSIVE
prodlink
1055803 1254.936( 30.3)
copylink
938136 791.739( 19.1)
dudxi
grotat
gprojct
sgfix
117317
117267
117267
117267
AVER.TIME MOPS MFLOPS V.OP AVER. VECTOR I-CACHE O-CACHE
BANK CONF
1.189 12945.6 5829.0 99.97 507.2 1254.300 0.1561 0.0530 520.8865
0.844 1496.2
0.0
655.447( 15.8) 5.587 4122.1 745.3
402.203( 9.7) 3.430 2573.5 0.0
338.031( 8.2) 2.883 12490.8 5547.6
160.532( 3.9) 1.369 614.4 204.5
99.76 507.1 791.204 0.0466 0.0346 224.3939
99.87 507.1 655.111
99.90 507.1 400.673
99.86 507.4 337.143
99.85 507.1 159.665
0.1700
0.3391
0.5163
0.6046
0.0535 226.9930
0.1071 73.5016
0.1420 15.4681
0.0935 73.9506
略
init3
1 0.001( 0.0) 0.628 446.2 0.0 2.60 260.5 0.000 0.0000 0.0000 0.0000
cinit3
1 0.000( 0.0) 0.003 30.3 0.0 0.00 0.0 0.000 0.0000 0.0000 0.0000
---------------------------------------------------------------------------------------------------------total
3168865 4141.692(100.0) 1.307 6722.5 2567.4 99.91 507.0 4111.186 2.2417 0.7822 1311.3879
並列プログラムのコンパイル
MPIを使うとき、
並列キューの書き方
On sx57
% mpif90 mpi-test.f
#!/usr/bin/csh
#PBS -q P4A@cmc
cd /xxx/xxxx
mpirun -np 4 ./a.out
On login02(cmcノード)
% sxmpif90 mpi-test.f
並列プログラムのコンパイル
自動並列化を
使うとき
% f90 –P auto
OpenMPを使うとき
% f90 –P openmp
並列キューの
書き方
#!/usr/bin/csh
#PBS -q P4A@cmc
setenv OMP_NUM_THREADS 4
cd /xxx/xxx
./a.out
並列キュー(cmcノードのみ)
P4A, P4, P8, P16(同ノード内)
MPI32、MPI64
ハードディスク
使用できおもなハードディスク:
MP(sx57)
MP(cmc)
hosted speed(sx57) speed(cmc)
size
quota
/sx/rcnp/home /sx/rcnp/home sx57
high
mid
1TB
5GB/user
/sx/rcnp/work /sx/rcnp/work
sx57
high
mid
2TB
none
/sxshort/rcnp /sxshort/rcnp
CMC
mid
high
8TB
none
/sx/rcnp/data
ibm
slow
3TB
none
/sx/rcnp/data2
fss
slow
2TB
none
ハードディスク
現在の使用状況:
sx57:/sx/rcnp/home
sx5g0:/sxshort/cmc
sx5g0:/sxshort/ile
sx5g0:/sxshort/rcnp
sx54:/sx/cmc
sx56:/sx/ile/local
sx56:/sx/ile/home
sx56:/sx/ile/temp
sx57:/sx/rcnp/work
ホームディレクトリ
1.0T 330G
8.3T 7.3T
8.3T 7.3T
8.3T 7.3T
1.0T 436G
1.0T 150G
1.0T 150G
2.1T 868G
2.1T 2.1T
734G 31% /sx/rcnp/home
1.0T 88% /sxshort/cmc
2週間で削除
1.0T 88% /sxshort/ile
1.0T 88% /sxshort/rcnp
588G 43% /sx/cmc
914G 15% /sx/ile/local
914G 15% /sx/ile/home
1.2T 41% /sx/ile/temp
60G 98% /sx/rcnp/work
ワークディレクトリ
計算結果の一例(SX5による)
格子QCDシミュ
レーションによる
有限温度QCD電
場・磁場遮蔽質量
の計算。
並列キューP16、
P8、などを使い正
味6ヶ月程の計算
要望1:コンパイラーについて
1.
2.
3.
4.
Fortran90 は、Fortran77より遅い。
F90の自動並列化では、Fortran90のモジュールが並列化
されない。自動並列化したとき、やけに実行ファイルが大き
くなる。
OpenMP(要素並列用インターフェース)でも、モジュール
を含むとき並列化されない。(ひょっとしてOpenMPの問
題?実行ファイルは大きくならない。)
コールしないサブルーティンもメモリーを必要とする?モ
ジュールを含んでいるせい?
要望2:ハードディスクについて
1.
ユーザー個人(自分)専用のHDをもてないか?お金は自
分ではらうので(300GBあたり3万円程度)。
2.
SX5上で生成されたバイナリーファイルを、じかに
login02(linux), senri上で読み込むことはできないか? も
しくは、データ転送した後自分のパソコンで。
3.
RCNPとCMC間の転送速度やお互いのHDの参照。(大変
だとは思いますが・・・。)
要望3:実行するとき
1.
RCNPではインタラクティブにプログラム実行がOK(CMCで
は駄目)。とても便利、しかしフロントエンドの挙動が遅くなる
ので、制限を付ける?
2. RCNPノードにおいてRLキューでも最大16Gバイトであり、上
限を増やしたキューがほしい。これ以上のプログラムは要素
並列化をしないといけない。
– P4なら60Gバイト
– CMCでは50Gバイト(p1L)、これはRCNPユーザーは使用
不可。
3. MPIで並列化してもWall Clock time (戻ってくるまでの実時
間)は早いとは限らない。良いのか悪いのか???
要望4:その他
1.
2.
3.
4.
ヘルプデスクのFAQは、2001年度から何も更新されていな
い。また、RCNPからのヘルプデスクのリンクは切れている。
Super-UXはとにかく使いにくい。RCNP側にもLinuxのフロン
トエンドが欲しい。
いままでの細かく更新された内容(クォーターコマンド、バッ
ファーサイズ(F_SETBU)などに関すること)を、どこかにまと
めて欲しい。現状では、以前にメールで流れた情報を探すの
に苦労する。また、新参者はそもそもわからない。(たとえば、
CMCノードにある“osirase”コマンドは便利。)
日本語を理解しない外国人ユーザーについては?
次期コンピュータとしては
⇒次のステップへ
の計算のため
200TFLOPS欲しい