High throughput of large data analysis

Download Report

Transcript High throughput of large data analysis

MLF計算環境の概要
大友季哉
Basic computing requirements at MLF
•
High throughput of large data analysis
–
–
–
On-line analysis of GB order data during an experiment
Interpretation software (simulation) will be used on an experiment
Data analysis affect on effective flux of neutron (muon)
•
•
Variety of experimental approaches
–
Extreme experiments will become conventional
•
–
Flexible instrument control
Naïve experimental conditions
•
•
Fast and reliable data analysis and experiment systems are required
Automatic and manual logging of experiment and analysis
Large number of user
–
Several ten thousands of cumulative users / year
•
•
–
Database for user program should be implemented
Computing environment should be user-friendly
Security
•
User identification and authorization are essential to enable flexible access to MLF/J-PARC
•
Collaboratory system will open new style of experiment
•
Computing environment is one of essential infrastructures of MLF
MLF計算環境グループの目的
• ユーザーが実験に集中でき、新しい実験・
解析アイディアを反映しやすい計算環境を
構築する。
• 基盤を整備する事で、MLF内で同じソフト
開発が行なわれる事無く、かつソフトウエ
アの品質が継続的に改良されていく環境
を構築する。
Component structure (old)
“Working Desktop” component will control other components
Components
全てのユーザーのアクセスremote
access”と見なすこともできる(?)なら、
わざわざコンポとする必要はないかも
Remote access
Security
白抜きのコンポは未実装であることを示す。
Collaboratory
Network
“Network”はVLAN切替等の
ソフトのこと
Working desktop (Python)
Experiment
Logging
Devices
DAQ
Analysis
GnuPlot
Reduction
Data File
Admin DB
Simulation
Visualization
Analysis
Experiment DB
IRIS exp,
Matlab,
etc
Ab Initio
Monte-Carlo
etc
Data fileへのアクセスとsecurityの関連
は??
SAN / Grid Storage
Data Fileは、NeXus準拠にする可能性あり
負荷分散のためのServer-client
system(プロトタイプ稼働中)
Data acquisition
Client terminal
socket
(Python)
Socket server
Detector driver
socket client
(LabVIEW/Python)
(LabVIEW etc)
CPU
CPU
Data analysis
Daemon
Client terminal
(Python)
(C++)
or
Command Server
CPU
•
socket
(Python)
exec
Python client
(Manyo-lib)
CPU
Both acquisition and analysis component uses server-client model
– Both component will be work collectively
ハードウエア構成例(高速処理型)
複数台
detectors
detectors
Serial cable
Serial cable
DAQ electronics
DAQ electronics
Optical fiber
Optical fiber
CPU DAQ
CPU DAQ
Optical fiber /GbE
Optical fiber /GbE
Storage (SAN)
Ethernet
Optical fiber /GbE
Optical fiber /GbE
CPU D-Red
CPU D-Red
CPU
D-Ana + UI
devices
Serial cable
CPU DAQ
Max 400Mbps
Main
Storage
CPU DB
Authentication
Server
Router
DAQ: data acquisition, D-Red: data reduction, D-Ana: data analysis, DB: data-base,
SAN: Storage Area Network
CPUs D-Ana
ハードウエア構成例(一般型)
複数台
detectors
detectors
Serial cable
Serial cable
DAQ electronics
DAQ electronics
Optical fiber
Optical fiber
CPU
DAQ + D-Red
CPU
DAQ + D-Red
devices
Serial cable
CPU DAQ
Main
Storage
Storage (RAID)
Ethernet
CPU DB
CPU
D-Ana + UI
Authentication
Server
Router
DAQ: data acquisition, D-Red: data reduction, D-Ana: data analysis, DB: data-base,
SAN: Storage Area Network, UI: user interface (working desktop)
CPUs D-Ana
PC farm
Supercomputer
Component usage
Python commands example
>>> set_exp(dt_t=0.002, delay=500, samp_temp=20)
Experiment
Exp. DB
>>> begin
Experiment
Exp. DB
>>> save
Experiment
Data file
Analysis
Visualization
Experiment
Data file / DB
>>> get_spec ( qmax=5, qreso=0.5)
>>> end
Character base command establishment
GUI design
Analysis software architecture
(draft)
Simulation component
Virtual
Reality?
Simulation & Advanced Analysis
Ab initio calculation, MD,
modeling, neutron scattering simulation
etc
DB
Vis.
Imaging Tools & Num. Lib
Resolution deconvolution,
peak separation, peak fitting,
smoothing, MEM, wavelet, …..
Basic Analysis
Essential
conventional
TOF to intensity profile
(Manyo-lib)
Analysis component
Inst. (Science)
dependent
Development scheme of components
Experiment component
Analysis component
MLF infrastructure
Simulation component
Developed by MLF
Exp. Database
Admin. Database
J-PARC infrastructure
Security component
Network
J-PARC Information
System
MLF computing environment design
Minimum implementation
components
will be finished until 2007 Dec.
Current status
2005~
Analysis:
Data reduction (Manyo-lib)
MLF
Prototyping for “Day-1” instruments
Continue
Experiment:
Data acquisition
MLF
Prototype development of client-server
system by upgrading “KENS control”
•Make a test installation at
KENS
•combine with analysis
component
•Event mode developments
Network
MLF
/J-PARC
Ready for construction
Storage
MLF
/J-PARC
R&D for mass-storage system (Storage
Area Network system)
Make a test installation
Database
MLF
/J-PARC
Conceptual design
R&D
Simulation (interpretation)
MLF
Started to communicate with computer
scientists in Japan
Authentication
MLF
/J-PARC
Conceptual design
R&D
Collaboratory
MLF
/J-PARC
Conceptual design
Conceptual design / R&D
Schedule
2005
Manyo-lib
•
•
•
2006
Documentation
Connection to Graphic
engine (IRIS explore)
DANCE
2007
2008
2009
Public
release (?)
Operation
Operation
Development
for each
instrument
Prototyping
Started: Powder, Total, SANS, Chopper, Single xtal
To Be Started: Reflectometer, Inverted Spec, Spin
Echo
Analysis
component
•
•
•
•
Documentation
(Guideline)
Link to DB, authentication,
Adv. Ana
Numerical lib
Link to Advanced
visualization
åvéZä¬ã´É}ÉCÉãÉXÉgÅ[Éì
ïžê¨17îNìx
4
é¿å±ÅEêßå‰É\ÉtÉg
5
ÉvÉçÉgÉ^ÉCÉväJî°
äJî°
ÉKÉCÉhÉâÉCÉìçÙíË
édólíŠç•
6
8
9
10
11
12
1
2
ééå±â^óp
å¥àƒçÙíË
ó\îÐåˆäJ
KENSÇ­ÇÃé¿ínééå±ÇÕî˜ñ°
ÉvÉçÉgÉ^ÉCÉväJî°
ÉKÉCÉhÉâÉCÉìçÙíË
3 îÐçl
ëïíuñàÇÃñ{äiìIäJî°ÇÕ18îNìx
édólíŠç•
ÅEééçÏ
ÉCÉxÉìÉgèàóùÉVÉXÉeÉÄ
ÉfÅ[É^â¾êÕÉ\ÉtÉg
7
ëïíuñàÇÃñ{äiìIäJî°ÇÕ18îNìx
édólíŠç•
å¥àƒçÙíË
ó\îÐåˆäJ
É\ÉtÉgÉEÉGÉAåˆäJ
çëç€ã¶óÕ
ÉfÅ[É^ÉxÅ[ÉX
ëºÇÃÉRÉìÉ|DžǬǢǃLJâ¬î\ê´óLÇË
ã¶óÕäTóvÇÃãÔëÃâª(MoU?)
R&DãyÇ—édólçÙíË
é¿å±ÅEêßå‰É\ÉtÉgDzÇÃòAåg
J-PARCèÓïÒÉVÉXÉeÉÄDzòAåg
édólíŠç•
ÉvÉçÉgÉ^ÉCÉväJî°
édólíŠç•
ÉfÅ[É^â¾êÕÉ\ÉtÉgDzÇÃòAåg
ÉvÉçÉgÉ^ÉCÉväJî°
ÉZÉLÉÖÉäÉeÉB
R&DãyÇ—édólçÙíË
ÉRÉâÉ{ÉâÉgÉä
R&DãyÇ—édólçÙíË
édólíŠç•
édólçÙíË
J-PARCèÓïÒÉVÉXÉeÉÄDzòAåg
ÉZÉLÉÖÉäÉeÉBÉ|ÉäÉVÅ[
É|ÉäÉVÅ[ãyÇ—é¿é{éËèá
édólíŠç•
çÏê¨
J-PARCèÓïÒÉVÉXÉeÉÄDzòAåg
ëSëÃÉKÉCÉhÉâÉCÉìçÏê¨
éÂÇ»ÉXÉPÉWÉÖÅ[Éã
ç°îNìxÇÕäeÉRÉìÉ|Å[ÉlÉìÉgÇÃòAågDžǬǢǃLJåüì¢Ç¾Ç•
Ç•
ǽÇÈÅB
J-PARCèÓïÒÉVÉXÉeÉÄDzòAåg
å¥àƒçÙíË
Å£ ëSëÃäTóvê‡ñæâÔ
ó\îÐåˆäJ
Å£ ÉKÉCÉhÉâÉCÉìê‡ñæâÔ
計算環境グループの所掌範囲
(ソフトウエア)
• 基盤部分については、計算環境グループが開発
し、ガイドラインを提供する。
• 基盤部分に含まれないソフトウエアについては、
各分光器グループがガイドラインに沿って開発す
る。ガイドラインが対応できない場合には、計算
環境グループと議論する。
• シミュレーションソフトウエア、可視化ソフトウエア、
データベース等、共通で使用する市販ソフトウエ
アは計算環境グループから予算計上する。
計算環境グループの所掌範囲
(ハードウエア)
• 計算環境グループで検討するハードウエア
–
–
–
–
メインデータストレージ:分光器共通のストレージ
各分光器用情報コンセントまでのネットワーク
PCファーム
Web、Mail等のユーティリティーサーバー(J-PARC情報システ
ム)
• その他のハードウエアの購入は、各分光器グループ所
掌
• 具体的には要検討だが、計算環境グループが全て用意
する訳ではない。
懸案事項
• 継続的な開発体制(人、予算)確保
– 優先順位を決めて開発していく
– 維持体制に見合った開発をする
• ソフトウエア開発
– セキュリティの考え方
• どのようなアクセスが必要か?
• どのように守りたいか?
– 実験・解析ログデータベース開発
• ハードウエア
– ストレージの大きさ
• どのくらいの期間をオンラインでアクセス可能にするか?
• データをパブリックにする場合、どのようにするか
• MLF計算環境グループは、基盤的計算環
境構築を第1目的とする。
– 基本的フレームワーク設計/開発
– 各装置グループの協力が不可欠
• 今年度中に計算環境ガイドラインを作成予
定