Transcript PPT

CESNET EGEE seminář, 26.10.2004
www.eu-egee.org
Využití EGEE
infrastruktury pro
zpracování dat ve
fyzice vysokých
energií
Jiří Chudoba
EGEE is a project funded by the European Union under contract IST-2003-508833
Obsah
•
•
•
•
•
Projekty částicové fyziky a jejich nároky na IT
Motivace pro grid
EGEE a další projekty
Data Challenges
Výhled
CESNET EGEE seminář, 26.10.2004 - 2
Fyzika mikrosvěta
Částicová fyzika studuje:
elementární částice, ze
kterých se skládá všechna
hmota ve vesmíru
základní síly, které mezi nimi
působí
Proto potřebuje:
speciální nástroje pro vytváření a
studium nových částic
CESNET EGEE seminář, 26.10.2004 - 3
Co je to CERN?
• CERN je největší laboratoř pro částicovou fyziku
• ČR je členskou zemí od r. 1993 (svého vzniku)
CERN je:
~ 2500 vědeckých zaměstnanců
(fyziků, inženýrů, …)
- Kolem 6500 externích
spolupracovníků (polovina
všech částicových fyziků )
Přicházejí z 500 univerzit
představují 80 národností.
• CERN je místem, kde se budují největší
urychlovače a detektory
CESNET EGEE seminář, 26.10.2004 - 4
CESNET EGEE seminář, 26.10.2004 - 5
LHC data
1 Megabyte (1MB)
Digitální fotografie
• 40 miliónů srážek za sekundu
1 Gigabyte (1GB) = 1000MB
Film na DVD
• Po hrubém výběru se zaznamená 100
zajímavých srážek za sekundu
1 Terabyte (1TB) = 1000GB
Celosvětová produkce knih
• 1 srážka ~ 1 Megabyte
zápis 0.1 Gigabyte/sec
1 Petabyte (1PB) = 1000TB
Data za 1 rok z 1 LHC
experimentu
• 1010 zaznamenaných srážek za rok
= 10 Petabyte/rok
1 Exabyte (1EB) = 1000 PB
Množství informací
vyprodukovaných na světě za
celý rok
CMS
LHCb
ATLAS
ALICE
Případy na LHC
Z mnoha případů během jedné srážky…
Výběr: 1 z 1013
Jako hledání 1
člověka mezi 1000
násobkem populace
Země.
... chceme rozpoznat tento případ
Nebo hledat jehlu ve
20 milionech kupek
sena!
CESNET EGEE seminář, 26.10.2004 - 7
LHC data
Data z LHC experimentů za 1 rok by bylo
možné uložit na 20 milionech CD!
Kde budou data
skladována a jak budou
zpracovávána?
CESNET EGEE seminář, 26.10.2004 - 8
Výpočty v CERN
• Výpočetní farmy založené na běžných, relativně levných PC
• Více než 1000 dvouprocesorových PC
• Více než 1 Petabyte dat na discích a páskách
To z daleka nestačí!
CESNET EGEE seminář, 26.10.2004 - 9
Zpracování dat z LHC
Pro analýzu dat z LHC je zapotřebí výpočetního výkonu
na úrovni asi 100,000 dnešních rychlých CPU!
Kde experimenty najdou tuto výpočetní
kapacitu?
CESNET EGEE seminář, 26.10.2004 - 10
Výpočty pro LHC: problém?
Grid je možným řešením!
CESNET EGEE seminář, 26.10.2004 - 11
World Wide Web
• World Wide Web byl vyvinut v CERN pro usnadnění
komunikace mezi fyziky. Typický tým pro jeden velký
experiment na počátku 90. let tvořilo asi 500 fyziků,
nové experimenty buduje přes 1000 fyziků (plus
inženýři, technici a další specialisté)
• Pro sdílení dokumentů
CESNET EGEE seminář, 26.10.2004 - 12
Co je Grid?
• Grid je infrastruktura, která poskytuje přístup k velkému množství dat
a k velkému výpočetnímu výkonu.
• Middleware spojuje větší výpočetní střediska, která poskytují
hardwarové zdroje.
• Cílem je též optimalizovat využití hardwaru:
• poskytnu své CPU, když ho nedokáži plně využít
• použiju i cizí CPU v době mojí špičky
CESNET EGEE seminář, 26.10.2004 - 13
Grid @ CERN
CERN se aktivně účastní mnoha gridových projektů
• CERN projekty:
LHC Computing Grid (LCG)
• Projekty EU vedené CERN:
European DataGrid (EDG) 2001 - 2004
Enabling Grids for E-science in Europe (EGEE) 2004 - 2006
• Projekty ve spolupráci s průmyslem:
CERN Openlab for DataGrid applications
CESNET EGEE seminář, 26.10.2004 - 14
Požadavky na systém
• Každý uživatel (fyzik) musí mít přístup ke všem datům
daného experimentu
• Rychlá odezva pro interaktivní práci nad částí dat
• Dávkové úlohy pro zpracování velkých souborů
• Systém sám ví, kde jsou data a kde je nejvýhodnější
úlohy zpracovávat
CESNET EGEE seminář, 26.10.2004 - 15
Simulace, Rekonstrukce, Analýza
• Simulace:
• Malý vstup, velký výstup
• Velké nároky na CPU
• Oficiální software pro všechny úlohy
• Rekonstrukce:
• Mnoho dat na vstupu, méně na výstupu
• Oficiální software
• Analýza:
• Na vybrané zlomky dat
• Každý uživatel může mít jiný software
• Výsledky “brzy”
CESNET EGEE seminář, 26.10.2004 - 16
Data Challenges
• DC: Rozsáhlé testy různých komponent
• stabilita vlastního software
• rozdělování úloh
• Grid middleware
• propustnost sítí
• výkonnost zálohovacích kapacit
• počet a připravenost jednotlivých center
• příprava souborů dat pro analýzu
CESNET EGEE seminář, 26.10.2004 - 17
Před Gridem
• Éra urychlovače LEP (1989-2000)
 hlavní výpočetní kapacita v CERN
 část simulací se prováděla v jiných centrech
– předem definované vzorky
– transport pomocí pásek
 export vybraných částí dat na páskách (později přes síť) do
lokálních center pro analýzu dat
• ATLAS DC 1 proběhla v 2002-2003
 rozdělení úloh předem dle velikosti center
 každý lokální administrátor musel provést instalaci a úpravy
spouštěcích skriptů dle lokálních podmínek
 dlouhé čekání na dokončení úloh z center, kde se vyskytli problémy,
zatímco jinde už byly procesory nevyužité
CESNET EGEE seminář, 26.10.2004 - 18
ATLAS DC 2 @ LCG
• Instalace ATLAS sw pomocí instalační úlohy (1 člověk pro
všechna centra)
• Posílání úloh polo-automaticky, teoreticky 1 člověk (v praxi
více – stálý vývoj, dovolené, dozorování problémových
úloh)
• Výsledky se kopírují na předem zadaná zařízení (centra s
backupem na páskové jednotky)
• Maximální využití všech dostupných kapacit se nedařilo, ale
někdy jsme se k němu blížili
CESNET EGEE seminář, 26.10.2004 - 19
ATLAS DC 2 @ LCG
• Typy úloh:
 generování případů – žádný vstup, malý výstup, malé nároky na





CPU
simulace odezvy detektoru – vstupem jsou generované případy
(nutnost jejich distribuce), objemný výstup, náročné na CPU
digitalizace – zpracování výstupu ze simulace
pile-up = smíchání případů - vstupní množina 700 GB, pro jednu
úlohu několik GB
míchání signálu s pozadím
rekonstrukce
• Celkem 10 % nároků po spuštění LHC
• 10 milionů případů
CESNET EGEE seminář, 26.10.2004 - 20
ATLAS DC2
• Používá 3 různé gridy
 LCG2 ( = EGEE )
 GRID3 (US)
 Nordugrid (vychází z EDG - předchůdce EGEE)
dms
prodDB
supervisor
jabber
LCG
executor
supervisor
jabber
supervisor
jabber
LCG
executor
jabber
legacy
executor
Grid3
executor
RLS
NG
super
jabber
NG
executor
LRC
LCG
supervisor
RLS
Grid3
legacy
CESNET EGEE seminář, 26.10.2004 - 21
Zapojená centra v DC
CESNET EGEE seminář, 26.10.2004 - 22
62
40 3
62
40 6
62
40 9
70
40 2
70
40 5
70
40 8
71
40 1
71
40 4
71
40 7
72
40 0
72
40 3
72
40 6
72
40 9
80
40 1
80
40 4
80
40 7
81
40 0
81
40 3
81
40 6
81
40 9
82
40 2
82
40 5
82
40 8
83
40 1
90
40 3
90
40 6
90
40 9
91
40 2
91
40 5
91
8
40
Number of jobs
Počet ATLAS úloh
3000
2500
2000
1500
Grid3
NorduGrid
LCG
1000
500
0
Days
CESNET EGEE seminář, 26.10.2004 - 23
Použité CPU
farma GOLIAS
Grid3
30%
LCG
41%
LCG
NorduGrid
Grid3
NorduGrid
29%
CESNET EGEE seminář, 26.10.2004 - 24
Monitorování
http://grid014.mi.infn.it:50080/gridice/site/site.php
CESNET EGEE seminář, 26.10.2004 - 25
ATLAS: Chyby v LCG
DMS-Others
1%
DMS-Output (LCG)
10%
Athena
4%
DMS-Output (ATLAS)
23%
LCG-RB
7%
LCG-MaxRetry
22%
DMS-Input
4%
Athena
LCG-RB
LCG-MaxRetry
LCG-Proxy
LCG-Globus
LCG-Others
DMS-Input
DMS-Output (ATLAS)
DMS-Output (LCG)
DMS-Others
LCG-Others
0%
LCG-Globus
2%
LCG-Proxy
27%
CESNET EGEE seminář, 26.10.2004 - 26
ATLAS DC2 – současný stav
• Stále ještě probíhá, dosavadní výsledky od července 2004
do počátku října:
 22 různých transformací (různé typy úloh)
 157 „úkolů“ (aplikace transformace na různá data)
 235 000 spuštěných úloh
 251 000 zaregistrovaných logických souborů
 spotřebováno 5000 CPU měsíců
• Průběžné opravy ATLAS SW, LCG dovoluje koexistenci
několika verzí
CESNET EGEE seminář, 26.10.2004 - 27
ALICE DC
• LCG2 a AliEn
• Časově se překrývala s ATLAS DC
• 1. fáze:
•
Simulace Pb+Pb případů s různými impakt parametry + produkce p+p případů
 Počet úloh:
• 6 x 20.000 případů (typ cent1/per1-5) = 56.000 úloh
– 22.000 úloh á 8 hodin (cent 1)
– 22.000 úloh á 5 hodin (per 1),
– 12.000 úloh á 2.5 hodiny (per2-per5)
 Počet souborů:
• ~36 souborů z každé úlohy
• AliEn file catalogue: ~2.0 milionů souborů
• CERN Castor: 1.3 milionů
 Velikost souborů:
• Celkem: 26 TB
CESNET EGEE seminář, 26.10.2004 - 28
ALICE DC – 2. fáze
•
•
Míchání případů s různým signálem s Pb+Pb případy
Test:



•
Standardní produkce (relativně malých) případů se signálem
Kapacity sítě a nástrojů na transport souborů
Stabilita vzdálených SE
Podmínky, úlohy …:





62 různých podmínek
340K úloh, 15.2M případů
10 TB produkovaných dat
200 TB dat přenesených z CERN
500 MSI2K hodin CPU
CESNET EGEE seminář, 26.10.2004 - 29
Rozdělení CPU
16 AliEn farem + LCG
CESNET EGEE seminář, 26.10.2004 - 30
Získané zkušenosti
• Systém je i v současném stavu použitelný k hromadným
simulacím
• Testy odhalily některé problémy a nové požadavky
 konfigurace a správa farem (černé díry, ...)
 distribuce úloh
 replikace dat
 včasná identifikace problémů
 detailní monitorování
 problémy klíčových komponent
 podpora zacházení s mnoha úlohami
CESNET EGEE seminář, 26.10.2004 - 31
Shrnutí
• Současný middleware poskytuje nutné služby pro
zpracování úloh náročných na CPU a datové přenosy
• Další vývoj
 zlepší spolehlivost
 zvýší škálovatelnost
 zjednodušší práci uživatele
• Požadavky z jiných oborů zkvalitní middleware i pro
částicovou fyziku
CESNET EGEE seminář, 26.10.2004 - 32
Děkuji za pozornost!
CESNET EGEE seminář, 26.10.2004 - 33