Transcript PPT
CESNET EGEE seminář, 26.10.2004 www.eu-egee.org Využití EGEE infrastruktury pro zpracování dat ve fyzice vysokých energií Jiří Chudoba EGEE is a project funded by the European Union under contract IST-2003-508833 Obsah • • • • • Projekty částicové fyziky a jejich nároky na IT Motivace pro grid EGEE a další projekty Data Challenges Výhled CESNET EGEE seminář, 26.10.2004 - 2 Fyzika mikrosvěta Částicová fyzika studuje: elementární částice, ze kterých se skládá všechna hmota ve vesmíru základní síly, které mezi nimi působí Proto potřebuje: speciální nástroje pro vytváření a studium nových částic CESNET EGEE seminář, 26.10.2004 - 3 Co je to CERN? • CERN je největší laboratoř pro částicovou fyziku • ČR je členskou zemí od r. 1993 (svého vzniku) CERN je: ~ 2500 vědeckých zaměstnanců (fyziků, inženýrů, …) - Kolem 6500 externích spolupracovníků (polovina všech částicových fyziků ) Přicházejí z 500 univerzit představují 80 národností. • CERN je místem, kde se budují největší urychlovače a detektory CESNET EGEE seminář, 26.10.2004 - 4 CESNET EGEE seminář, 26.10.2004 - 5 LHC data 1 Megabyte (1MB) Digitální fotografie • 40 miliónů srážek za sekundu 1 Gigabyte (1GB) = 1000MB Film na DVD • Po hrubém výběru se zaznamená 100 zajímavých srážek za sekundu 1 Terabyte (1TB) = 1000GB Celosvětová produkce knih • 1 srážka ~ 1 Megabyte zápis 0.1 Gigabyte/sec 1 Petabyte (1PB) = 1000TB Data za 1 rok z 1 LHC experimentu • 1010 zaznamenaných srážek za rok = 10 Petabyte/rok 1 Exabyte (1EB) = 1000 PB Množství informací vyprodukovaných na světě za celý rok CMS LHCb ATLAS ALICE Případy na LHC Z mnoha případů během jedné srážky… Výběr: 1 z 1013 Jako hledání 1 člověka mezi 1000 násobkem populace Země. ... chceme rozpoznat tento případ Nebo hledat jehlu ve 20 milionech kupek sena! CESNET EGEE seminář, 26.10.2004 - 7 LHC data Data z LHC experimentů za 1 rok by bylo možné uložit na 20 milionech CD! Kde budou data skladována a jak budou zpracovávána? CESNET EGEE seminář, 26.10.2004 - 8 Výpočty v CERN • Výpočetní farmy založené na běžných, relativně levných PC • Více než 1000 dvouprocesorových PC • Více než 1 Petabyte dat na discích a páskách To z daleka nestačí! CESNET EGEE seminář, 26.10.2004 - 9 Zpracování dat z LHC Pro analýzu dat z LHC je zapotřebí výpočetního výkonu na úrovni asi 100,000 dnešních rychlých CPU! Kde experimenty najdou tuto výpočetní kapacitu? CESNET EGEE seminář, 26.10.2004 - 10 Výpočty pro LHC: problém? Grid je možným řešením! CESNET EGEE seminář, 26.10.2004 - 11 World Wide Web • World Wide Web byl vyvinut v CERN pro usnadnění komunikace mezi fyziky. Typický tým pro jeden velký experiment na počátku 90. let tvořilo asi 500 fyziků, nové experimenty buduje přes 1000 fyziků (plus inženýři, technici a další specialisté) • Pro sdílení dokumentů CESNET EGEE seminář, 26.10.2004 - 12 Co je Grid? • Grid je infrastruktura, která poskytuje přístup k velkému množství dat a k velkému výpočetnímu výkonu. • Middleware spojuje větší výpočetní střediska, která poskytují hardwarové zdroje. • Cílem je též optimalizovat využití hardwaru: • poskytnu své CPU, když ho nedokáži plně využít • použiju i cizí CPU v době mojí špičky CESNET EGEE seminář, 26.10.2004 - 13 Grid @ CERN CERN se aktivně účastní mnoha gridových projektů • CERN projekty: LHC Computing Grid (LCG) • Projekty EU vedené CERN: European DataGrid (EDG) 2001 - 2004 Enabling Grids for E-science in Europe (EGEE) 2004 - 2006 • Projekty ve spolupráci s průmyslem: CERN Openlab for DataGrid applications CESNET EGEE seminář, 26.10.2004 - 14 Požadavky na systém • Každý uživatel (fyzik) musí mít přístup ke všem datům daného experimentu • Rychlá odezva pro interaktivní práci nad částí dat • Dávkové úlohy pro zpracování velkých souborů • Systém sám ví, kde jsou data a kde je nejvýhodnější úlohy zpracovávat CESNET EGEE seminář, 26.10.2004 - 15 Simulace, Rekonstrukce, Analýza • Simulace: • Malý vstup, velký výstup • Velké nároky na CPU • Oficiální software pro všechny úlohy • Rekonstrukce: • Mnoho dat na vstupu, méně na výstupu • Oficiální software • Analýza: • Na vybrané zlomky dat • Každý uživatel může mít jiný software • Výsledky “brzy” CESNET EGEE seminář, 26.10.2004 - 16 Data Challenges • DC: Rozsáhlé testy různých komponent • stabilita vlastního software • rozdělování úloh • Grid middleware • propustnost sítí • výkonnost zálohovacích kapacit • počet a připravenost jednotlivých center • příprava souborů dat pro analýzu CESNET EGEE seminář, 26.10.2004 - 17 Před Gridem • Éra urychlovače LEP (1989-2000) hlavní výpočetní kapacita v CERN část simulací se prováděla v jiných centrech – předem definované vzorky – transport pomocí pásek export vybraných částí dat na páskách (později přes síť) do lokálních center pro analýzu dat • ATLAS DC 1 proběhla v 2002-2003 rozdělení úloh předem dle velikosti center každý lokální administrátor musel provést instalaci a úpravy spouštěcích skriptů dle lokálních podmínek dlouhé čekání na dokončení úloh z center, kde se vyskytli problémy, zatímco jinde už byly procesory nevyužité CESNET EGEE seminář, 26.10.2004 - 18 ATLAS DC 2 @ LCG • Instalace ATLAS sw pomocí instalační úlohy (1 člověk pro všechna centra) • Posílání úloh polo-automaticky, teoreticky 1 člověk (v praxi více – stálý vývoj, dovolené, dozorování problémových úloh) • Výsledky se kopírují na předem zadaná zařízení (centra s backupem na páskové jednotky) • Maximální využití všech dostupných kapacit se nedařilo, ale někdy jsme se k němu blížili CESNET EGEE seminář, 26.10.2004 - 19 ATLAS DC 2 @ LCG • Typy úloh: generování případů – žádný vstup, malý výstup, malé nároky na CPU simulace odezvy detektoru – vstupem jsou generované případy (nutnost jejich distribuce), objemný výstup, náročné na CPU digitalizace – zpracování výstupu ze simulace pile-up = smíchání případů - vstupní množina 700 GB, pro jednu úlohu několik GB míchání signálu s pozadím rekonstrukce • Celkem 10 % nároků po spuštění LHC • 10 milionů případů CESNET EGEE seminář, 26.10.2004 - 20 ATLAS DC2 • Používá 3 různé gridy LCG2 ( = EGEE ) GRID3 (US) Nordugrid (vychází z EDG - předchůdce EGEE) dms prodDB supervisor jabber LCG executor supervisor jabber supervisor jabber LCG executor jabber legacy executor Grid3 executor RLS NG super jabber NG executor LRC LCG supervisor RLS Grid3 legacy CESNET EGEE seminář, 26.10.2004 - 21 Zapojená centra v DC CESNET EGEE seminář, 26.10.2004 - 22 62 40 3 62 40 6 62 40 9 70 40 2 70 40 5 70 40 8 71 40 1 71 40 4 71 40 7 72 40 0 72 40 3 72 40 6 72 40 9 80 40 1 80 40 4 80 40 7 81 40 0 81 40 3 81 40 6 81 40 9 82 40 2 82 40 5 82 40 8 83 40 1 90 40 3 90 40 6 90 40 9 91 40 2 91 40 5 91 8 40 Number of jobs Počet ATLAS úloh 3000 2500 2000 1500 Grid3 NorduGrid LCG 1000 500 0 Days CESNET EGEE seminář, 26.10.2004 - 23 Použité CPU farma GOLIAS Grid3 30% LCG 41% LCG NorduGrid Grid3 NorduGrid 29% CESNET EGEE seminář, 26.10.2004 - 24 Monitorování http://grid014.mi.infn.it:50080/gridice/site/site.php CESNET EGEE seminář, 26.10.2004 - 25 ATLAS: Chyby v LCG DMS-Others 1% DMS-Output (LCG) 10% Athena 4% DMS-Output (ATLAS) 23% LCG-RB 7% LCG-MaxRetry 22% DMS-Input 4% Athena LCG-RB LCG-MaxRetry LCG-Proxy LCG-Globus LCG-Others DMS-Input DMS-Output (ATLAS) DMS-Output (LCG) DMS-Others LCG-Others 0% LCG-Globus 2% LCG-Proxy 27% CESNET EGEE seminář, 26.10.2004 - 26 ATLAS DC2 – současný stav • Stále ještě probíhá, dosavadní výsledky od července 2004 do počátku října: 22 různých transformací (různé typy úloh) 157 „úkolů“ (aplikace transformace na různá data) 235 000 spuštěných úloh 251 000 zaregistrovaných logických souborů spotřebováno 5000 CPU měsíců • Průběžné opravy ATLAS SW, LCG dovoluje koexistenci několika verzí CESNET EGEE seminář, 26.10.2004 - 27 ALICE DC • LCG2 a AliEn • Časově se překrývala s ATLAS DC • 1. fáze: • Simulace Pb+Pb případů s různými impakt parametry + produkce p+p případů Počet úloh: • 6 x 20.000 případů (typ cent1/per1-5) = 56.000 úloh – 22.000 úloh á 8 hodin (cent 1) – 22.000 úloh á 5 hodin (per 1), – 12.000 úloh á 2.5 hodiny (per2-per5) Počet souborů: • ~36 souborů z každé úlohy • AliEn file catalogue: ~2.0 milionů souborů • CERN Castor: 1.3 milionů Velikost souborů: • Celkem: 26 TB CESNET EGEE seminář, 26.10.2004 - 28 ALICE DC – 2. fáze • • Míchání případů s různým signálem s Pb+Pb případy Test: • Standardní produkce (relativně malých) případů se signálem Kapacity sítě a nástrojů na transport souborů Stabilita vzdálených SE Podmínky, úlohy …: 62 různých podmínek 340K úloh, 15.2M případů 10 TB produkovaných dat 200 TB dat přenesených z CERN 500 MSI2K hodin CPU CESNET EGEE seminář, 26.10.2004 - 29 Rozdělení CPU 16 AliEn farem + LCG CESNET EGEE seminář, 26.10.2004 - 30 Získané zkušenosti • Systém je i v současném stavu použitelný k hromadným simulacím • Testy odhalily některé problémy a nové požadavky konfigurace a správa farem (černé díry, ...) distribuce úloh replikace dat včasná identifikace problémů detailní monitorování problémy klíčových komponent podpora zacházení s mnoha úlohami CESNET EGEE seminář, 26.10.2004 - 31 Shrnutí • Současný middleware poskytuje nutné služby pro zpracování úloh náročných na CPU a datové přenosy • Další vývoj zlepší spolehlivost zvýší škálovatelnost zjednodušší práci uživatele • Požadavky z jiných oborů zkvalitní middleware i pro částicovou fyziku CESNET EGEE seminář, 26.10.2004 - 32 Děkuji za pozornost! CESNET EGEE seminář, 26.10.2004 - 33