Statistiky provozu MetaCentra za období 1.1.- 30.11. 2010
Počet aktivních uživatelů (s aktivním účtem v roce 2010): 420
Počet prodloužených účtů: 281
Počet nově založených účtů: 139
Počet uživatelů, kteři spustili alespoň jednu úlohu: 243
Počet uživatelů využívající datová úložiště: 289
Počet CPU: 1560
Počet souborů na diskovém poli: 80 mil.
Objem dat na diskovém poli: 60 TB
K 30. 11. 2010 MetaCentrum VO eviduje 420 aktivních uživatelů (pro srovnání koncem roku 2009 to bylo 371 uživatelů). O prodloužení účtu požádalo 281 uživatelů, získali jsme 139 nových uživatelů. Alespoň jednu úlohu v tomto období spustilo 243 uživatelů, část uživatelů využívá registraci v MetaCentru pouze pro přístup k úložným kapacitám a dalším službám, část nikdy nebyla skutečně aktivní. Diskové pole je přístupné pro 388 uživatelů MetaCentra, 289 z nich má na něm uložena data. Celkem je na diskovém poli 80 mil. souborů o celkovém objemu 60 TB. V období leden až listopad 2010 uživatelé propočítali 6,4 milionů CPU hodin v 590 tis. úlohách (z toho v prvním pololetí více než 3 miliony CPU hodin ve 190 tis. úlohách). Průměrné vytížení všech strojů v MetaCentru oscilovalo po celý rok prumerne okolo 75 % (vážený průměr za celé MetaCentrum VO vztažený k počtu CPU). Uživatelé přihlásili v roce 2010 prostřednictvím webového rozhraní 77 publikací s poděkováním MetaCentru.
Průměrné vytížení volně přístupných clusterů v MetaCentru se pohybuje u většiny mezi 70 a 96%. Vytížení okolo 70% je optimální, vyšší vytížení již znamená faktickou saturaci a způsobuje delší doby čekání úloh ve frontě. Nižší hodnoty vytížení vykazují stroje, které byly do MetaCentra zapojeny až v průběhu sledovaného období (tarkil, alela). Vytížení vyhrazených strojů je výrazně nižší, což dokládá například cluster loslab nebo quark, který byl v dubnu přesunut mezi volně přístupné stroje.
V letošním roce jsme provedli další úpravy v plánovacího systému PBS směřující k efektivnějšímu využití disponibilních výpočetních zdrojů a uspokojení co největšího počtu uživatelů.
Uživatelé MetaCentra VO měli k dispozici více než 1500 CPU. Následující tabulka ukazuje trend růstu počtu procesorových jader v MetaCentru v uplynulých
letech.
je možné demonstrovat na využití 16procesorových strojů Manwe, které .
rok | 2004 | 2006 | 2008 | 2009 | 2010 |
CPU jader | 262 | 600 | 1200 | 1468 | 1522 |
V prvním pololetí došlo k mírnému nárůstu počtu CPU zapojených do MetaCentra. Integrovali jsme nově pořízený cluster Tarkil (CESNET), kterým
byl nahrazen cluster Skurut (CESNET) v Praze. Zprovoznili jsme obnovený stroj Ajax v Plzni (ZČU) a došlo k rozšíření clusteru Alela (FEEC VUT) a Hermes (JČU). Na žádost vlastníků byl odstaven cluster Perian17-68 a cluster Perian69-76 (oba PřF MU). Oproti prvnímu pololetí tak došlo k mírnému poklesu počtu CPU zapojených v MetaCentru. Clustery Perian77-86 a Perian87-96 (všechny PřF MU) byly přestěhovány do nového sálu ve správě vlastníků clusteru, zůstaly však zapojeny v MetaCentru.
Po celý rok 2010 přetrvává trend vysokého vytížení clusteru MetaCentra z konce minulého roku. Vytížení většiny strojů s volným přístupem mezi 70 a 96 procenty znamená faktickou saturaci MetaCentra, pro uživatele znamená delší dobu cekání na spuštění úloh, pro správce vyšší tlak na efektivitu využití zdrojů MetaCentra.
A ještě jednou srovnání doby čekání úloh ve stejných obdobích roku 2009 a 2010, tentokrát přes všechny stroje. Díky novému HW (tarkil, ajax), změnám v politice přístupu uživatelů a úpravám plánovacího systému se doba čekání úloh v prvním pololetí roku 2010, oproti roku předchozímu, výrazně zkrátila, a to i přestože průměrné vytížení strojů vzrostlo o desítky procent a uživatelé propočítali dvakrát více strojového času a o polovinu více úloh.
Doba běhu převážné většiny úloh nepřekračuje 24 hodin. Extrémně krátké úlohy zpravidla ukazují na problémy se zadáním a konfigurací – na uživatele s vysokým počtem těchto úloh se soustřeďuje uživatelská podpora. Zjistili jsme, že v prvním pololetí významně stoupl počet úloh s dobou běhu několik jednotek až desítek vteřin, což ukazovalo na velký podíl úloh, které skončily s chybou z důvodu chybného zadání. Značnou část takových úloh měl na svědomí jediný uživatel, kterému v 1. pololetí 2010 skončilo chybou v zadání programu téměř 100 tis. Ve druhém pololetí se již u tohoto uživatele tento problém neopakoval.
Graf doby behu úloh nerozlišuje mezi sekvenčními a paralelními úlohami – přitom značné množství úloh s délkou trvání v řádu hodin je paralelních (využívajících zpravidla 4–32 procesorů), MetaCentrum tak efektivně zkracuje dobu čekání na výsledky (pětihodinová úloha na 16 procesorech by se počítala více jak 3 dny na jednoprocesorovém stroji a stále skoro celý den na čtyřprocesorovém systému).
Podíl víceprocesorových úloh dokládají grafy na následujících obrázcích. Zatímco podle počtu spuštěných úloh jasně vedou jednoprocesorové úlohy, většina propočítaného CPU času je spotřebována víceprocesorovými úlohami.
Mezi nejžádanější stroje tradičně patří silné víceprocesorové clustery s poměrně velkou pamětí, např. Nympha, novější Skirit, Tarkil a Manwe. Cluster
Tarkil (28 8jaderných stroju) jsme zprovoznili až v březnu, přesto zaujal prvenství v počtu propočítaných CPU hodin v letošním roce. Na následujícícm obrázku jsou clustery seřazeny podle celkového propočítaného CPU času a podle počtu propočítaných úloh, není zohledněn počet CPU.
Koncem května byl v MetaCentru nainstalován uživateli dlouho očekávaný program Gaussian09 v nejnovější verzi A.02. Ihned po uvedení novinky o zprovoznění se stal po Amberu druhou nejoblíbenější veřejnou aplikací v MetaCentru. Na prvním místě je vlastní aplikace uživatele Benedikta. Na žádost uživatelů jsme vylepšili dokumentaci aplikace JDK a nainstalovali Python (nové verze SciPy, Python).
je možné demonstrovat na využití 16procesorových strojů Manwe, které .
V prvním pololetí jsme do MetaCentra integrovali nově pořízený cluster Tarkil (CESNET), který kvůli nedostatku IP adres nahradil cluster Skurut (CESNET) v Praze a zprovoznili jsme obnovený stroj Ajax v Plzni (ZČU). Na žádost vlastníků byl odstaven cluster Perian17-68 a přestěhován cluster Perian69-76 (oba PřF MU) do nového sálu ve správě vlastníků clusteru.
Vytížení je počítáno po jednotlivých clusterech, protože MetaCentrum je tvořeno různorodými stroji patřícími různým organizacím, a některé stroje a clustery jsou plně vyhrazeny jejich vlastníkům, takže souhrny za celé MetaCentrum nemají smysl. Například cluster quark je plně vyhrazen na zpracování video záznamů z přednášek na Masarykově univerzitě, které musí být zpracovány co nejrychleji, nízké vytížení je tedy daní za real-timeovost zpracování. Podobně clustery loslab a wood jsou plně vyhrazeny jejich vlastníkům, kteří akceptují nižší vytížení výměnnou za kratší čekací doby na spuštění úlohy.
Grafy vytížení vyjadřují kolik z využitelného času uživatelé využili, jako 100% je brán celkový počet CPU-sekund snížený o CPU-sekundy v údržbě, a hodnota v grafu je součtem CPU-sekund úloh a CPU-sekund rezervací.
Nový cluster Tarkil byl zprovozněn v únoru 2010, uživatelům byl přeán 4.3.2010. Patří CESNETu, nahradil cluster Skurut. Každý uzel je osazen dvěma čtyřjadernými procesory s HT a má 24 GB paměti.
Cluster Eru byl zprovozněn v říjnu 2009. Jedná se o dva stroje s osmi čtyřjádrovými procesory, tedy 32jádrové stroje. Jsou to momentálně nejsilnější stroje v MetaCentru. Eru patří CESNETu a je umístěný v prostorách Karlovy univerzity.
Stroje Manwe a Aule patří k nejvýkonnějším strojům v MetaCentru - každý s 16 CPU a podle data nákupu s 32 GB až 128 GB paměti. Stroje patří MU a CESNETu a jsou volně dostupné všem uživatelům. Využití osciluje celoročně okolo 90 % (v loňském roce 85 %), dokládá to stále rostoucí zájem o podporu paralelních úloh.
Nympha patří ZČU, uživatelům byl zpřístupněn v lednu 2009. Každý stroj v clusteru má 8 procesorů (dva čtyřjádrové čipy).
Hermes je poměrně nový a výkonný cluster PřF Jihočeské Univerzity v Českých Budějovicích. Byl zprovozněn na konci roku 2008 a je přístupný všem uživatelům.
Cluster Alela patří UBI FEKT VUT Brno, byl zprovozněn v květnu 2009, na žádost vlastníků rezervován pro jejich účely.
Cluster Skirit je ve vlastnictví CESNETu. Vlivem postupného přikupování různorodé části. První část Skirit 17 až 48 je výkonově slabší, druhá část Skirit 49 až 84 obsahuje silné stroje s rychlou sítí Infiniband. Cluster je přístupný všem uživatelům.
Stroj Ajax patří ZČU, jedná se o osmijaderný stroj se 48GB paměti.
Cluster Hydra je cluster patřící KIV ZČU, je volně dostupný všem uživatelům. Je sestaven z poměrně starých a slabých strojů.
Cluster Konos patří KIV a KMA na ZČU a je volně dostupný všem uživatelům, jeho vlastníci na něm mají prioritu prostřednictvím fronty "iti". Je hardwarově poměrně heterogenní, jeho části, Konos 1 až 10, Konos 11 až 14 a Konos 15 až 37, byly přikupovány postupně. Výkonově se jedná o slabší stroje.
Cluster Skurut patří CESNETu, v lednu 2010 byl odstaven a nahrazen clustrem Tarkil.
Cluster Orca patří NCBR, je přístupný všem uživatelům metaCentra. Uživatelé z řad členů výzkumného centra NCBR mají nyní na cluster prioritní přístup prostřednictvím fronty orca. Ostatním uživatelům MetaCentra je cluster dostupný přes frontu preemptible. Na strojích s názvem orcaX-2 mohou úlohy spuštěné prostřednictvím prioritní fronty orca pozastavovat ostatní úlohy a na strojích s názvem orcaX-1 jsou povoleny ostatním uživatelům pouze jednouzlové úlohy.
Cluster Perian patří NCBR, původně byl plně vyhrazen jeho členům. Vlivem postupného přikupování má cluster různorodé části, a to Perian 17 až 68, Perian 69 až 76 (oba v prvním pololetí vyřazeny) a Perian 77 až 86 a Perian 87 až 96. Od srpna 2009 je celý cluster přístupný všem uživatelům MetaCentra, což se projevilo na výrazném nárůstu jeho vytížení. Uživatelé z NCBR mají na cluster zajištěn prioritní přístup prostřednictvím front ncbr a cpmd.
Cluster Quark je primárně určen pro kódování videa (prioritní fronta "quark"). V březnu 2010 byl zpřístupněn všem uživatelům MetaCentra prostřednictvím méně prioritních front 'mikroskop','short' a 'backfill'.
Loslab je blade server patřící Loschmidt Laboratories a je vyhrazen pouze jejich členům. MetaCentrum tak nemá možnost ovlivnit jeho vytížení, které je hluboce pod standardním vytížením clusterů v MetaCentru.
Tyto stroje nejsou zapojeny v systému PBS. Wood je cluster MZLU a používá vlastní plánovací systém. Dali a Mat jsou SMP stroje s procesory MIPS a nepoužívají žádný plánovací systém. Statistiku tedy není možné spočítat stejným způsobem jako u ostatních systémů.
Následující dva grafy ilustrují kvantitativní rozdíl v počtu spuštěných úloh i propočítaném čase mezi uživateli. Uživatel s nejdelším časem propočítal v prvním i druhém pololetí více než pětinu z celkového propočítaného CPU času za celé MetaCentrum, první čtyři uživatelé propocítali v roce 2010 dohromady cca 60 % celkového propočítaného CPU času. Z následujících grafů je zřejmé, že v MetaCentru je zastoupeno několik málo skupin, které dokáží využít nezanedbatelnou kapacitu Meta-
Centra.
Mezi nejaktivnější instituce už tradičně patří Masarykova univerzita (44% podíl na celkovém CPU času), Západočeská univerzita (25 %) a Akademie
věd ČR (18 %).
V letošním roce jsme rozšířili diskové pole o 24 TB, celková RAW kapacita pole je nyní 124 TB. Využitelná kapacita datového úložište byla povýšena z 44 TB na 77 TB, uživatelská data zabírají cca 60 TB (80 %) v 80 milionech souborů (pro srovnání loni jen 30 miliónů souborů). Průměrná velikost jednoho souboru je 741 kB.
Diskové pole je přístupné prostřednictvím svazku /storage pro 388 uživatelů MetaCentra, 289 uživatelů má uložena nějaká data. Vetšina (250) uživatelů má uloženo méne než 100 tisíc souborů, 23 má uloženo méně než milion souborů a 16 uživatelů má uloženo více než milion souborů. 144 uživatelů má uloženo alespoň 1 GB dat, což představuje dvojnásobný nárust oproti loňskému roku. Oproti loňsku se rozrostly u nás uložené archivy IT sekce kampusu Bohunice z 3,8 TB na 9,6 TB a archiv Moravské zemské knihovny z 4,6 TB na 6,8 TB.
Ve sledovaném období (leden až prosinec 2010) bylo v RT systému založeno přímo uživateli (zpravidla konkrétní dotaz nebo oznámení problému) nebo prostřednictvím portálu MetaCentra na základě požadavku uživatelů (zřízení či prodloužení účtu, žádost o zvýšení diskových kvót apod.) nebo správci 1469 nových lístků, z toho 249 dotazů a požadavků se týkalo mezinárodního gridového prostředí. Zároveň se podařilo RT statistiky očistit od falešných požadavků (spamů).