Statistiky provozu MetaCentra za období 1.1.- 31.5. 2010
Počet uživatelů (evidovaných od počátku MetaCentra): 618
Počet aktivních uživatelů (s aktivním účtem v roce 2010): 385
Počet prodloužených účtů: 281
Počet nově založených účtů: 104
Počet uživatelů, kteři spustili alespoň jednu úlohu: 187
Počet fyzických strojů: 294
Počet CPU: 1560
V období 1.1. - 31.5.2010 uživatelé propočítali více než 3 miliony CPU hodin ve 190 tis. úlohách. Oproti stejnému období v loňském roce uživatelé v MetaCentru propočítali 2x více strojového času, zároveň počet úloh narostl o polovinu. Nicméně díky úpravám v plánovači (a novému HW) uživatelé nezaznamenali delší doby čekání. V intervalech s dobou čekání na spuštění nad 5 hodin došlo dokonce ke zkrácení doby čekání.
Průměrné vytížení volně přístupných clusterů v MetaCentru se pohybuje u většiny mezi 70 a 95%. Vytížení okolo 70% je optimální, vyšší vytížení již znamená faktickou saturaci a způsobuje delší doby čekání úloh ve frontě. Nižší hodnoty vytížení vykazují stroje, které byly do MetaCentra zapojeny až v průběhu sledovaného období (tarkil) nebo stroje, které byly v tomto období odstaveny (skurut, perian). Vytížení vyhrazených strojů je výrazně nižší, což dokládá například cluster loslab nebo quark, který byl v polovině období přesunut mezi volně přístupné stroje: Jeho průměrné vytížení se zvýšilo z necelých 20 % v lednu až březnu na 55% v dubnu až květnu.
Přistoupili jsme k dalším úpravám v plánovacím systému PBS směřujícím k efektivnějšímu využití disponibilních výpočetních zdrojů a uspokojení co největšího počtu uživatelů.
A ještě jednou srovnání doby čekání úloh ve stejných obdobích roku 2009 a 2010. Díky novému HW (tarkil, ajax), změnám v politice přístupu uživatelů a úpravám plánovacího systému se doba čekání úloh v prvním pololetí roku 2010, oproti roku předchozímu, výrazně zkrátila, a to i přestože průměrné vytížení strojů vzrostlo o desítky procent a uživatelé propočítali dvakrát více strojového času a o polovinu více úloh.
Následující graf srovnává dobu běhu úloh ve stejných obdobích roku 2009 a 2010. Doba běhu převážné většiny úloh nepřekračuje 24 hodin. Extrémně krátké úlohy zpravidla ukazují na problémy se zadáním a konfigurací -- na uživatele s vysokým počtem těchto úloh se soustřeďuje uživatelské podpora. Graf nerozlišuje mezi sekvenčními a paralelními úlohami -- přitom značné množství úloh s délkou trvání v řádu hodin je paralelních (využívajících zpravidla 4 až 32 procesorů), MetaCentrum tak efektivně zkracuje dobu čekání na výsledky (pětihodinová úloha na 16 procesorech by se počítala více jak 3 dny na jednoprocesorovém stroji a stále skoro celý den na čtyřprocesorovém systému).
Koncem května byl v MetaCentru nainstalován uživateli dlouho očekávaný program Gaussian09 v nejnovější verzi A.02. Ihned po uvedení novinky o zprovoznění se stal po Amberu druhou nejoblíbenější veřejnou aplikací v MetaCentru. Na prvním místě je vlastní aplikace uživatele Benedikta. Na žádost uživatelů jsme vylepšili dokumentaci aplikace JDK a nainstalovali Python (nové verze SciPy, Python).
V prvním pololetí jsme do MetaCentra integrovali nově pořízený cluster Tarkil (CESNET), který kvůli nedostatku IP adres nahradil cluster Skurut (CESNET) v Praze a zprovoznili jsme obnovený stroj Ajax v Plzni (ZČU). Na žádost vlastníků byl odstaven cluster Perian17-68 a přestěhován cluster Perian69-76 (oba PřF MU) do nového sálu ve správě vlastníků clusteru.
Vytížení je počítáno po jednotlivých clusterech, protože MetaCentrum je tvořeno různorodými stroji patřícími různým organizacím, a některé stroje a clustery jsou plně vyhrazeny jejich vlastníkům, takže souhrny za celé MetaCentrum nemají smysl. Například cluster quark je plně vyhrazen na zpracování video záznamů z přednášek na Masarykově univerzitě, které musí být zpracovány co nejrychleji, nízké vytížení je tedy daní za real-timeovost zpracování. Podobně clustery loslab a wood jsou plně vyhrazeny jejich vlastníkům, kteří akceptují nižší vytížení výměnnou za kratší čekací doby na spuštění úlohy.
Grafy vytížení vyjadřují kolik z využitelného času uživatelé využili, jako 100% je brán celkový počet CPU-sekund snížený o CPU-sekundy v údržbě, a hodnota v grafu je součtem CPU-sekund úloh a CPU-sekund rezervací.
Nový cluster Tarkil byl zprovozněn v únoru 2010, uživatelům byl přeán 4.3.2010. Patří CESNETu, nahradil cluster Skurut. Každý uzel je osazen dvěma čtyřjadernými procesory s HT a má 24 GB paměti.
Cluster Eru byl zprovozněn v říjnu 2009. Jedná se o dva stroje s osmi čtyřjádrovými procesory, tedy 32jádrové stroje. Jsou to momentálně nejsilnější stroje v MetaCentru. Eru patří CESNETu a je umístěný v prostorách Karlovy univerzity.
Stroje Manwe a Aule patří k nejvýkonnějším strojům v MetaCentru - každý s 16 CPU a podle data nákupu s 32 GB až 128 GB paměti. Stroje patří MU a CESNETu a jsou volně dostupné všem uživatelům.
Nympha patří ZČU, uživatelům byl zpřístupněn v lednu 2009. Každý stroj v clusteru má 8 procesorů (dva čtyřjádrové čipy).
Hermes je poměrně nový a výkonný cluster PřF Jihočeské Univerzity v Českých Budějovicích. Byl zprovozněn na konci roku 2008 a je přístupný všem uživatelům.
Cluster Alela patří UBI FEKT VUT Brno, byl zprovozněn v květnu 2009, na žádost vlastníků rezervován pro jejich účely.
Cluster Skirit je ve vlastnictví CESNETu. Vlivem postupného přikupování různorodé části. První část Skirit 17 až 48 je výkonově slabší, druhá část Skirit 49 až 84 obsahuje silné stroje s rychlou sítí Infiniband. Cluster je přístupný všem uživatelům.
Stroj Ajax patří ZČU, jedná se o osmijaderný stroj se 48GB paměti.
Cluster Hydra je cluster patřící KIV ZČU, je volně dostupný všem uživatelům. Je sestaven z poměrně starých a slabých strojů.
Cluster Konos patří KIV a KMA na ZČU a je volně dostupný všem uživatelům, jeho vlastníci na něm mají prioritu prostřednictvím fronty "iti". Je hardwarově poměrně heterogenní, jeho části, Konos 1 až 10, Konos 11 až 14 a Konos 15 až 37, byly přikupovány postupně. Výkonově se jedná o slabší stroje.
Cluster Skurut patří CESNETu, v lednu 2010 byl odstaven a nahrazen clustrem Tarkil.
Cluster Orca patří NCBR, je přístupný všem uživatelům metaCentra. Uživatelé z řad členů výzkumného centra NCBR mají nyní na cluster prioritní přístup prostřednictvím fronty orca. Ostatním uživatelům MetaCentra je cluster dostupný přes frontu preemptible. Na strojích s názvem orcaX-2 mohou úlohy spuštěné prostřednictvím prioritní fronty orca pozastavovat ostatní úlohy a na strojích s názvem orcaX-1 jsou povoleny ostatním uživatelům pouze jednouzlové úlohy.
Cluster Perian patří NCBR, původně byl plně vyhrazen jeho členům. Vlivem postupného přikupování má cluster různorodé části, a to Perian 17 až 68, Perian 69 až 76, Perian 77 až 86 a Perian 87 až 96. Od srpna 2009 byl celý cluster zpřístupněn všem uživatelům MetaCentra prostřednictvím front short a normal. Uživatelé z NCBR mají na cluster zajištěn prioritní přístup prostřednictvím front ncbr a cpmd. V lednu 2010 byly odstaveny uzly nejstarší uzly perian17-68.
Cluster Quark je primárně určen pro kódování videa (prioritní fronta "quark"). V březnu 2010 byl zpřístupněn všem uživatelům MetaCentra prostřednictvím méně prioritních front 'mikroskop','short' a 'backfill'.
Loslab je blade server patřící Loschmidt Laboratories a je vyhrazen pouze jejich členům. MetaCentrum tak nemá možnost ovlivnit jeho vytížení, které je hluboce pod standardním vytížením clusterů v MetaCentru.
Tyto stroje nejsou zapojeny v systému PBS. Wood je cluster MZLU a používá vlastní plánovací systém. Dali a Mat jsou SMP stroje s procesory MIPS a nepoužívají žádný plánovací systém. Statistiku tedy není možné spočítat stejným způsobem jako u ostatních systémů.
Následující dva grafy ilustrují kvantitativní rozdíl v počtu spuštěných úloh i propočítaném čase mezi uživateli. Uživatel s nejdelším propočítaným CPU časem propočítal 22 % z celkového propočítaného CPU času za celé MetaCentrum, první čtyři uživatelé propočítali dohromady cca 50 \% celkového propočítaného CPU času. Z grafu je zřejmé, že v MetaCentru je zastoupeno několik málo skupin, které dokáží využít nezanedbatelnou kapacitu MetaCentra.