Statistiky 2. čtvrtletí 2010

Statistiky provozu MetaCentra za období 1.1.- 31.5. 2010

Obsah

Souhrnné statistiky v číslech

Počet uživatelů (evidovaných od počátku MetaCentra): 618

Počet aktivních uživatelů (s aktivním účtem v roce 2010): 385

Počet prodloužených účtů: 281

Počet nově založených účtů: 104

Počet uživatelů, kteři spustili alespoň jednu úlohu: 187

Počet fyzických strojů: 294

Počet CPU: 1560

V období 1.1. - 31.5.2010 uživatelé propočítali více než 3 miliony CPU hodin ve 190 tis. úlohách. Oproti stejnému období v loňském roce uživatelé v MetaCentru propočítali 2x více strojového času, zároveň počet úloh narostl o polovinu. Nicméně díky úpravám v plánovači (a novému HW) uživatelé nezaznamenali delší doby čekání. V intervalech s dobou čekání na spuštění nad 5 hodin došlo dokonce ke zkrácení doby čekání.

Průměrné vytížení volně přístupných clusterů v MetaCentru se pohybuje u většiny mezi 70 a 95%. Vytížení okolo 70% je optimální, vyšší vytížení již znamená faktickou saturaci a způsobuje delší doby čekání úloh ve frontě. Nižší hodnoty vytížení vykazují stroje, které byly do MetaCentra zapojeny až v průběhu sledovaného období (tarkil) nebo stroje, které byly v tomto období odstaveny (skurut, perian). Vytížení vyhrazených strojů je výrazně nižší, což dokládá například cluster loslab nebo quark, který byl v polovině období přesunut mezi volně přístupné stroje: Jeho průměrné vytížení se zvýšilo z necelých 20 % v lednu až březnu na 55% v dubnu až květnu.

[Průměrné vytížení strojů a clusterů]

Změny v nastavení plánovacího systému

Přistoupili jsme k dalším úpravám v plánovacím systému PBS směřujícím k efektivnějšímu využití disponibilních výpočetních zdrojů a uspokojení co největšího počtu uživatelů.

[Doba čekání úloh na spuštění]

A ještě jednou srovnání doby čekání úloh ve stejných obdobích roku 2009 a 2010. Díky novému HW (tarkil, ajax), změnám v politice přístupu uživatelů a úpravám plánovacího systému se doba čekání úloh v prvním pololetí roku 2010, oproti roku předchozímu, výrazně zkrátila, a to i přestože průměrné vytížení strojů vzrostlo o desítky procent a uživatelé propočítali dvakrát více strojového času a o polovinu více úloh.

[Doba čekání úloh na spuštění]

Následující graf srovnává dobu běhu úloh ve stejných obdobích roku 2009 a 2010. Doba běhu převážné většiny úloh nepřekračuje 24 hodin. Extrémně krátké úlohy zpravidla ukazují na problémy se zadáním a konfigurací -- na uživatele s vysokým počtem těchto úloh se soustřeďuje uživatelské podpora. Graf nerozlišuje mezi sekvenčními a paralelními úlohami -- přitom značné množství úloh s délkou trvání v řádu hodin je paralelních (využívajících zpravidla 4 až 32 procesorů), MetaCentrum tak efektivně zkracuje dobu čekání na výsledky (pětihodinová úloha na 16 procesorech by se počítala více jak 3 dny na jednoprocesorovém stroji a stále skoro celý den na čtyřprocesorovém systému).

[Doba běhu úloh] [Fronty] [Fronty podle propočítaného času]

 

Aplikace

Koncem května byl v MetaCentru nainstalován uživateli dlouho očekávaný program Gaussian09 v nejnovější verzi A.02. Ihned po uvedení novinky o zprovoznění se stal po Amberu druhou nejoblíbenější veřejnou aplikací v MetaCentru. Na prvním místě je vlastní aplikace uživatele Benedikta. Na žádost uživatelů jsme vylepšili dokumentaci aplikace JDK a nainstalovali Python (nové verze SciPy, Python).

[Doba běhu aplikací]

Vytížení strojů a clusterů

V prvním pololetí jsme do MetaCentra integrovali nově pořízený cluster Tarkil (CESNET), který kvůli nedostatku IP adres nahradil cluster Skurut (CESNET) v Praze a zprovoznili jsme obnovený stroj Ajax v Plzni (ZČU). Na žádost vlastníků byl odstaven cluster Perian17-68 a přestěhován cluster Perian69-76 (oba PřF MU) do nového sálu ve správě vlastníků clusteru.

Vytížení je počítáno po jednotlivých clusterech, protože MetaCentrum je tvořeno různorodými stroji patřícími různým organizacím, a některé stroje a clustery jsou plně vyhrazeny jejich vlastníkům, takže souhrny za celé MetaCentrum nemají smysl. Například cluster quark je plně vyhrazen na zpracování video záznamů z přednášek na Masarykově univerzitě, které musí být zpracovány co nejrychleji, nízké vytížení je tedy daní za real-timeovost zpracování. Podobně clustery loslab a wood jsou plně vyhrazeny jejich vlastníkům, kteří akceptují nižší vytížení výměnnou za kratší čekací doby na spuštění úlohy.

Grafy vytížení vyjadřují kolik z využitelného času uživatelé využili, jako 100% je brán celkový počet CPU-sekund snížený o CPU-sekundy v údržbě, a hodnota v grafu je součtem CPU-sekund úloh a CPU-sekund rezervací.

Clustery s volným přístupem

Cluster Tarkil

[Vytizeni Tarkil]

Nový cluster Tarkil byl zprovozněn v únoru 2010, uživatelům byl přeán 4.3.2010. Patří CESNETu, nahradil cluster Skurut. Každý uzel je osazen dvěma čtyřjadernými procesory s HT a má 24 GB paměti.

Cluster Eru

[Vytizeni Eru]

Cluster Eru byl zprovozněn v říjnu 2009. Jedná se o dva stroje s osmi čtyřjádrovými procesory, tedy 32jádrové stroje. Jsou to momentálně nejsilnější stroje v MetaCentru. Eru patří CESNETu a je umístěný v prostorách Karlovy univerzity.

Stroje Manwe a aule

[Vytizeni Manwe]

Stroje Manwe a Aule patří k nejvýkonnějším strojům v MetaCentru - každý s 16 CPU a podle data nákupu s 32 GB až 128 GB paměti. Stroje patří MU a CESNETu a jsou volně dostupné všem uživatelům.

Cluster Nympha

[Vytizeni Nympha]

Nympha patří ZČU, uživatelům byl zpřístupněn v lednu 2009. Každý stroj v clusteru má 8 procesorů (dva čtyřjádrové čipy).

Cluster Hermes

[Vytizeni hermes]

Hermes je poměrně nový a výkonný cluster PřF Jihočeské Univerzity v Českých Budějovicích. Byl zprovozněn na konci roku 2008 a je přístupný všem uživatelům.

Cluster Alela

[Vytizeni alela]

Cluster Alela patří UBI FEKT VUT Brno, byl zprovozněn v květnu 2009, na žádost vlastníků rezervován pro jejich účely.

Cluster Skirit

[Vytizeni skirit17-48] [Vytizeni skirit49-84]

Cluster Skirit je ve vlastnictví CESNETu. Vlivem postupného přikupování různorodé části. První část Skirit 17 až 48 je výkonově slabší, druhá část Skirit 49 až 84 obsahuje silné stroje s rychlou sítí Infiniband. Cluster je přístupný všem uživatelům.

Stroj Ajax

[Vytizeni Ajax]

Stroj Ajax patří ZČU, jedná se o osmijaderný stroj se 48GB paměti.

Cluster Hydra

[Vytizeni Hydra]

Cluster Hydra je cluster patřící KIV ZČU, je volně dostupný všem uživatelům. Je sestaven z poměrně starých a slabých strojů.

Cluster Konos

[Vytizeni Konos]

Cluster Konos patří KIV a KMA na ZČU a je volně dostupný všem uživatelům, jeho vlastníci na něm mají prioritu prostřednictvím fronty "iti". Je hardwarově poměrně heterogenní, jeho části, Konos 1 až 10, Konos 11 až 14 a Konos 15 až 37, byly přikupovány postupně. Výkonově se jedná o slabší stroje.

Cluster Skurut

[Vytizeni Skurut]

Cluster Skurut patří CESNETu, v lednu 2010 byl odstaven a nahrazen clustrem Tarkil.

Cluster Orca

[Vytizeni Orca]

Cluster Orca patří NCBR, je přístupný všem uživatelům metaCentra. Uživatelé z řad členů výzkumného centra NCBR mají nyní na cluster prioritní přístup prostřednictvím fronty orca. Ostatním uživatelům MetaCentra je cluster dostupný přes frontu preemptible. Na strojích s názvem orcaX-2 mohou úlohy spuštěné prostřednictvím prioritní fronty orca pozastavovat ostatní úlohy a na strojích s názvem orcaX-1 jsou povoleny ostatním uživatelům pouze jednouzlové úlohy.

Cluster Perian

[Vytizeni perian17-68] [Vytizeni perian69-76] [Vytizeni perian77-86] [Vytizeni perian87-96]

Cluster Perian patří NCBR, původně byl plně vyhrazen jeho členům. Vlivem postupného přikupování má cluster různorodé části, a to Perian 17 až 68, Perian 69 až 76, Perian 77 až 86 a Perian 87 až 96. Od srpna 2009 byl celý cluster zpřístupněn všem uživatelům MetaCentra prostřednictvím front short a normal. Uživatelé z NCBR mají na cluster zajištěn prioritní přístup prostřednictvím front ncbr a cpmd. V lednu 2010 byly odstaveny uzly nejstarší uzly perian17-68.

Cluster Quark

[Vytizeni Quark]

Cluster Quark je primárně určen pro kódování videa (prioritní fronta "quark"). V březnu 2010 byl zpřístupněn všem uživatelům MetaCentra prostřednictvím méně prioritních front 'mikroskop','short' a 'backfill'.

Clustery s vyhrazeným přístupem

Cluster Loslab

[Vytizeni Loslab]

Loslab je blade server patřící Loschmidt Laboratories a je vyhrazen pouze jejich členům. MetaCentrum tak nemá možnost ovlivnit jeho vytížení, které je hluboce pod standardním vytížením clusterů v MetaCentru.

Wood, Dali, Mat

Tyto stroje nejsou zapojeny v systému PBS. Wood je cluster MZLU a používá vlastní plánovací systém. Dali a Mat jsou SMP stroje s procesory MIPS a nepoužívají žádný plánovací systém. Statistiku tedy není možné spočítat stejným způsobem jako u ostatních systémů.

Uživatelé

Následující dva grafy ilustrují kvantitativní rozdíl v počtu spuštěných úloh i propočítaném čase mezi uživateli. Uživatel s nejdelším propočítaným CPU časem propočítal 22 % z celkového propočítaného CPU času za celé MetaCentrum, první čtyři uživatelé propočítali dohromady cca 50 \% celkového propočítaného CPU času. Z grafu je zřejmé, že v MetaCentru je zastoupeno několik málo skupin, které dokáží využít nezanedbatelnou kapacitu MetaCentra.

[Zebricek uzivatelu podle propocitaneho casu] [Zebricek uzivatelu podle propocitanych uloh] [Instituce podle propocitaneho casu]

Poslední změna:Fri Oct 15 15:02:08 CEST 2010