Statistika 2011

Navigace: 2011Q1

Statistiky provozu MetaCentra VO za období 1.1.2011 – 30.11.2011

Obsah

Souhrnné statistiky v číslech

Pozn.: Údaje jsou k 30. 11. 2011. V závorce jsou pro srovnání údaje za stejné období roku 2010.

K 30. 11. 2011 MetaCentrum VO eviduje 491 uživatelů s aktivním účtem (pro  srovnání koncem roku 2010 to bylo 385 uživatelů). O prodloužení účtu  požádalo 314 uživatelů, získali jsme 177 nových uživatelů. Alespoň jednu úlohu v tomto období spustilo 252 uživatelů, část uživatelů
využívá registraci v MetaCentru pouze pro přístup k úložným kapacitám a dalším službám, část nikdy nebyla skutečně aktivní.  
Diskové pole je přístupné pro 388 uživatelů MetaCentra, 289 uživatelů má na něm uložena data.  Celkem je na diskovém poli 155 mil. souborů o celkovém objemu 85 TB.  
V období leden až listopad 2011 uživatelé propočítali 6,6 milionů CPU hodin v 609  tis. úlohách (z toho v prvním pololetí cca 3 miliony CPU hodin ve 286 tis. úlohách). 
 
Průměrné vytížení volně dostupných strojů v MetaCentru se pohybovalo mezi 60 a 90 %. Stroje s přednostním přístupem vlastníků vykazovaly vytížení mezi 40 až 65 %. Vytížení okolo 70% je optimální, vyšší vytížení již znamená faktickou saturaci a způsobuje delší doby čekání úloh ve frontě. Nižší hodnoty vytížení vykazují stroje, které byly do MetaCentra zapojeny až v průběhu sledovaného období nebo jsou vyhrazené pro některou skupinu. 

usage-all

 
Uživatelé přihlásili v roce 2011 prostřednictvím webového rozhraní 60 publikací s poděkováním MetaCentru. Není to však konečné číslo, vzhledem k opožděnému prodlužování účtů bude řada uživatelů zadávat publikace ještě v Q1 2012.

Změny v nastavení plánovacího systému

První pololetí roku 2011 bylo v MetaCentru ve znamení přechodu z komerčního PBS Pro plánovače na plánovací systém založený na volně dostupném nástroji Torque. Tento přechod probíhal postupně, kdy jednotlivé clustery byly v průběhu času převáděny ze správy PBS Pro do správy Torque. Jedním z důsledků tohoto přechodu je i nižší celkové vytížení ve srovnání s rokem 2010.  

Před každým takovým převodem bylo totiž potřeba počkat na dokončení úloh, které na daném clusteru běžely. Zároveň ale bylo nutné zabránit novým úlohám ve spouštění na daném clusteru, což logicky vedlo k nižšímu vytížení strojů ve srovnání s rokem 2010. Uživatelé se tak postupně museli rozhodnout, kdy přestoupí na nový plánovací systém. Navíc, v průběhu zavádění systému bohužel došlo v některým případech ke ztrátě některých statistických dat, což způsobilo, že pro některé stroje nebylo možno zrekonstruovat vytížení za celé období (zde prezentované vytížení je pak nižší, než ve skutečnosti bylo).

V každém případě, během relativně dlouhé doby (několik měsíců), byly clustery MetaCentra rozděleny do dvou disjunktních podmnožin a oba paralelně pracující plánovače mohly plánovat pouze nad svou podmnožinou, což pochopitelně po dobu přechodu znamenalo menší výslednou efektivitu. Dalším důvodem bylo, že zatímco v roce 2010 bylo k dispozici cca 1500 CPU v 16 clusterech nyní je to již cca 1800 CPU v 21 clusterech. Následující grafy ukazují jak se postupný přechod z PBS Pro na Torque projevoval ve využití obou systémů. Grafy zachycují absolutní a kumulativní četnosti příchodu úloh během prvního pololetí pro oba plánovače, přičemž je patrno, jak postupně Torque plně nahradil dosavadní PBS Pro.  Podrobnosti viz statistika 1. pololetí.

graf

 

graf

Statistiky využití zdrojů

Uživatelé MetaCentra VO měli k dispozici více než 2028 CPU. Následující tabulka ukazuje trend růstu počtu procesorových jader v MetaCentru v uplynulých letech.

rok 2004 2006 2008 2009 2010 2011
CPU jader 262 600 1200 1468 1522 2028

V roce 2011 došlo k částečné obnově a rozšíření clusterů perian (MU) a konos (ZČU). Oproti roku 2010 počet CPU v clusteru perian vzrostl ze 190 na 516 CPU jader. Cluster konos byl rozšířen o deset 12jaderných strojů doplněných GPU NVIDIA grafickými kartami.    
 
Z následující tabulky je zřejmé, že se v prvním pololetí roku 2011 zpomalil nárůst  propočítané doby v MetaCentru. Je to důsledkem výše zmíněného přechodu na nový plánovací systém, především nižším vytížením strojl v důsledku přechodu na Torque a eliminací chyb v accountingové databázi, na které jsme narazili při úpravách pro Torque. Ve druhém pololetí rostoucí trend počtu propočítaných CPU pokračoval, jak ukazuje následující tabulka.

období počet úloh CPU hodin
2009/1-6 125 tis. 1,5 mil.
2009/7-12 364 tis.  3,2 mil.
2010/1-6 280 tis. 3 mil.
2010/7-11 400 tis. 3,2 mil.
2011/1-6 286 tis. 3 mil.
2011/7-11 323 tis. 3,6 mil.

Následující graf ukazuje dobu běhu jednotlivých úloh. Doba běhu převážné většiny úloh nepřekračuje 24 hodin. Extrémně krátké úlohy zpravidla
ukazují na problémy se zadáním a konfigurací - na uživatele s vysokým  počtem takových úloh se soustřeďuje uživatelské podpora.

graf

Graf doby běhu úloh nerozlišuje mezi sekvenčními a paralelními úlohami - přitom značné množství úloh s délkou trvání v řádu hodin je paralelních
(využívajících zpravidla 4 až-32 procesorů), MetaCentrum tak efektivně  zkracuje dobu čekání na výsledky (pětihodinová úloha na 16 procesorech by se počítala více jak 3 dny na jednoprocesorovém stroji a stále skoro celý den na čtyřprocesorovém systému). 

Podíl víceprocesorových úloh dokládají grafy na následujícím obrázku. Došlo k nárůstu počtu víceprocesorových úloh oproti prvnímu pololetí, především v kategoriích 3-4 a 9-16 CPU.

graf

Zaznamenali jsme velký nárůst propočítaného času uživatelů ve druhém pololetí. Je to vidět i z následujícího grafu, kdy u většina z nich ve druhém pololetí propočítala výrazně více než v pololetí prvním. Stejný trend je vidět i na grafu počtu spuštění úloh.

graf

graf

Podrobnější náhled na využití strojového času institucemi nabízí následující graf. Mezi nejaktivnější instituce už tradičně patří Masarykova univerzita (48% podíl na celkovém CPU času, z toho 41 % CEITEC/NCBR), Západočeská univerzita (25 %) a Akademie věd ČR (18 %).

graf

graf

Z dlouhodobého sledování úloh v privilegované frontě plyne, že se nám, po loňských úpravách nastavení parametrů fronty, dlouhodobě daří zkrátit dobu čekání. Dvě třetiny úloh se spustí do 24 hodin, pouze necelé 1 % úloh čekalo více než 20 dní. V této frontě uživatelé obvykle spouští mnohaprocesorové úlohy, které by v ostatních méně prioritních frontách čekaly mnohem déle. CPU čas propočítaný v těchto frontách před úpravou nastavení se pohyboval v jednotkách procent celkového propočítaného času v MetaCentru.

graf

Po celý rok 2010 přetrvává trend vysokého vytížení clusterů MetaCentra z konce minulého roku. Vytížení většiny strojů s volným přístupem mezi 70 a 90 procenty znamená faktickou saturaci MetaCentra, pro uživatele znamená delší dobu čekání na spuštění úloh, pro správce vyšší tlak na efektivitu využití zdrojů MetaCentra. V druhém pololetí jsme zaznamenali nárůst poptávky po výpočetní kapacitě, která se projevila jednak ve vyšším propočítaném čase a také delší dobou čekání úloh na spuštění.

graf

graf

Mezi nejžádanější stroje tradičně patří silné víceprocesorové clustery s poměrně velkou pamětí, např. Nympha, novější Perian, Tarkil a Manwe. Na předchozím grafu jsou clustery seřazeny podle celkového propočítaného CPU času, není zohledněn počet CPU. Stále rostoucí zájem o~podporu paralelních úloh je možné demonstrovat na využití 16procesorových strojů Manwe, které osciluje celoročně okolo 90 % (v loňském roce rovněž 90 %).

graf

Daří se nám zajistit vysoké vytížení spravovaných zdrojů ve vlastnictví uživatelských skupin. V polovině loňského roku přistoupila skupina NCBR (National Centre for Biomolecular Research, PřF MU) na zpřístupnění svého clusteru Orca dalším uživatelům, vlastníkům clusteru zůstal prioritní přístup ke svým výpočetním zdrojům. Vytížení vzrostlo z 18 % před zpřístupněním na téměř 60 %. Obdobné výsledky dosahuje cluster Perian patřící rovněž NCBR.

graf

V dubnu 2010 jsme z větší části zpřístupnili původně vyhrazený cluster Quark všem uživatelům MetaCentra prostřednictvím méně prioritních front. I u něj se projevil významný nárůst jeho průměrného dlouhodobé vytížení přesahuje 50 % (před zpřístupnění ostatním bylo jeho vytížení do 20 %).

graf

Vytížení dalších strojů a clusterů

graf

graf

graf

graf

graf

graf

graf

graf

graf

graf

graf

graf

Díky navýšení uvazků uživatelské podpory se nám podařilo utřídit informace o aplikačních programech, které jsou v MetaCentru dostupné a k řadě z nich nainstalovat, po dohodě s uživateli, jejich novější verze. Za všechny jmenujme například nové verze aplikací Wien2k, BEAST, Gromacs, MrBayes, R, Autodock, Vina a další.Komerční program Gaussian09 v nejnovější verzi, naistalovaný v polovině loňského roku,  je po Amberu je druhou nejoblíbenější aplikací v MetaCentru. Přehled propočítaného času aplikací je zachycen na následujícím grafu.

graf

Datové úložiště

Celková RAW kapacita pole je 124 TB, využitelná kapacita je 85 TB. Uživatelská data zabírají cca 82 TB (tj. 96 % celkové kapacity datového úložiště) ve 155 milionech souborů (pro srovnání loni jen 80 milionů souborů).
Průměrná velikost jednoho souboru je 529 kB.
 
Diskové pole je přístupné prostřednictvím svazku /storage pro 388 uživatelů MetaCentra, 289 uživatelů má uložena nějaká data. Většina (250)
uživatelů má uloženo méně než 100 tisíc, 23 uživatelů má uloženo více než milion souborů.  170 uživatelů má uloženo alespoň 1 GB dat, což představuje dvojnásobný nárůst oproti loňskému roku. 

RT systém

Interakce s uživateli a řešení jejich problémů probíhá primárně prostřednictvím systému správy lístků (Request Tracking System, RT).
V rámci našeho RT vedeme vyhrazené zvláštní fronty pro uživatelské skupiny, které o ně projevily zájem -- např. skupina NCBR, CERIT-SC nebo ESFRI projekt ELI.  
 
Došlo k dalšímu rozvoji propojení našeho RT systému se systémem požadovaným v EGI - GGUS. Z mezinárodního prostředí přichází přibližně sedmina všech dotazů a požadavků, které jsme v tomto roce řešili.
 
Ve sledovaném období (leden až listopad 2011) bylo v RT systému založeno přímo uživateli (zpravidla konkrétní dotaz nebo oznámení problému) nebo prostřednictvím portálu MetaCentra na základě požadavku uživatelů (zřízení či prodloužení účtu, žádost o zvýšení diskových kvót apod.) nebo správci 1523 nových lístků, z toho 206 dotazů a požadavků se týkalo mezinárodního gridového prostředí. Díky velmi účinným antispamovým filtrům nejsou do statistik započítávány falešné lístky.

Poslední změna:Wed Jan 18 15:26:07 CET 2012