1. 1. - 26. 6. 2013 |
Celkem | @arien | @wagap |
Počet úloh | 896 846 | 820 546 | 76 300 |
Propočítaný CPU čas | 1773 CPU let | 1046 CPU let | 727 CPU let |
Počet uživatelů k 26. 6. 2013 | 569 | ||
Počet uživatelů, kteří spustili aspoň jednu úlohu | 335 | ||
Počet CPU k 26. 6. 2013 | 8580 | 4348 | 4232 |
Celkový počet aktivních uživatelů v MetaVO za první pololetí roku 2013 je 569, z toho prodloužených účtů z předchozího roku 368 a získali jsme 201 nových uživatelů. Pro srovnání, v předchozím roce 2012 mělo v polovině roku v MetaVO účet 430 uživatelů, z toho bylo 301 prodloužených a 129 nových účtů. Žádost o prodlužení účtu i nové přihlášky přicházejí po celý rok. S novým akademickým školním rokem 2013/2014 očekáváme v podzimních měsících výrazný nárust počtu nových uživatelů.
Za první pololetí roku 2013 uživatelé propočítali oproti loňskému roku téměř dvakrát více, celkem 15,5 milionu CPU hodin oproti 8 mil. za stejné období předchozího roku. Vzrostl rovněž počet spuštěných úloh oproti loňskému roku, z 261 tisíc v roce 2012 na 900 000 spuštěných úloh ve stejném období 2013. Tak výrazný nárůst propočítaného CPU času je důsledkem významného rozšíření výpočetní kapacity z OP VaVpI prostředků Cesnetího projektu eIgeR a univerzitního projektu CERIT-SC (ÚVT MU). Meziročně vzrostl počet CPU o více než 3500 CPU na celkový počet 8 580 CPU.
Mezi největší vlastníky patří:
Následující graf ukazuje průměrné vytížení výpočetních clusterů a strojů v první polovině roku 2013. U některých zdrojů není započítaná část výpočetní kapacity, která byla přístupná experimentálním cloudovým rozhraním, ze kterého nemáme posbírána korektní provozní data. Základem pro výpočet průměrného vytížení (100%) je celkový počet dostupných CPU-core-seconds mínus počet CPU-core-seconds strojů, které nebyly v provozu. Rezervované stroje jsou započítané tak, jako by byly plně využity, bez ohledu na jejich skutečné využití.
Průměrné vytížení volně dostupných strojů v MetaCentru se pohybovalo mezi 60 a 90 %. Vytížení okolo 70% je optimální, vyšší vytížení již znamená faktickou saturaci a způsobuje delší doby čekání úloh ve frontě. Nižší hodnoty vytížení vykazují stroje, které byly do MetaCentra zapojeny až v průběhu sledovaného období nebo jsou vyhrazené pro některou skupinu.
Nové clustery centra CERIT-SC (zigur a zapat) jsou díky virtualizaci do gridu připojeny přes cloudové rozhraní a jen část je určena pro výpočty přes plánovací systém, větší část je využitelná v cloudovém prostředí. U těchto zdrojů není započítaná část výpočetní kapacity, která byla přístupná experimentálním cloudovým rozhraním, ze kterého nemáme posbírána korektní provozní data. Jejich vytížení je proto výrazně pod průměrem MetaVO.
Cluster zapat.cerit-sc.cz je nový přírůstek do rodiny clusterů patřících CERIT-SC. Skládá se ze 112 uzlů, každý obsahuje 16 CPU a 128 GB paměti. Je aktuálně největším clusterem v MetaCentru, jeho počet procesorů je 1792.
Cluster zigur je je složen s 32 uzlů po 2x4 CPU, každý uzel má 128 GB paměti. Je osazen rychlými procesory, výkon každého uzlu naměřený během akceptačních testů je 327 bodů benchmarku SPECfp2006 base rate, tj. 41 na jádro (zapat má 29 bodů na jádro).
GPU cluster gram.zcu.cz má 10 uzlů po 16 CPU celkem tedy 160 CPU. Každý z uzlů je vybaven GPU kartou 4x nVidia Tesla M2090 6GB. Pro výpočetní využití karty je nutné využít nové fronty "gpu" a "gpu_long", které jsou přístupné všem uživatelům MetaCentra. V obou frontách se za dané období spustilo více než 9 000 úloh s celkovým časem přes 100 000 CPU hodin.
Nový stroj ramdal.ics.muni.cz slouží pro úlohy náročné na paměť, má 32 procesorů s Hyperthreadingem, velikost jeho paměti je 1 TB. Je ve zvláštním režimu, kdy pro přístup ke stroji je potřeba kontaktovat Metacentrum se zdůvodněním.
Cluster Hildor je umístěn na sále JU v Českých Budějovicích, obsahuje 26 uzlů po 16 CPU a pamětí 64 GB.
Celková doba čekání úloh se zvětšila kvůli nárůstu počtu úloh. Největší nárůst pozorujeme v čekání v rámci sekund až jednotek minut, naopak snížení můžeme pozorovat v čekání v řádu desítek hodin a jednotek dní. Díky novým strojům se již nestává tak často, že by úloha čekala na spuštění několik dní. Často se ale jedná o úlohy nesprávně zadané, kdy požadovaná kombinace vlastností buď neexistuje nebo je dlouhodobě nedostupná.
Doba běhu úloh je naopak téměř stejná nebo vyšší bež v předcházejícím roce. Výrazně narostl počet úloh běžících několik vteřin. Více než 300 tisíc z nich jsou servisní úlohy, které nám pomáhají monitorovat dostupnost strojů.
Oproti stejnému období předchozího roku se výrazně zvýšil počet víceprocesorových. Důvodem nárůstu je zprovoznění velkých SMP strojů v druhé polovině roku 2012 a úpravy v plánovači směrem k nastavení strádání úloh. Velké úlohy přes více jader již tak dlouho nečekaly a proto je uživatelé začali více pužívat.
Z následujícího grafu je patrné, že podle propočítaného času jsou oblíbené dlouhé fronty s délkou běhu úloh nad 1 den. Je to logické, většina těchto úloh využila navíc více jader. Nejvíce času se propočítalo ve frontě long, která je určena pro úlohy trvající 1 až 30 dní. Další fronty jsou v rozsahu od 4 dnů do 1 týdne (q_1w) a do 24 hodin (normal). Fronta q_4d je určena pro úlohy trvající od 2 do 4 dní a q_2w pro úlohy trvající 1 až 2 týdny.
Co do počtu spuštěných úloh je nejfrekventovanější interní fronta monitoring pro monitorování stavu strojů. Nejoblíbenější uživatelskou frontou je nízkoprioritní fronta backfill, určená k "vyplnění" prázdných strojů. Úlohy v této frontě mohou být v případě potřeby ukončeny, ale může jich být velmi mnoho.
Následující grafy jsou vykresleny pro úlohy spuštěné na clusterech CRIT-SC (zewura, zegox, zapat, zigur). Oproti předchozí skupině (@arien) čekají úlohy na spuštění kratší dobu a uživatelé preferují úlohy s delší dobou běhu, především díky většímu podílu paraleních úloh.
Prvních deset uživatelů propočítalo téměř 800 CPU let, což představuje téměř polovinu celkového propočítaného času.
Masarykova univerzita propočítala celkem přes 5 milionů CPU hodin což tvoří celou jednu třeti celkového propočítaného času, Univerzita Karlova propočítala téměř 4 miliony CPU hodin.
Celkově se v MetaCentru za první pololetí 2013 objevuje 24 organizací, především univerzit nebo jejich kateder a 14 ústavů akademie věd ČR. Můžeme sledovat nárůst propočítané doby téměř u všech dostupných organizací. Graf zahrnuje organizace, co propočítaly nejvíc CPU hodin.
V MetaCentru je pod každou organizací řada skupin, v souhrnu téměř 80. V grafu jsou zachyceny ty nejaktivnější z nich a porovnání propočítaného času za letošní a předchodí pololetí.
Od října 2012 bylo v MetaCentru nainstalováno nebo aktualizováno více než 100 aplikačních modulů. Veškeré změny v modulech jsou hlášeny na wiki a významnější SW rovněž fromou novinek.
Zde je přehled těch s největším propočítaným časem.