Statistika 2013

Statistiky za první pololetí 2013

1. 1. - 26. 6. 2013
Celkem @arien @wagap
Počet úloh 896 846 820 546 76 300
Propočítaný CPU čas 1773 CPU let 1046 CPU let 727 CPU let
Počet uživatelů k 26. 6. 2013 569
Počet uživatelů, kteří spustili aspoň jednu úlohu 335
Počet CPU k 26. 6. 2013 8580  4348  4232

Celkový počet aktivních uživatelů v MetaVO za první pololetí roku 2013 je 569, z toho prodloužených účtů z předchozího roku 368 a získali jsme 201 nových uživatelů.  Pro srovnání, v předchozím roce 2012 mělo v polovině roku v MetaVO účet 430 uživatelů, z toho bylo 301 prodloužených a 129 nových účtů. Žádost o  prodlužení účtu i nové přihlášky přicházejí po celý rok. S novým akademickým školním rokem 2013/2014 očekáváme v podzimních měsících výrazný nárust počtu nových uživatelů.

Za první pololetí roku 2013 uživatelé propočítali oproti loňskému roku téměř dvakrát více, celkem 15,5 milionu CPU hodin oproti 8 mil. za stejné období předchozího roku. Vzrostl rovněž počet spuštěných úloh oproti loňskému roku, z 261 tisíc v roce 2012 na 900 000 spuštěných úloh ve stejném období 2013. Tak výrazný nárůst propočítaného CPU času je důsledkem významného rozšíření výpočetní kapacity z OP VaVpI prostředků Cesnetího projektu eIgeR a univerzitního projektu CERIT-SC (ÚVT MU).  Meziročně vzrostl počet CPU o více než 3500 CPU na celkový počet 8 580 CPU.

 Mezi největší vlastníky patří:

poskytovatele_zdroju2

Statistiky využití zdrojů 

Následující graf ukazuje průměrné vytížení výpočetních clusterů a strojů v první polovině roku 2013. U některých zdrojů není započítaná část výpočetní kapacity, která byla přístupná experimentálním cloudovým rozhraním, ze kterého nemáme posbírána korektní provozní data. Základem pro výpočet průměrného vytížení (100%) je celkový počet dostupných CPU-core-seconds mínus počet CPU-core-seconds strojů, které nebyly v provozu. Rezervované stroje jsou započítané tak, jako by byly plně využity, bez ohledu na jejich skutečné využití.

Průměrné vytížení volně dostupných strojů v MetaCentru se pohybovalo mezi 60 a 90 %. Vytížení okolo 70% je optimální, vyšší vytížení již znamená faktickou saturaci a způsobuje delší doby čekání úloh ve frontě. Nižší hodnoty vytížení vykazují stroje, které byly do MetaCentra zapojeny až v průběhu sledovaného období nebo jsou vyhrazené pro některou skupinu.  

fronta_cas_all

Nové clustery patřící CERIT-SC

Nové clustery centra CERIT-SC (zigur a zapat) jsou díky virtualizaci do gridu připojeny přes cloudové rozhraní a jen část je určena pro výpočty přes plánovací systém, větší část je využitelná v cloudovém prostředí. U těchto zdrojů není započítaná část výpočetní kapacity, která byla přístupná experimentálním cloudovým rozhraním, ze kterého nemáme posbírána korektní provozní data. Jejich vytížení je proto výrazně pod průměrem MetaVO.

Cluster zapat.cerit-sc.cz je nový přírůstek do rodiny clusterů patřících CERIT-SC. Skládá se ze 112 uzlů, každý obsahuje 16 CPU a 128 GB paměti. Je aktuálně největším clusterem v MetaCentru, jeho počet procesorů je 1792. 

zapat.cerit-sc.cz

Cluster zigur je je složen s 32 uzlů po 2x4 CPU, každý uzel má 128 GB paměti.  Je osazen rychlými procesory, výkon každého uzlu naměřený během akceptačních testů je 327 bodů benchmarku SPECfp2006 base rate, tj. 41 na jádro (zapat má 29 bodů na jádro).

 zigur.cerit-sc.cz

Nové stroje patřící CESNETu

GPU cluster gram.zcu.cz má 10 uzlů po 16 CPU celkem tedy 160 CPU. Každý z uzlů je vybaven GPU kartou 4x nVidia Tesla M2090 6GB. Pro výpočetní využití karty je nutné využít nové fronty "gpu" a "gpu_long", které jsou přístupné všem uživatelům MetaCentra. V obou frontách se za dané období spustilo více než 9 000 úloh s celkovým časem přes 100 000 CPU hodin.

gram.zcu.cz

Nový stroj ramdal.ics.muni.cz slouží pro úlohy náročné na paměť, má 32 procesorů s Hyperthreadingem, velikost jeho paměti je 1 TB. Je ve zvláštním režimu, kdy pro přístup ke stroji je potřeba kontaktovat Metacentrum se zdůvodněním.

ramdal.ics.muni.cz

Cluster Hildor je umístěn na sále JU v Českých Budějovicích, obsahuje 26 uzlů po 16 CPU a pamětí 64 GB.

 hildor.metacentrum.cz

Vytížení strojů JČU a jejich využití institucemi

hermes.metacentrum.cz

haldir.metacentrum.cz

haldir_organizace_cas

Vytížení strojů NCBR/CEITEC

perian1-10.ncbr.muni.cz

perian11-20.ncbr.muni.cz

perian21-40.ncbr.muni.cz

perian41-56.ncbr.muni.cz

 

Statistiky úloh a propočítaného času

Celková doba čekání úloh se zvětšila kvůli nárůstu počtu úloh. Největší nárůst pozorujeme v čekání v rámci sekund až jednotek minut, naopak snížení můžeme pozorovat v čekání v řádu desítek hodin a jednotek dní. Díky novým strojům se již nestává tak často, že by úloha čekala na spuštění několik dní. Často se ale jedná o úlohy nesprávně zadané, kdy požadovaná kombinace vlastností buď neexistuje nebo je dlouhodobě nedostupná.

cekani_uloh_comp

Doba běhu úloh je naopak téměř stejná nebo vyšší bež v předcházejícím roce. Výrazně narostl počet úloh běžících několik vteřin. Více než 300 tisíc z nich jsou servisní úlohy, které nám pomáhají monitorovat dostupnost strojů.

 doba_behu_comp

Oproti stejnému období předchozího roku se výrazně zvýšil počet víceprocesorových. Důvodem nárůstu je zprovoznění velkých SMP strojů v druhé polovině roku 2012 a úpravy v plánovači směrem k nastavení strádání úloh. Velké úlohy přes více jader již tak dlouho nečekaly a proto je uživatelé začali více pužívat.

procesory_cas (1)_comp

Z následujícího grafu je patrné, že podle propočítaného času jsou oblíbené dlouhé fronty s délkou běhu úloh nad 1 den. Je to logické, většina těchto úloh využila navíc více jader. Nejvíce času se propočítalo ve frontě long, která je určena pro úlohy trvající 1 až 30 dní. Další fronty jsou v rozsahu od 4 dnů do 1 týdne (q_1w) a do 24 hodin (normal). Fronta q_4d je určena pro úlohy trvající od 2 do 4 dní a q_2w pro úlohy trvající 1 až 2 týdny.

fronta_cas (1)comp

Co do počtu spuštěných úloh je nejfrekventovanější interní fronta monitoring pro monitorování stavu strojů. Nejoblíbenější uživatelskou frontou je nízkoprioritní fronta backfill, určená k "vyplnění" prázdných strojů. Úlohy v této frontě mohou být v případě potřeby ukončeny, ale může jich být velmi mnoho.

fronta_ulohy (1)_compare 

Provozní statistiky z Torque serveru @arien

 cekani_uloh

doba_behu 

fronta_cas

Provozní statistiky z Torque serveru @wagap

Následující grafy jsou vykresleny pro úlohy spuštěné na clusterech CRIT-SC (zewura, zegox, zapat, zigur). Oproti předchozí skupině (@arien) čekají úlohy na spuštění kratší dobu a uživatelé preferují úlohy s delší dobou běhu, především díky většímu podílu paraleních úloh.

cekani_uloh

 

 

 

 

 

 

 

 

 

 

 

 

doba_behu

 

 

 

 

 

 

 

 

 

 

 

 

 fronta_cas

Statistiky uživatel, skupin a organizací

Prvních deset uživatelů propočítalo téměř 800 CPU let, což představuje téměř polovinu celkového propočítaného času. 
uzivatel_cas (1)_comp

 

 

 

 

 

 

 

 

 

Masarykova univerzita propočítala celkem přes 5 milionů CPU hodin což tvoří celou jednu třeti celkového propočítaného času, Univerzita Karlova propočítala téměř 4 miliony CPU hodin. 

Celkově se v MetaCentru za první pololetí 2013  objevuje 24 organizací, především univerzit nebo jejich kateder a 14 ústavů akademie věd ČR. Můžeme sledovat nárůst propočítané doby téměř u všech dostupných organizací. Graf zahrnuje organizace, co propočítaly nejvíc CPU hodin.

chart_3 (1)

V MetaCentru je pod každou organizací řada skupin, v souhrnu téměř 80. V grafu jsou zachyceny ty nejaktivnější z nich a porovnání propočítaného času za letošní a předchodí pololetí.

chart_2

 

 

 

 

 

 

 

 

 

 

 

 

 

Od října 2012 bylo v MetaCentru nainstalováno nebo aktualizováno více než 100 aplikačních modulů. Veškeré změny v modulech jsou hlášeny na wiki a významnější SW rovněž fromou novinek.

Zde je přehled těch s největším propočítaným časem.

aplikace (1)_comp 

Uživatelské statistiky - Torque server @arien

uzivatel_cas

 

 

 

 

 

 

 

 

 

 

 

 

uzivatel_ulohy

 Uživatelské statistiky - Torque server @wagap

uzivatel_cas


 

 

Poslední změna:Mon Jan 06 12:57:15 CET 2014