Na konci roku 2024 mělo MetaCentrum VO celkem 3490 aktivních uživatelů. Pro srovnání, na konci roku 2023 byl počet aktivních účtů 3055, což znamená nárůst o 435 uživatelů. Tento trend potvrzuje rostoucí zájem o výpočetní zdroje a služby MetaCentra mezi akademickou a výzkumnou komunitou.
Meziročně došlo k nárůstu počtu dostupných CPU jader v rámci národního výpočetního prostředí MetaVO (grid + cloud + EGI) na 53004 CPU jader (49386 CPU jader v roce 2023):
21820 CPU jader patřilo CESNETu,
9768 CPU jader vlastnilo CERIT-SC,
21416 CPU jader bylo ve vlastnictví univerzit, Akademie věd ČR a velkých projektů.
V roce 2024 uživatelé MetaVO, PBS, MetaCentrum Cloudu a Kubernetes dohromady propočítali 37552 CPU let, což představuje nárůst oproti roku 2023, kdy bylo propočítáno 31858 CPU let. Detailní rozdělení podle jednotlivých prostředí:
Dávkový systém (PBS): více než 24,5 tisíce CPU let ve 11,4 milionech úloh. Z toho více než 2,9 milionu úloh vyžadovalo výpočetní akceleraci pomocí GPU.
MetaCentrum Cloud: celkem 10,1 tis. CPU let na téměř 49 tisících virtuálních strojích. Výpočty zahrnují i využití overcommitingu.
Kubernetes: bylo v provozu 3008 CPU jader, které zpracovaly 1123 CPU let a celkem 3,2 milionu podů.
SensitiveCloud: provozováno 952 CPU jader, které provedly výpočty odpovídající 185 CPU letům a 32 tisícům podů.
MetaCentrum NGI integruje různé výpočetní kapacity, které jsou k dispozici akademické komunitě v České republice. Patří sem:
Národní výpočetní a úložné kapacity zapojené do MetaVO, přístupné zaměstnancům a studentům akademických a výzkumných organizací v ČR a jejich výzkumným partnerům.
Výpočetní zdroje využívající dávkový systém PBS Pro.
Cloudové stroje v MetaCentrum Cloudu.
Kubernetes pro orchestraci kontejnerizovaných aplikací.
Mezinárodní výpočetní infrastruktura EGI, do níž jsou zapojeny některé výpočetní uzly.
Grafy ukazují celkový počet dostupných CPU jader v MetaCentru, včetně těch zapojených do EGI, stejně jako přehled dostupných clusterů podle množství CPU jader a platformy v prosinci 2024.
Přehled dostupných clusterů podle množství CPU jader a platformy, na které jsou k dispozici v prosinci 2024.
Celkem 53004 CPU jader (prosinec 2024)
V květnu 2024 došlo ke sjednocení plánovačů úloh (Meta, Elixir, CERIT-SC) do jednoho společného plánovače.
celkem 53 clusterů, 36452 CPU jader
Následující graf ukazuje průměrné vytížení výpočetních clusterů a strojů v MetaVO v roce 2024. Základem pro výpočet průměrného vytížení (100%) je celkový počet dostupných CPU-core-seconds mínus počet CPU-core-seconds strojů, které nebyly v provozu. Rezervované stroje jsou započítané tak, jako by byly plně využity, bez ohledu na jejich skutečné využití. Údaj v závorce udává počet CPU v clusteru na konci roku. Nula značí, že cluster byl v průběhu roku vyřazen.
Průměrné vytížení strojů v MetaVO se v roce 2024 pohybovalo kolem 65–70 %, což je optimální úroveň. Vyšší vytížení by vedlo k delším čekacím dobám ve frontách, nižší vytížení mají typicky nové nebo specializované clustery (například GPU clustery nebo stroje rezervované pro konkrétní výzkumné projekty).
Během jara 2024 proběhla migrace na nový plánovací systém a reinstalace výpočetních uzlů, což mělo dočasný vliv na průměrné vytížení. Statistiky na webu ukazují podrobné grafy vytížení jednotlivých clusterů a vývoje dostupných výpočetních zdrojů.
Nově pořízené stroje v roce 2024:
Cluster Bee (Cerit-SC): obsahuje 960 CPU jader a 32× GPU NVIDIA H100 (96 GB GPU MEM).
10 uzlů dostupných v MetaCentrum PBS.
8 uzlů zapojených do Kubernetes.
2 uzly vyhrazené pro citlivé výpočty v Sensitive Cloudu.
Cluster Magma (Fyzikální ústav AV ČR): 23 uzlů, 2208 CPU jader, 1,5 TB RAM na uzel, bez GPU.
Server DGX H100 (CERIT-SC): 4× NVIDIA H100 (40 GB GPU RAM každá). Přístupný přes speciální frontu pouze pro optimalizované AI výpočty.
Využití výkonného stroje DGX H100
Stroj centra CERIT SC DGX H100 se 4 kartami NVIDIA H100 (GPU RAM 40 GB každá) byl pořízen v polovině roku (červen 2023). Je přístupný přes speciální frontu a jen pro uživatele, kteří doložili, že jej opravdu potřebují a umí využít. Standardní úlohy, které mohou být spočítány na méně výkonných kartách, na tento stroj vůbec nezařazujeme. I tak si získal velikou oblibu. Po prázdninách se využití GPU karet zvýšilo až ke 100 % a je prakticky stále obsazený.
Využití clusteru bee.cerit-sc.cz
Cluster bee s NVIDIA H100 (96 GB GPU MEM) byl pořízen v listopadu.
Využití clusteru magma.fzu.cz
Cluster magma s velkou RAM a bez grafických karet byl zprovozněn rovněž v listopadu. Stroj patří FZU AV ČR a byl přístupný ve speciální frontě vlastníků, čemuž odpovídá nížší vytížení.
Vývoj počtu jader, propočítaného času a počtu úloh ukazuje, že zatímco počet CPU jader, které jsou k dispozici a propočítaný čas rostou proporčně, celkový počet propočítaných úloh roste pomaleji, a v posledních 2 letech klesl, prozože příliš mnoho úloh nadměrně zatěžuje plánovač a doporučujeme tak sdružovat požadavky do větších úloh. Růst celkového propočítaného času kopíruje nárust počtu procesorů.
Následující grafy vycházejí z dat ze syslogu o spouštěných modulech v úlohách běžících pod PBS od února do prosince 2024, za leden už data nejsou k dispozici.
Uživatelé MetaCentra využívali více než 3800 různých softwarových modulů v 11 milionech úloh. Nejčastěji používané moduly tvořily 87 % všech úloh s moduly. 100 nejčastěji spouštěných modulů tvoří 94 % všech úloh s moduly. Následují detailní grafy zobrazující:
Nejčastěji používané moduly.
Počet uživatelů jednotlivých modulů.
Využití komerčního software (počet spuštění, počet uživatelů, propočítaný čas).
Následující graf ukazuje 50 nejčastěji použitých modulů podle CPU času.
Následující graf ukazuje 50 nejoblíbenějších modulů používaných nejvíce uživateli.
Využití komerčního SW podle CPU času vypadá následovně:
Využití komerčního SW podle počtu uživatelů, kteří jej použili ve svých úlohách.
106 uživatelů z projektu ELIXIR spustilo alespoň jednu úlohu a na dedikovaných strojích propočítali celkem 1584 CPU let ve 27 tis. úlohách.
Následují grafy ilustrující využití strojů uživateli z projektu ELIXIR. Kromě toho na strojích běžely výplňové úlohy jiných uživatelů, ty zde nejsou započítány.
Uživatelé mohli spouštět úlohy také pomocí webového rozhraní Open OnDemand:
350 uživatelů zadalo alespoň jednu úlohu.
Celkem 6155 úloh.
Celkový propočítaný čas: 63,5 CPU let.
Mezi nejčastěji používané aplikace patřily RStudio, Jupyter, Matlab, Ansys a další
Jednotlivé aplikace OnDemndu
Aplikace | počet úloh | počet uživatelů | CPU let |
RStudio | 2232 | 125 | 551,97 |
Jupyter | 1683 | 144 | 273 |
Desktop | 1018 | 146 | 264,7 |
Matlab | 514 | 59 | 325,4 |
Ansys | 483 | 27 | 108,5 |
biop-desktop | 103 | 13 | 0,29 |
VMD | 48 | 25 | 0,6 |
CLC genomics | 2 | 2 | - |
repet | 2 | 2 | - |
Alphafold jobs | 99 | 3 | 124,4 |
Využití MetaCentra organizacemi (Meta VO, PBS) dle propočítaného času. Na první grafu je Akademie věd započítána jako jedna organizace, na druhém jak počítaly jednotlivé ústavy Akademie věd. Do počtu uživatelů jsou započítáni pouze ti, kteří v roce 2024 spustili alespoň jednu úlohu.
Počet uživatelů dle institucí, kteří použili gridové služby MetaCentra (spustili úlohu). Na prvním obrázku je AV ČR jako celek, na druhém jsou pak pouze uživatelé z jednotlivých ústavů AV ČR.
na konci roku 2024 bylo v provozu 3008 CPU jader (vloni 2432), z toho 736 CPU jader bylo zprovozněno na konci listopadu.
K dispozici bylo 47 GPU karet různých typů:
Typ GPU karty | počet |
NVIDIA H100 96 GB NVL | 8 |
NVIDIA H100 PCIe | 2 |
NVIDIA A40 | 21 |
NVIDIA L4 | 1 |
NVIDIA A10 | 5 |
NVIDA A100 80GB PCIe | 10 |
Za celý rok bylo propočítáno celkem 1123 CPU let ve 3,2 mil. podech. Rancher použilo 200 uživatelů, 428 uživatelů vyzkoušelo jupyter + alphafold/foldify.
Využití významných aplikací běžících v Kubernetes
Běžící projekty (měřeno od srpna 2024)
V roce 2024 MetaCentrum Cloud provozoval 8896 CPU jader, během roku byly staré stroje vyřazené a v prosinci zůstalo v provozu 7368 CPU jader a 78 GPU karet.
Teoretická Optimální nastavení over-commitu vede k optimálnímu využití cloudu a reálné využití pak převyšuje teoretickou kapacitu fyzických jader.
V roce 2024 disponoval cloud grafickými karty s celkovým počtem 81 jader, což představuje roční kapacitu 706 581 hodin. Skutečné využití dosáhlo 34 %. Výkon GPU karet je k dispozici pouze skupinovým projektům.
V roce 2024 byla kapacita paměti RAM 169.5 TB, která byla přes rok čerpána 529 miliardách MB paměti RAM. To odpovídá využití 34 %.
Z hlediska využití zdrojů v rovině CPU bylo nejvíce aktivní MetaCentrum. Kromě skupinových projektů provozuje MetaCentrum i 99% všech osobních projektů v cloudu což výrazně zvyšuje podíl utilizace zdrojů ve prospěch MetaCentra.
Skupinové projekty
S ohledem na využití jader GPU počítali skupinové projekty zákazníka EGI, který v roce 2024 provozoval celkem 32 projektů. Mezi deseti projekty s nejvyšší spotřebou GPU času je právě sedm projektů zákazníka EGI.
Z hlediska využití zdrojů v rovině CPU při provozu skupinových projektů je nejvíce aktivní MU a Metacentrum. MU zároveň provozuje nejvíce skupinových projektů s celkovým podílem 36.6 %, následována Metacentrem s podílem projektů 34.9 %.
Největší počet skupinových projektů provozovala v roce 2024 Masarykova univerzita a Metacentrum v celkovém úhrnu 71.5 % Toto koreluje i s využitím procesorového času.
Největší podíl na počtu spuštěných virtuálních strojů má CSIRT pod, MU, který staví významné množství virtuálních strojů pro potřeby školení a cvičení v kybernetické bezpečnosti.
Vlastníci HW
Cloud je tvořen desítkami strojů organizovaných do clusterů, které financují různé organizace a kterých jsou vlastníky. Stroje clusterů vkládají do cloudu výpočetní zdroje především v rovině CPU jader a paměti RAM.
Vzhledem k důležitosti CPU jader uvádíme vlastnictví v této rovině.
Využití CPU času posuzujeme v rovině skupinových projektů a v ideálním případě každá organizace využije CPU čas adekvátně tomu, kolik CPU jader vlastní.
Srovnáním podílu na celkovém množství spotřebovaného času CPU jader (sloupec 2024 CPU hours) a vlastnickém podílu v celkovém objemu clusterů (sloupec 2024 CPU hw - cores) lze posoudit, zda zákazníci využívají CPU čas adekvátně vzhledem ke svému podílu investic do tohoto typu HW.
I v případě GPU kapacity cloudu evidujeme podíl vlastnictví jednotlivých organizací, které karty zakoupili.
Využití GPU času posuzujeme v rovině skupinových projektů (osobní projekty k výkonu GPU karet přístup neamají) a v ideálním případě každá organizace využije GPU čas adekvátně tomu, kolik GPU karet vlastní
Využití cloudových zdrojů organizacemi
Bližší vhled do využití zdrojů zákazníků (CPU time) lze získat pohledem do jejich organizací, pod kterými jsou projekty řešeny.
Meziročně opět vzrostlo zaplnění diskových polích v MetaCentru i v CERIT-SC. Mimo to, se podařilo integrovat diskové pole jiných vlastníků do infrastruktury MetaCentra (CEITEC, ELIXIR). Přístup na taková pole je dedikován vlastníkům, po dohodě s nimi může být přístupný i pro další uživatele.
Seznam publikací s poděkováním e-INFRA CZ infrastruktuře z WoS je k dispozici v samostatném dokumentu [PDF].
Následující grafy jsou pořízené z portálu WoS.
Organizace u publikací s poděkováním e-INFRA CZ (WoS):
Typy publikací
Kategorie publikací
Publikace podle zemí autorů
Publikace podle oborů
Citece (WoS)
Za celý rok bylo na klasteru skurut spuštěno 1,2 milionu gridových úloh [2], normovaný propočítaný čas činil 62 milionů hodin (v jednotkách HS23) [3].
[2] https://accounting.egi.eu/egi/site/prague_cesnet_lcg2/elap_processors/VO/DATE/2024/1/2025/1/egi/onlyinfrajobs/
[3] https://accounting.egi.eu/egi/site/prague_cesnet_lcg2/normelap_processors/VO/Year/2024/1/2024/12/egi/onlyinfrajobs/