2024

Navigace:

Přehled
 

zelena-tabulka-unor

Počet uživatelů

Na konci roku 2024 mělo MetaCentrum VO celkem 3490 aktivních uživatelů. Pro srovnání, na konci roku 2023 byl počet aktivních účtů 3055, což znamená nárůst o 435 uživatelů. Tento trend potvrzuje rostoucí zájem o výpočetní zdroje a služby MetaCentra mezi akademickou a výzkumnou komunitou.

Výpočetní kapacity

Meziročně došlo k nárůstu počtu dostupných CPU jader v rámci národního výpočetního prostředí MetaVO (grid + cloud + EGI) na 53004 CPU jader (49386 CPU jader v roce 2023):

Propočítaný výpočetní čas

V roce 2024 uživatelé MetaVO, PBS, MetaCentrum Cloudu a Kubernetes dohromady propočítali 37552 CPU let, což představuje nárůst oproti roku 2023, kdy bylo propočítáno 31858 CPU let. Detailní rozdělení podle jednotlivých prostředí:

 

Vlastníci výpočetních zdrojů

MetaCentrum NGI integruje různé výpočetní kapacity, které jsou k dispozici akademické komunitě v České republice. Patří sem:

 

Grafy ukazují celkový počet dostupných CPU jader v MetaCentru, včetně těch zapojených do EGI, stejně jako přehled dostupných clusterů podle množství CPU jader a platformy v prosinci 2024.

 HW-cpustotal-years

Přehled dostupných clusterů podle množství CPU jader a platformy, na které jsou k dispozici v prosinci 2024.

HW-instituce

  

Celkem 53004 CPU jader (prosinec 2024)

 

 

Statistiky využití zdrojů MetaVO

PBS

Kubernetes

Cloud

EGI

 

Využití strojů v dávkovém systému PBS

V květnu 2024 došlo ke sjednocení plánovačů úloh (Meta, Elixir, CERIT-SC) do jednoho společného plánovače.

 celkem 53 clusterů, 36452 CPU jader

 

Průměrné vytížení všech strojů zapojených v meta-pbs v průběhu celého roku 2024

 Následující graf ukazuje průměrné vytížení výpočetních clusterů a strojů v MetaVO v roce 2024. Základem pro výpočet průměrného vytížení (100%) je celkový počet dostupných CPU-core-seconds mínus počet CPU-core-seconds strojů, které nebyly v provozu. Rezervované stroje jsou započítané tak, jako by byly plně využity, bez ohledu na jejich skutečné využití. Údaj v závorce udává počet CPU v clusteru na konci roku. Nula značí, že cluster byl v průběhu roku vyřazen.

Průměrné vytížení strojů v MetaVO se v roce 2024 pohybovalo kolem 65–70 %, což je optimální úroveň. Vyšší vytížení by vedlo k delším čekacím dobám ve frontách, nižší vytížení mají typicky nové nebo specializované clustery (například GPU clustery nebo stroje rezervované pro konkrétní výzkumné projekty).

prumer_vytizeni-vse
 

Během jara 2024 proběhla migrace na nový plánovací systém a reinstalace výpočetních uzlů, což mělo dočasný vliv na průměrné vytížení. Statistiky na webu ukazují podrobné grafy vytížení jednotlivých clusterů a vývoje dostupných výpočetních zdrojů.

 

[2024]-CPU usage in time (CPU days) [2024]_(2024-01-01-2024-12-31)_1848096377

[2024]-GPU usage in time (GPU days) [2024]_(2024-01-01-2024-12-31)_1848096377

 [2024]-Jobs in time [2024]_(2024-01-01-2024-12-31)_1848096377

 

 

Podrobnější pohled na některé nedávno pořízené zajímavé stroje a clustery

 

Nově pořízené stroje v roce 2024:

 


Využití výkonného stroje DGX H100

Stroj centra CERIT SC DGX H100 se 4 kartami NVIDIA H100 (GPU RAM 40 GB každá) byl pořízen v polovině roku (červen 2023).  Je přístupný přes speciální frontu a jen pro uživatele, kteří doložili, že jej opravdu potřebují a umí využít. Standardní úlohy, které mohou být spočítány na méně výkonných kartách, na tento stroj vůbec nezařazujeme.  I tak si získal velikou oblibu. Po prázdninách se využití GPU karet zvýšilo až ke 100 % a je prakticky stále obsazený.

 capy

 

Využití clusteru bee.cerit-sc.cz

Cluster bee s NVIDIA H100 (96 GB GPU MEM) byl pořízen v listopadu.

bee

 

Využití clusteru magma.fzu.cz 

Cluster magma s velkou RAM a bez grafických karet byl zprovozněn rovněž v listopadu. Stroj patří FZU AV ČR a byl přístupný ve speciální frontě vlastníků, čemuž odpovídá nížší vytížení.

magma

 

Vývoj počtu jader, propočítaného času a počtu úloh ukazuje, že zatímco počet CPU jader, které jsou k dispozici a propočítaný čas rostou proporčně, celkový počet propočítaných úloh roste pomaleji, a v posledních 2 letech klesl, prozože příliš mnoho úloh nadměrně zatěžuje plánovač a doporučujeme tak sdružovat požadavky do větších úloh. Růst celkového propočítaného času kopíruje nárust počtu procesorů.

jobs-cputime-cpus 

 

Software (moduly)

Následující grafy vycházejí z dat ze syslogu o spouštěných modulech v úlohách běžících pod PBS od února do prosince 2024, za leden už data nejsou k dispozici.

Uživatelé MetaCentra využívali více než 3800 různých softwarových modulů v 11 milionech úloh. Nejčastěji používané moduly tvořily 87 % všech úloh s moduly. 100 nejčastěji spouštěných modulů tvoří 94 % všech úloh s moduly. Následují detailní grafy zobrazující:

 

Následující graf ukazuje 50 nejčastěji použitých modulů podle CPU času.

50most-all-s

 

Následující graf ukazuje 50 nejoblíbenějších modulů používaných nejvíce uživateli.

50mostcomUs

 

Využití komerčního SW podle CPU času vypadá následovně:

mostcom-s

 

Využití komerčního SW podle počtu uživatelů, kteří jej použili ve svých úlohách.

 50mostcomUs_comercialSW

 

 

 

 

Elixir (PBS)

106 uživatelů z projektu ELIXIR spustilo alespoň jednu úlohu a na dedikovaných strojích propočítali celkem 1584 CPU let ve 27 tis. úlohách.

Následují grafy ilustrující využití strojů uživateli z projektu ELIXIR. Kromě toho na strojích běžely výplňové úlohy jiných uživatelů, ty zde nejsou započítány.

[Dedicated Elixir 2024]-CPU usage in time (CPU days) [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

[Dedicated Elixir 2024]-Jobs in time [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

[Dedicated Elixir 2024]-Number of jobs and CPU years wrt. job types [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053[Dedicated Elixir 2024]-Number of jobs and CPU years wrt. job parallelism [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053[Dedicated Elixir 2024]-Number of jobs and avg. Wait time wrt. job types [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

[Dedicated Elixir 2024]-Number of jobs and avg. Wait time wrt. job parallelism [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

[Dedicated Elixir 2024]-Stacked Cluster Usage(%) in time [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

[Dedicated Elixir 2024]-Stacked Queue CPU usage in time (CPU days) [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

 

Open OnDemand

Uživatelé mohli spouštět úlohy také pomocí webového rozhraní Open OnDemand:

 

 

 Jednotlivé aplikace OnDemndu

Aplikace počet úloh počet uživatelů CPU let
RStudio 2232 125 551,97
Jupyter 1683 144 273
Desktop 1018 146 264,7
Matlab 514 59 325,4
Ansys 483 27 108,5
biop-desktop 103 13 0,29
VMD 48 25 0,6
CLC genomics 2 2 -
repet 2 2 -
Alphafold jobs 99 3 124,4


 

Uživatelé (PBS)

Využití MetaCentra organizacemi (Meta VO, PBS) dle propočítaného času. Na první grafu je Akademie věd započítána jako jedna organizace, na druhém jak počítaly jednotlivé ústavy Akademie věd. Do počtu uživatelů jsou započítáni pouze ti, kteří v roce 2024 spustili alespoň jednu úlohu.

[2024]-Used CPU years by Institutions [2024]_(2024-01-01-2024-12-31)_-987791083

 

graf-AVCR-lidi-cas-ustavy

Počet uživatelů dle institucí, kteří použili gridové služby MetaCentra (spustili úlohu). Na prvním obrázku je AV ČR jako celek, na druhém jsou pak pouze uživatelé z jednotlivých ústavů AV ČR.

uzivatele-instituce-pocet-uzivatelu

 


 

 

 

Kubernetes


na konci roku 2024 bylo v provozu 3008 CPU jader (vloni 2432), z toho 736 CPU jader bylo zprovozněno na konci listopadu.


K dispozici bylo 47 GPU karet různých typů:

Typ GPU karty počet
NVIDIA H100 96 GB NVL 8
NVIDIA H100 PCIe 2
NVIDIA A40 21
NVIDIA L4 1
NVIDIA A10 5
NVIDA A100 80GB PCIe 10

 

 Za celý rok bylo propočítáno celkem 1123 CPU let ve 3,2 mil. podech. Rancher použilo 200 uživatelů, 428 uživatelů vyzkoušelo jupyter + alphafold/foldify.

 Využití významných aplikací běžících v Kubernetes

 

Běžící projekty (měřeno od srpna 2024)

 

 

  

MetaCentrum Cloud

V roce 2024 MetaCentrum Cloud provozoval 8896 CPU jader, během roku byly staré stroje vyřazené a v prosinci zůstalo v provozu  7368 CPU jader a 78 GPU karet.

 

Teoretická Optimální nastavení over-commitu vede k optimálnímu využití cloudu a reálné využití pak převyšuje teoretickou kapacitu fyzických jader.

HW Utilization + Capacity (2020 - 2024)

V roce 2024 disponoval cloud grafickými karty s celkovým počtem 81 jader, což představuje roční kapacitu 706 581 hodin. Skutečné využití dosáhlo 34 %. Výkon GPU karet je k dispozici pouze skupinovým projektům. 

GPUhours-HW Utilization + Capacity (2020 - 2024)

V roce 2024 byla kapacita paměti RAM 169.5 TB, která byla přes rok čerpána 529 miliardách MB paměti RAM. To odpovídá využití 34 %.

 RAMhours-HW Utilization + Capacity (2020 - 2024)

Z hlediska využití zdrojů v rovině CPU bylo nejvíce aktivní MetaCentrum. Kromě skupinových projektů provozuje MetaCentrum i 99% všech osobních projektů v cloudu což výrazně  zvyšuje podíl utilizace zdrojů ve prospěch MetaCentra.

projekty-Spotřeba zdrojů - skup. + os. projekty (2024)
Skupinové projekty

S ohledem na využití jader GPU počítali skupinové projekty zákazníka EGI, který v roce 2024 provozoval celkem 32 projektů. Mezi deseti projekty s nejvyšší spotřebou GPU času je právě sedm projektů zákazníka EGI. 

 GPU-Rozložení spotřeby HW prostředk; skup. projekty (2024)

Z hlediska využití zdrojů v rovině CPU při provozu skupinových projektů je nejvíce aktivní MU a  Metacentrum. MU zároveň provozuje nejvíce skupinových projektů s celkovým podílem 36.6 %, následována Metacentrem s podílem projektů 34.9 %.

Rozložení spotřeby HW prostředk; skup. projekty (2024)

Největší počet skupinových projektů provozovala v roce 2024 Masarykova univerzita a Metacentrum v celkovém úhrnu 71.5 % Toto koreluje i s využitím procesorového času.

projects-Rozložení projektů; skup. projekty (2024)

Největší podíl na počtu spuštěných virtuálních strojů má CSIRT pod, MU, který staví významné množství virtuálních strojů pro potřeby školení a cvičení v kybernetické bezpečnosti.

VMs-Podíl spuštěných instancí mezi zákazníky; skup. projekty (2024)

Vlastníci HW

Cloud je tvořen desítkami strojů organizovaných do clusterů, které financují různé organizace a kterých jsou vlastníky. Stroje clusterů vkládají do cloudu výpočetní zdroje především v rovině CPU jader a paměti RAM.
Vzhledem k důležitosti CPU jader uvádíme vlastnictví v této rovině.

cpu Podíl vlastníků HW (2024)

Využití CPU času posuzujeme v rovině skupinových  projektů a v ideálním případě každá organizace využije CPU čas adekvátně tomu, kolik CPU jader vlastní.

cpu Utilizace prostředků vlastníků HW (2024)

Srovnáním podílu na celkovém množství spotřebovaného času CPU jader (sloupec 2024 CPU hours) a vlastnickém podílu v celkovém objemu clusterů (sloupec 2024 CPU hw - cores) lze posoudit, zda zákazníci využívají CPU čas adekvátně vzhledem ke svému podílu investic do tohoto typu HW.

 gpu-Podíl vlastniků HW a utilizace vlastniky (2022 - 2024)

I v případě GPU kapacity cloudu evidujeme podíl vlastnictví jednotlivých organizací, které karty zakoupili. 

gpu-Podíl vlastníků HW (2024)

 

Využití GPU času posuzujeme v rovině skupinových projektů (osobní projekty k výkonu GPU karet přístup neamají) a v ideálním případě každá organizace využije GPU čas adekvátně tomu, kolik GPU karet vlastní

gpu-Utilizace prostředků vlastníků HW (2024)


Využití cloudových zdrojů organizacemi

Bližší vhled do využití zdrojů zákazníků (CPU time) lze získat pohledem do jejich  organizací, pod kterými jsou projekty řešeny. 

cpu Rozdělení spotřeby zdrojů přes organizace; osobní + skupinové projekty (2024)

 

  

Úložné prostory

Meziročně opět vzrostlo zaplnění diskových polích v MetaCentru i v CERIT-SC. Mimo to, se podařilo integrovat diskové pole jiných vlastníků do infrastruktury MetaCentra (CEITEC, ELIXIR). Přístup na taková pole je dedikován vlastníkům, po dohodě s nimi může být přístupný i pro další uživatele.

diskova-pole-ledem_2025

 

 

Publikace

Seznam publikací s poděkováním e-INFRA CZ infrastruktuře z WoS je k dispozici v samostatném dokumentu [PDF].

Následující grafy jsou pořízené z portálu WoS.

Organizace u publikací s poděkováním e-INFRA CZ (WoS):

wos-affiliation24

Typy publikací

wos-type-of-publication

Kategorie publikací

wos-category24

Publikace podle zemí autorů

 wos-countries24

Publikace podle oborů

wos-research-areas24

Citece (WoS)

was-citation-report24

 

EGI statistiky

 

Za celý rok bylo na klasteru skurut spuštěno 1,2 milionu gridových úloh [2], normovaný propočítaný čas činil 62 milionů hodin (v jednotkách HS23) [3].

[2] https://accounting.egi.eu/egi/site/prague_cesnet_lcg2/elap_processors/VO/DATE/2024/1/2025/1/egi/onlyinfrajobs/
[3] https://accounting.egi.eu/egi/site/prague_cesnet_lcg2/normelap_processors/VO/Year/2024/1/2024/12/egi/onlyinfrajobs/

ngicz-acc-quarter-elapsed-hours-norm

 

 

ngiczt-acc-quarter-jobs

 

 

Poslední změna:2025-02-14 10:41:57