2024

Navigace:

Přehled


 MetaCentrum VO sestává z výpočetní kapacity poskytované přes PBS, v Kubernetes, OpenStack Cloudu a SecurityCloudu. Část kapacit je poskytováno v mezinárodním prostředí EGI. Tyt

2024 celkem PBS celkem Elixir Cloud Kubernetes SensitiveCloud
počet úloh/podů/vm    11,4 mil 274 tis. PBS  49 tis vm  725 tis. pods  
CPU čas (walltime)    24527 CPU let 1584,4 CPU let PBS  10133 CPU let  2737  
GPU čas    269,6 GPU let n/a  50,6 GPU let  27,8 GPU let  
Počet uživatelů  3490 registrovaných 1875 alespoň 1 úloha 106  1281 projects 200 rancher, 428 jupyter+alphafold  
Počet CPU jader v prosinci    36452 (včetně Elixir a CERIT-SC) 3448 PBS + XX cloud  7368  3008 952
Počet GPU karet v prosinci    365 0  78  47 18

 

MetaCentrum VO mělo na konci roku 2024 3490 uživatelů s aktivním účtem. Pro srovnání, koncem roku 2023 mělo v MetaCentru účet 3055 uživatelů.

MetaCEntrum VO sestává z výpočetní kapacity poskytované přes PBS, v Kubernetes, OpenStack Cloudu a SecurityCloudu. Část kapacit je poskytováno v mezinárodním prostředí EGI.

 

Meziročně narostl počet CPU jader pořízených v národním výpočetním prostředí MetaVO (grid + cloud) na todo CPU jader (vloni 41288), z toho xxx CPU jader patřilo CESNETu (bez EGI, xxx PBS, xxxcloud), CERIT-SC měl xxx (xxx PBS + xxx cloud, xx K8s). Zbývajících xxx CPU jader (bez EGI) vlastnily univerzity, Akademie věd ČR a velké projekty.

Dalších TODO6460 CPU jader bylo k dispozici v mezinárodním prostředí EGI. V dávkovém režimu (HTC) byly zapojené zdroje CESNETU (1040 CPU jader) a FZÚ AV ČR (5420 CPU jader) a část kapacity MetaCentrum Cloudu bylo k dispozici v EGI FedCloudu.


V roce 2024 uživatelé MetaVO, MetaCentrum cloudu a Kubernetes propočítali celkem xxx CPU let (31858 v roce 2023).

 

 

 

Vlastníci zdrojů

V MetaCentrum NGI jsou zapojeny následující typy výpočetních kapacit

pocty-cpujader-roky

 

 instituce-cpu-2023-mensi

 

 

TODO Celkem 49386 CPU jader (prosinec 2023)

 

resource-providers-2020-2023

 

 

Statistiky využití zdrojů MetaVO

Využití strojů v dávkovém systému PBS


V květnu roku 2024 došlo k velkému třesku, kdy ze tří samostatných plánovačů (meta x elixir x cerit-sc) zbyl jediný společný, takže data jsou oproti minulým letům poskytována souhrnně a některé statistiky překládáme na dvě části, první před třeskem, druhá po něm, z důvodu jiného způsobu zpracování.

celkem 53 clusterů, 36452 CPU jader

 

Průměrné vytížení všech strojů zapojených v meta-pbs v průběhu celého roku 2024

 Následující graf ukazuje průměrné vytížení výpočetních clusterů a strojů v MetaVO v roce 2024. Základem pro výpočet průměrného vytížení (100%) je celkový počet dostupných CPU-core-seconds mínus počet CPU-core-seconds strojů, které nebyly v provozu. Rezervované stroje jsou započítané tak, jako by byly plně využity, bez ohledu na jejich skutečné využití. Údaj v závorce udává počet CPU v clusteru na konci roku. Nula značí, že cluster byl v průběhu roku vyřazen.

Průměrné vytížení (CPU) volně dostupných strojů v MetaCentru se pohybovalo v roce 2022 okolo 65 %. Vytížení okolo 70% je optimální, vyšší vytížení již znamená faktickou saturaci a způsobuje delší doby čekání úloh ve frontě. Nižší hodnoty vytížení vykazují stroje, které byly do MetaCentra zapojeny až v průběhu sledovaného období nebo jsou unikátní, vyhrazené pro specifický typ výpočtů nebo vyhrazené pro některou skupinu. Clustery s GPU mají také nižší využití CPU, protože jsou využívány primárně pro výpočty na GPU.

prumer_vytizeni-vse
 

Průměrné vytížení clusterů se liší podle toho, zda jsou vlastněné CESNETem a jsou využitelné všem bez rozdílu, anebo zda patří některé uživatelské skupině, která má prioritní přístup a ostatní uživatelé jsou zde limitovaní, využití je proto nižší. Průměrné vytížení CPU se pohybovalo okolo 70 %, GPU pak více než 70 %. Do průměru jsou započítany všechny výpočetní clustery, i ty, které jsou vyhrazeny s přednostním právem vlastníkům a jejichž vytížení obvykle bývá nižší.

Na jaře probíhala migrace všech strojů na nový plánovač a zároveň postupná reinstalace všech uzlů na nový operační systém. Tomu odpovídá graf průměrného vytížení za všechny stroje. [2024]-CPU usage in time (CPU days) [2024]_(2024-01-01-2024-12-31)_1848096377

[2024]-GPU usage in time (GPU days) [2024]_(2024-01-01-2024-12-31)_1848096377

 [2024]-Jobs in time [2024]_(2024-01-01-2024-12-31)_1848096377

 

 

Podrobnější pohled na některé nedávno pořízené zajímavé stroje a clustery


Pro nejnáročnější AI výpočty byl k dispozici je výkonný server capy NVIDIA DGX s 8 GPU kartami H100 s 40 GB GPU MEM propojenými NVLinkem.

O takto velké a rychlé grafické karty byl taková zájem, že v listopadu byl uveden do provozu cluster bee 960 CPU jádry s nejnovější 32x GPU NVIDIA H100 s 96 GB GPU MEM v každém z 20 uzlů.

Ve stejno dobu připojil Fyzikální ústav Akademie věd nový cluster magma.fzu.cz sestávající z 23 uzlů celkem s 2208 CPU jádry a každý s 1,5 TB RAM, bez grafických karet.

 

Využití výkonného stroje DGX H100

Stroj centra CERIT SC DGX H100 se 4 kartami NVIDIA H100 (GPU RAM 40 GB každá) byl pořízen v polovině roku (červen 2023).  Je přístupný přes speciální frontu a jen pro uživatele, kteří doložili, že jej opravdu potřebují a umí využít. Standardní úlohy, které mohou být spočítány na méně výkonných kartách, na tento stroj vůbec nezařazujeme.  I tak si získal velikou oblibu. Po prázdninách se využití GPU karet zvýšilo až ke 100 % a je prakticky stále obsazený.

 capy

 

Využití clusteru bee.cerit-sc.cz

bee

 

Využití clusteru magma.fzu.cz 

magma


Následují statistiky využití všech clusterů zapojených do PBS. 

Počet úloh a průměrná doba jejich čekání na spuštění v závislosti na počtu požadovaných CPU jader. Naprostá většina úloh přicházejících do systému požaduje 1 CPUs. Nejdéle čekají úlohy  požadující více než 128 CPU jader.

[2024]-Number of jobs and avg. Wait time wrt. job parallelism [2024]_(2024-01-01-2024-12-31)_1848096377 

Počet úloh a průměrná doba jejich čekání na spuštění v závislosti na požadované délce běhu úlohy. Naprostá většina úloh požadovala dubu běhu do 24 hodin a průměrně čekaly na spuštění do 20 hodin. Nejdéle čekaly úlohy požadující více než týdenní čas běhu. Graf ukazuje rovněž úlohy, které požadovaly GPU, bez ohledu na jejich velikost, díky prioritním gpu frontám, tyto úlohy nečekaly průměrně více než 10 hodin.

[2024]-Number of jobs and avg. Wait time wrt. job types [2024]_(2024-01-01-2024-12-31)_1848096377

Počet úloh a jimi propočítaný čas v závislosti na počtu požadovanýc CPU jader. Z grafu je patrnné, že nejvíce do systému přisšlo 1 CPU úloh a tyto propočítaly největší CPU čas. Nejčastěji uživatelé pouštějí úlohy do 16 CPU jader, je to z důvodu optimalizace doby spuštění. Do systému však, díky speciálním strojům typu UV s mnoha CPU jádry a velkou sdílenou pamětí, přicházelo poměrně dost úloh vyžadujících více než 128 CPU jader. Tyto propočítaly souhrnně 1000 CPU let.

 [2024]-Number of jobs and CPU years wrt. job parallelism [2024]_(2024-01-01-2024-12-31)_1848096377

Počet úloh a jimi propočítaný čas v závislosti na délce úlohy. 

[2024]-Number of jobs and CPU years wrt. job types [2024]_(2024-01-01-2024-12-31)_1848096377

 Následující graf ukazuje souhrnný pohled na průměrné využití strojů s přihlédnutím k jejich údržbě. Průměrně bylo v údržbě okolo 10 % strojů. V polovině září se začaly clustery odstavovat z provoz, dobíhaly na nich dlouhé úlohy, aby v květnu mohlo dojít k jejich postupné reinstalaci a přepnutí na nový plánovací systém. 

 

[2024]-Stacked Cluster Usage(%) in time [2024]_(2024-01-01-2024-12-31)_1848096377

Graf demonstrující využítí podle front a propočítané času v nich

[2024]-Stacked Queue CPU usage in time (CPU days) [2024]_(2024-01-01-2024-12-31)_1848096377

 


 

TODO Vývoj počtu jader, propočítaného času a počtu úloh ukazuje, že zatímco počet CPU jader, které jsou k dispozici a propočítaný čas rostou proporčně, celkový počet propočítaných úloh roste pomaleji a v posledním roce dokonce klesl. Lze to vysvětlit prodloužení délky jednotlivých úloh.

 cpus-time-jobs-in-years

Software (moduly)

Následující grafy vycházejí z dat ze syslogu o spouštěných modulech v úlohách běžících pod PBS od února do prosince 2024, za leden už data nejsou k dispozici.

Uživatelé použili 3800 různých modulů v 11 milionech úlohách. Pokud úloha požadovala více modulů, započítala se vícekrát.

Pokud se podíváme na četnost použití konkrétních modulů, 50 nejčastějších modulů tvoří 87 % všech úloh, které modul požadovaly. 100 nejčastěji spouštěných modulů tvoří 94 % všech úloh s moduly.

Následující graf ukazuje 50 nejčastěji použitých modulů podle počtu úloh, ve kterých byly požadované.

50mostcom

Následující graf ukazuje 50 nejoblíbenějších modulů používaných nejvíce uživateli.

50mostcomUs

 

Využití komerčního SW podle počtu spuštění vypadá následovně:

50mostcom_comercialsw

Využití komerčního SW podle počtu uživatelů, kteří jej použili ve svých úlohách.

 50mostcomUs_comercialSW

Propočítaný čas TOP 50 moduly.

50mostcom_time

Propočítaný čas komerčními SW.

 

50mostcom_time_come

 

Elixir (PBS)

106 uživatelů z projektu ELIXIR spustilo alespoň jednu úlohu a na dedikovaných strojích propočítali celkem 1584 CPU let ve 27 tis. úlohách.

Následují grafy ilustrující využití strojů uživateli z projektu ELIXIR. Kromě toho na strojích běžely výplňové úlohy jiných uživatelů, ty zde nejsou započítány.

[Dedicated Elixir 2024]-CPU usage in time (CPU days) [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

[Dedicated Elixir 2024]-Jobs in time [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

[Dedicated Elixir 2024]-Number of jobs and CPU years wrt. job types [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053[Dedicated Elixir 2024]-Number of jobs and CPU years wrt. job parallelism [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053[Dedicated Elixir 2024]-Number of jobs and avg. Wait time wrt. job types [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

[Dedicated Elixir 2024]-Number of jobs and avg. Wait time wrt. job parallelism [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

[Dedicated Elixir 2024]-Stacked Cluster Usage(%) in time [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

[Dedicated Elixir 2024]-Stacked Queue CPU usage in time (CPU days) [Dedicated Elixir 2024]_(2024-01-01-2024-12-31)_-2032483053

 

Open OnDemand

Část úloh v PBS je zadávána a spouštěna z grafického prostředí OpenOnDemand. Úlohy byly odbavovány v prioritní interaktivní frontě a běžely v PBS.

 

 Jednotlivé aplikace OnDemndu

Aplikace počet úloh počet uživatelů CPU let
RStudio 2232 125 551,97
Jupyter 1683 144 273
Desktop 1018 146 264,7
Matlab 514 59 325,4
Ansys 483 27 108,5
biop-desktop 103 13 0,29
VMD 48 25 0,6
CLC genomics 2 2 -
repet 2 2 -
Alphafold jobs 99 3 124,4


 

Uživatelé (PBS)

Využití MetaCentra organizacemi (Meta VO, PBS) dle propočítaného času. Na první grafu je Akademie věd započítána jako jedna organizace, na druhém jak počítaly jednotlivé ústavy Akademie věd. Do počtu uživatelů jsou započítáni pouze ti, kteří v roce 2024 spustili alespoň jednu úlohu.

[2024]-Used CPU years by Institutions [2024]_(2024-01-01-2024-12-31)_-987791083

 

graf-AVCR-lidi-cas-ustavy

TODO  Počet uživatelů dle institucí, kteří použili gridové služby MetaCentra (spustili úlohu). Na prvním obrázku je AV ČR jako celek, na druhém jsou pak pouze uživatelé z jednotlivých ústavů AV ČR.

uzivatele-instituce-pocet-uzivatelu

graf-AVCR-lidi-cas-ustavy

  

 

 

Kubernetes


na konci roku 2024 bylo v provozu 3008 CPU jader (vloni 2432) , na kterých bylo propočítáno celkem 2737 (vloni 1917) CPU let. Rancher použilo 200 uživatelů, 428 uživatelů vyzkoušelo jupyter + alphafold/foldify.


K dispozici bylo 47 GPU karet různých typů:

Typ GPU karty počet
NVIDIA H100 96 GB NVL 8
NVIDIA H100 PCIe 2
NVIDIA A40 21
NVIDIA L4 1
NVIDIA A10 5
NVIDA A100 80GB PCIe 10

 V rámci Kuberbetes běží také SensitiveCloud

 

 Využití významných aplikací běžících v Kubernetes

 

Běžící projekty (měřeno od srpna 2024)

 

 

 

 

MetaCentrum Cloud

 

V roce 2024 MetaCentrum Cloud provozoval 7368 CPU jader a 78 GPU karet.

Bylo propočítáno celkem 10133 CPU let v 49 tis. instancích, z toho ve FedCloud xxx CPU let ve xxx instancích.

V cloudu rozlišujeme stroje podle určení nebo vlastníků: meta, cerit-sc, egi, mu, recetox, csirt.

Zdroje jsou nabízené 2 způsoby: osobní využití s omezením počtu a velikosti běžících instancí a projektové využití

Část kapacity je exportovaná do cerit-pbs (dávkové využití).

 

Podíl propočítaného CPU času spotřebovaného v MetaCentrum Cloud

HW Utilization + Capacity (2020 - 2024) 

projekty-Spotřeba zdrojů - skup. + os. projekty (2024)

 

Podíl propočítaného GPU času spotřebovaného v MetaCentrum Cloud

GPUhours-HW Utilization + Capacity (2020 - 2024)

 

 

Úložné prostory

Meziročně opět vzrostlo zaplnění diskových polích v MetaCentru i v CERIT-SC. Mimo to, se podařilo integrovat diskové pole jiných vlastníků do infrastruktury MetaCentra (CEITEC, ELIXIR). Přístup na taková pole je dedikován vlastníkům, po dohodě s nimi může být přístupný i pro další uživatele.

diskova-pole-ledem_2025

 

 

Publikace

Seznam publikací s poděkováím infrastruktuře z WoS [PDF]

Organizace u publikací s poděkováním e-INFRA CZ (WoS):

wos-affiliation24

Typ publikací

wos-type-of-publication

Kategorie publikací

wos-category24

Publikace podle zemí autorů

 wos-countries24

Publikace podle oborů

wos-research-areas24

Citece (WoS)

was-citation-report24

 

EGI statistiky

 

Za celý rok bylo na klasteru skurut spuštěno 1,2 milionu gridových úloh [2], normovaný propočítaný čas činil 62 milionů hodin (v jednotkách HS23) [3].

[2] https://accounting.egi.eu/egi/site/prague_cesnet_lcg2/elap_processors/VO/DATE/2024/1/2025/1/egi/onlyinfrajobs/
[3] https://accounting.egi.eu/egi/site/prague_cesnet_lcg2/normelap_processors/VO/Year/2024/1/2024/12/egi/onlyinfrajobs/

ngicz-acc-quarter-elapsed-hours-norm

 

 

ngiczt-acc-quarter-jobs

 

 

Poslední změna:2025-01-28 19:42:18