MetaCentrum VO sestává z výpočetní kapacity poskytované přes PBS, v Kubernetes, OpenStack Cloudu a SecurityCloudu. Část kapacit je poskytováno v mezinárodním prostředí EGI. Tyt
2024 | celkem | PBS celkem | Elixir | Cloud | Kubernetes | SensitiveCloud |
počet úloh/podů/vm | 11,4 mil | 274 tis. PBS | 49 tis vm | 725 tis. pods | ||
CPU čas (walltime) | 24527 CPU let | 1584,4 CPU let PBS | 10133 CPU let | 2737 | ||
GPU čas | 269,6 GPU let | n/a | 50,6 GPU let | 27,8 GPU let | ||
Počet uživatelů | 3490 registrovaných | 1875 alespoň 1 úloha | 106 | 1281 projects | 200 rancher, 428 jupyter+alphafold | |
Počet CPU jader v prosinci | 36452 (včetně Elixir a CERIT-SC) | 3448 PBS + XX cloud | 7368 | 3008 | 952 | |
Počet GPU karet v prosinci | 365 | 0 | 78 | 47 | 18 |
MetaCentrum VO mělo na konci roku 2024 3490 uživatelů s aktivním účtem. Pro srovnání, koncem roku 2023 mělo v MetaCentru účet 3055 uživatelů.
MetaCEntrum VO sestává z výpočetní kapacity poskytované přes PBS, v Kubernetes, OpenStack Cloudu a SecurityCloudu. Část kapacit je poskytováno v mezinárodním prostředí EGI.
Meziročně narostl počet CPU jader pořízených v národním výpočetním prostředí MetaVO (grid + cloud) na todo CPU jader (vloni 41288), z toho xxx CPU jader patřilo CESNETu (bez EGI, xxx PBS, xxxcloud), CERIT-SC měl xxx (xxx PBS + xxx cloud, xx K8s). Zbývajících xxx CPU jader (bez EGI) vlastnily univerzity, Akademie věd ČR a velké projekty.
Dalších TODO6460 CPU jader bylo k dispozici v mezinárodním prostředí EGI. V dávkovém režimu (HTC) byly zapojené zdroje CESNETU (1040 CPU jader) a FZÚ AV ČR (5420 CPU jader) a část kapacity MetaCentrum Cloudu bylo k dispozici v EGI FedCloudu.
V roce 2024 uživatelé MetaVO, MetaCentrum cloudu a Kubernetes propočítali celkem xxx CPU let (31858 v roce 2023).
V MetaCentrum NGI jsou zapojeny následující typy výpočetních kapacit
TODO Celkem 49386 CPU jader (prosinec 2023)
V květnu roku 2024 došlo k velkému třesku, kdy ze tří samostatných plánovačů (meta x elixir x cerit-sc) zbyl jediný společný, takže data jsou oproti minulým letům poskytována souhrnně a některé statistiky překládáme na dvě části, první před třeskem, druhá po něm, z důvodu jiného způsobu zpracování.
celkem 53 clusterů, 36452 CPU jader
Následující graf ukazuje průměrné vytížení výpočetních clusterů a strojů v MetaVO v roce 2024. Základem pro výpočet průměrného vytížení (100%) je celkový počet dostupných CPU-core-seconds mínus počet CPU-core-seconds strojů, které nebyly v provozu. Rezervované stroje jsou započítané tak, jako by byly plně využity, bez ohledu na jejich skutečné využití. Údaj v závorce udává počet CPU v clusteru na konci roku. Nula značí, že cluster byl v průběhu roku vyřazen.
Průměrné vytížení (CPU) volně dostupných strojů v MetaCentru se pohybovalo v roce 2022 okolo 65 %. Vytížení okolo 70% je optimální, vyšší vytížení již znamená faktickou saturaci a způsobuje delší doby čekání úloh ve frontě. Nižší hodnoty vytížení vykazují stroje, které byly do MetaCentra zapojeny až v průběhu sledovaného období nebo jsou unikátní, vyhrazené pro specifický typ výpočtů nebo vyhrazené pro některou skupinu. Clustery s GPU mají také nižší využití CPU, protože jsou využívány primárně pro výpočty na GPU.
Průměrné vytížení clusterů se liší podle toho, zda jsou vlastněné CESNETem a jsou využitelné všem bez rozdílu, anebo zda patří některé uživatelské skupině, která má prioritní přístup a ostatní uživatelé jsou zde limitovaní, využití je proto nižší. Průměrné vytížení CPU se pohybovalo okolo 70 %, GPU pak více než 70 %. Do průměru jsou započítany všechny výpočetní clustery, i ty, které jsou vyhrazeny s přednostním právem vlastníkům a jejichž vytížení obvykle bývá nižší.
Na jaře probíhala migrace všech strojů na nový plánovač a zároveň postupná reinstalace všech uzlů na nový operační systém. Tomu odpovídá graf průměrného vytížení za všechny stroje.
Pro nejnáročnější AI výpočty byl k dispozici je výkonný server capy NVIDIA DGX s 8 GPU kartami H100 s 40 GB GPU MEM propojenými NVLinkem.
O takto velké a rychlé grafické karty byl taková zájem, že v listopadu byl uveden do provozu cluster bee 960 CPU jádry s nejnovější 32x GPU NVIDIA H100 s 96 GB GPU MEM v každém z 20 uzlů.
Ve stejno dobu připojil Fyzikální ústav Akademie věd nový cluster magma.fzu.cz sestávající z 23 uzlů celkem s 2208 CPU jádry a každý s 1,5 TB RAM, bez grafických karet.
Využití výkonného stroje DGX H100
Stroj centra CERIT SC DGX H100 se 4 kartami NVIDIA H100 (GPU RAM 40 GB každá) byl pořízen v polovině roku (červen 2023). Je přístupný přes speciální frontu a jen pro uživatele, kteří doložili, že jej opravdu potřebují a umí využít. Standardní úlohy, které mohou být spočítány na méně výkonných kartách, na tento stroj vůbec nezařazujeme. I tak si získal velikou oblibu. Po prázdninách se využití GPU karet zvýšilo až ke 100 % a je prakticky stále obsazený.
Využití clusteru bee.cerit-sc.cz
Využití clusteru magma.fzu.cz
Následují statistiky využití všech clusterů zapojených do PBS.
Počet úloh a průměrná doba jejich čekání na spuštění v závislosti na počtu požadovaných CPU jader. Naprostá většina úloh přicházejících do systému požaduje 1 CPUs. Nejdéle čekají úlohy požadující více než 128 CPU jader.
Počet úloh a průměrná doba jejich čekání na spuštění v závislosti na požadované délce běhu úlohy. Naprostá většina úloh požadovala dubu běhu do 24 hodin a průměrně čekaly na spuštění do 20 hodin. Nejdéle čekaly úlohy požadující více než týdenní čas běhu. Graf ukazuje rovněž úlohy, které požadovaly GPU, bez ohledu na jejich velikost, díky prioritním gpu frontám, tyto úlohy nečekaly průměrně více než 10 hodin.
Počet úloh a jimi propočítaný čas v závislosti na počtu požadovanýc CPU jader. Z grafu je patrnné, že nejvíce do systému přisšlo 1 CPU úloh a tyto propočítaly největší CPU čas. Nejčastěji uživatelé pouštějí úlohy do 16 CPU jader, je to z důvodu optimalizace doby spuštění. Do systému však, díky speciálním strojům typu UV s mnoha CPU jádry a velkou sdílenou pamětí, přicházelo poměrně dost úloh vyžadujících více než 128 CPU jader. Tyto propočítaly souhrnně 1000 CPU let.
Počet úloh a jimi propočítaný čas v závislosti na délce úlohy.
Následující graf ukazuje souhrnný pohled na průměrné využití strojů s přihlédnutím k jejich údržbě. Průměrně bylo v údržbě okolo 10 % strojů. V polovině září se začaly clustery odstavovat z provoz, dobíhaly na nich dlouhé úlohy, aby v květnu mohlo dojít k jejich postupné reinstalaci a přepnutí na nový plánovací systém.
Graf demonstrující využítí podle front a propočítané času v nich
TODO Vývoj počtu jader, propočítaného času a počtu úloh ukazuje, že zatímco počet CPU jader, které jsou k dispozici a propočítaný čas rostou proporčně, celkový počet propočítaných úloh roste pomaleji a v posledním roce dokonce klesl. Lze to vysvětlit prodloužení délky jednotlivých úloh.
Následující grafy vycházejí z dat ze syslogu o spouštěných modulech v úlohách běžících pod PBS od února do prosince 2024, za leden už data nejsou k dispozici.
Uživatelé použili 3800 různých modulů v 11 milionech úlohách. Pokud úloha požadovala více modulů, započítala se vícekrát.
Pokud se podíváme na četnost použití konkrétních modulů, 50 nejčastějších modulů tvoří 87 % všech úloh, které modul požadovaly. 100 nejčastěji spouštěných modulů tvoří 94 % všech úloh s moduly.
Následující graf ukazuje 50 nejčastěji použitých modulů podle počtu úloh, ve kterých byly požadované.
Následující graf ukazuje 50 nejoblíbenějších modulů používaných nejvíce uživateli.
Využití komerčního SW podle počtu spuštění vypadá následovně:
Využití komerčního SW podle počtu uživatelů, kteří jej použili ve svých úlohách.
Propočítaný čas TOP 50 moduly.
Propočítaný čas komerčními SW.
106 uživatelů z projektu ELIXIR spustilo alespoň jednu úlohu a na dedikovaných strojích propočítali celkem 1584 CPU let ve 27 tis. úlohách.
Následují grafy ilustrující využití strojů uživateli z projektu ELIXIR. Kromě toho na strojích běžely výplňové úlohy jiných uživatelů, ty zde nejsou započítány.
Část úloh v PBS je zadávána a spouštěna z grafického prostředí OpenOnDemand. Úlohy byly odbavovány v prioritní interaktivní frontě a běžely v PBS.
Jednotlivé aplikace OnDemndu
Aplikace | počet úloh | počet uživatelů | CPU let |
RStudio | 2232 | 125 | 551,97 |
Jupyter | 1683 | 144 | 273 |
Desktop | 1018 | 146 | 264,7 |
Matlab | 514 | 59 | 325,4 |
Ansys | 483 | 27 | 108,5 |
biop-desktop | 103 | 13 | 0,29 |
VMD | 48 | 25 | 0,6 |
CLC genomics | 2 | 2 | - |
repet | 2 | 2 | - |
Alphafold jobs | 99 | 3 | 124,4 |
Využití MetaCentra organizacemi (Meta VO, PBS) dle propočítaného času. Na první grafu je Akademie věd započítána jako jedna organizace, na druhém jak počítaly jednotlivé ústavy Akademie věd. Do počtu uživatelů jsou započítáni pouze ti, kteří v roce 2024 spustili alespoň jednu úlohu.
TODO Počet uživatelů dle institucí, kteří použili gridové služby MetaCentra (spustili úlohu). Na prvním obrázku je AV ČR jako celek, na druhém jsou pak pouze uživatelé z jednotlivých ústavů AV ČR.
na konci roku 2024 bylo v provozu 3008 CPU jader (vloni 2432) , na kterých bylo propočítáno celkem 2737 (vloni 1917) CPU let. Rancher použilo 200 uživatelů, 428 uživatelů vyzkoušelo jupyter + alphafold/foldify.
K dispozici bylo 47 GPU karet různých typů:
Typ GPU karty | počet |
NVIDIA H100 96 GB NVL | 8 |
NVIDIA H100 PCIe | 2 |
NVIDIA A40 | 21 |
NVIDIA L4 | 1 |
NVIDIA A10 | 5 |
NVIDA A100 80GB PCIe | 10 |
V rámci Kuberbetes běží také SensitiveCloud
Využití významných aplikací běžících v Kubernetes
Běžící projekty (měřeno od srpna 2024)
V roce 2024 MetaCentrum Cloud provozoval 7368 CPU jader a 78 GPU karet.
Bylo propočítáno celkem 10133 CPU let v 49 tis. instancích, z toho ve FedCloud xxx CPU let ve xxx instancích.
V cloudu rozlišujeme stroje podle určení nebo vlastníků: meta, cerit-sc, egi, mu, recetox, csirt.
Zdroje jsou nabízené 2 způsoby: osobní využití s omezením počtu a velikosti běžících instancí a projektové využití
Část kapacity je exportovaná do cerit-pbs (dávkové využití).
Podíl propočítaného CPU času spotřebovaného v MetaCentrum Cloud
Podíl propočítaného GPU času spotřebovaného v MetaCentrum Cloud
Meziročně opět vzrostlo zaplnění diskových polích v MetaCentru i v CERIT-SC. Mimo to, se podařilo integrovat diskové pole jiných vlastníků do infrastruktury MetaCentra (CEITEC, ELIXIR). Přístup na taková pole je dedikován vlastníkům, po dohodě s nimi může být přístupný i pro další uživatele.
Seznam publikací s poděkováím infrastruktuře z WoS [PDF]
Organizace u publikací s poděkováním e-INFRA CZ (WoS):
Typ publikací
Kategorie publikací
Publikace podle zemí autorů
Publikace podle oborů
Citece (WoS)
Za celý rok bylo na klasteru skurut spuštěno 1,2 milionu gridových úloh [2], normovaný propočítaný čas činil 62 milionů hodin (v jednotkách HS23) [3].
[2] https://accounting.egi.eu/egi/site/prague_cesnet_lcg2/elap_processors/VO/DATE/2024/1/2025/1/egi/onlyinfrajobs/
[3] https://accounting.egi.eu/egi/site/prague_cesnet_lcg2/normelap_processors/VO/Year/2024/1/2024/12/egi/onlyinfrajobs/