MetaCentrum VO mělo na konci roku 2023 3055 uživatelů s aktivním účtem. Pro srovnání, koncem roku 2022 mělo v MetaCentru účet 2710 uživatelů.
Meziročně narostl počet CPU jader pořízených v národním výpočetním prostředí MetaVO (grid + cloud) na 41288CPU jader (vloni 37628), z toho 20064 CPU jader patřilo CESNETu (bez EGI, 18624 PBS, 1440 cloud), CERIT-SC měl 8120 (5152 PBS + 536 cloud, 2432 K8s). Zbývajících 13528 CPU jader (bez EGI) vlastnily univerzity, Akademie věd ČR a velké projekty.
Dalších 6460 CPU jader bylo k dispozici v mezinárodním prostředí EGI. V dávkovém režimu (HTC) byly zapojené zdroje CESNETU (1040 CPU jader) a FZÚ AV ČR (5420 CPU jader) a část kapacity MetaCentrum Cloudu bylo k dispozici v EGI FedCloudu.
V roce 2023 uživatelé MetaVO, MetaCentrum cloudu a Kubernetes propočítali celkem 31858 CPU let (27547 v roce 2022).
PBS
celkem 32968 CPU jader, 22525 CPU let, 1627 GPU let, 10,1 mil. úloh
MetaCentrumCloud
MetaCentrum Cloud provozoval v roce 2022 9928 CPU jader a 54+49 GPU karet.
Bylo propočítáno celkem 10880 CPU let v 19897 instancích, z toho ve FedCloud 1526 CPU let ve 3353 instancích.
Kubernetes
na konci roku 2023 bylo v provozu 2432 CPU jader (včetně 256 CPU jader vyhrazených pro Sensitive Cloud), na kterých bylo propočítáno celkem 1917 CPU let. Rancher použilo 372 uživatelů, z 25 institucí a dále z projektů podpořených v EGI.
V MetaCentrum NGI jsou zapojeny následující typy výpočetních kapacit
Celkem 49386 CPU jader (prosinec 2023)
Následující graf ukazuje průměrné vytížení výpočetních clusterů a strojů v MetaVO v roce 2022. Základem pro výpočet průměrného vytížení (100%) je celkový počet dostupných CPU-core-seconds mínus počet CPU-core-seconds strojů, které nebyly v provozu. Rezervované stroje jsou započítané tak, jako by byly plně využity, bez ohledu na jejich skutečné využití. Údaj v závorce udává počet CPU v clusteru na konci roku. Nula značí, že cluster byl v průběhu roku vyřazen.
Průměrné vytížení (CPU) volně dostupných strojů v MetaCentru se pohybovalo v roce 2022 okolo 65 %. Vytížení okolo 70% je optimální, vyšší vytížení již znamená faktickou saturaci a způsobuje delší doby čekání úloh ve frontě. Nižší hodnoty vytížení vykazují stroje, které byly do MetaCentra zapojeny až v průběhu sledovaného období nebo jsou unikátní, vyhrazené pro specifický typ výpočtů nebo vyhrazené pro některou skupinu. Clustery s GPU mají také nižší využití CPU, protože jsou využívány primárně pro výpočty na GPU.
Průměrné vytížení clusterů se liší podle toho, zda jsou vlastněné CESNETem a jsouvyužitelné všem bez rozdílu, anebo zda patří některé uživatelské skupině, která má prioritní přístup a ostatní uživatelé jsou zde limitovaní, využití je proto nižší.
Průměrné vytížení všech strojů zapojených v meta-pbs v průběhu celého roku 2023
Průměrné vytížení CPU se pohybovalo okolo 74 %, GPU pak více než 80 %. Do průměru jsou započítany všechny výpočetní clustery, i ty, které jsou vyhrazeny s přednostním právem vlastníkům a jejichž vytížení obvykle bývá nižší.
Průměrné vytížení všech strojů zapojených v cerit-pbs v průběhu celého roku 2023
Průměrné vytížení CPU se pohybovalo podobně jako v předchozím případě okolo 62 %, GPU 70 %. Do průměru jsou započítany všechny výpočetní clustery, i ty, které jsou specializované a dokáží obsloužit jen určitý typ výpočtů (např. cluster phí speciální architektury pro velmi specifické úlohy, které umí využít speciální akcelerátory Xeon phí, ale kterých není mnoho).
Průměrné vytížení strojů zapojených v elixir-pbs v průběhu celého roku 2023
Průměrné vytížení CPU je o trochu nižší, stroje mají prioritu pro skupinu ELIXIR, pohybovalo se okolo 48 %, GPU karty tyto clustery neobsahují.
Využití výkonného stroje DGX H100
Stroj centra CERIT SC DGX H100 se 4 kartami NVIDIA H100 (GPU RAM 40 GB každá) byl pořízen v polovině roku (červen 2023). Je přístupný přes speciální frontu a jen pro uživatele, kteří doložili, že jej opravdu potřebují a umí využít. Standardní úlohy, které mohou být spočítány na méně výkonných kartách, na tento stroj vůbec nezařazujeme. I tak si získal velikou oblibu. Po prázdninách se využití GPU karet zvýšilo až ke 100 % a je prakticky stále obsazený.
Vývoj počtu jader, propočítaného času a počtu úloh ukazuje, že zatímco počet CPU jader, které jsou k dispozici a propočítaný čas rostou proporčně, celkový počet propočítaných úloh roste pomaleji a v posledním roce dokonce klesl. Lze to vysvětlit prodloužení délky jednotlivých úloh.
Využití MetaCentra organizacemi (Meta VO, PBS) dle propočítaného času
Počet uživatelů dle institucí, kteří použili gridové služby MetaCentra (spustili úlohu). Na prvním obrázku je AV ČR jako celek, na druhém jsou pak pouze uživatelé z jednotlivých ústavů AV ČR.
V cloudu rozlišujeme stroje podle určení nebo vlastníků: meta, cerit-sc, egi, mu, recetox, csirt.
Zdroje jsou nabízené 2 způsoby: osobní využití s omezením počtu a velikosti běžících instancí a projektové využití
Část kapacity je exportovaná do cerit-pbs (dávkové využití).
Podíl propočítaného CPU času spotřebovaného v MetaCentrum Cloud
Podíl propočítaného GPU času spotřebovaného v MetaCentrum Cloud
V kubernets uživatelé propočítali celkem 1917 CPU let. Kubernetes cluster použilo 372 uživatelů z 25 institucí.
Graf využití podle propočítaného času následuje:
Meziročně opět vzrostlo zaplnění diskových polích v MetaCentru i v CERIT-SC. Mimo to, se podařilo integrovat diskové pole jiných vlastníků do infrastruktury MetaCentra (CEITEC, ELIXIR). Přístup na taková pole je dedikován vlastníkům, po dohodě s nimi může být přístupný i pro další uživatele.
Selected statistical values for the VO auger and belle2 usage with focus on the CZ contribution.
Source: accounting.egi.eu
The VO auger submitted 669494 jobs, above 7% were executed on CESNET cluster (prague_cesnet_lcg2). The other Czech resource at FZY (praguelcg2) is used mostly via local jobs submission.
Total normalized elapsed time was 66,5 million hours. The Czech contribution was at the level of 5%.
Total number of jobs in the VO belle exceeded 24 million, out of which almost 1.2 million were executed in the Czech Republic.
The VO belle used 1527 million hours of normalized elapsed time. CESNET contribution was 43 million hours, 2.82%.
Evolution of total number of jobs in the last 5 years.
The total walltime was 4.6 million hours (not normalized), which corresponds to 528 years. Details from a local accounting database (months):
EGI Storage usage
The Storage Element at prague_cesnet_lcg2 uses dCache software supporting SRM, gsiftp, https and xrootd protocols. In total, 74 TB of data were uploaded, and 2882 TB were downloaded during 2023.