Přeskočit na obsah

2023

 

zelena-tabulka-leden2024

MetaCentrum VO mělo na konci roku 2023 3055 uživatelů s aktivním účtem. Pro srovnání, koncem roku 2022 mělo v MetaCentru účet 2710 uživatelů.
 

Meziročně narostl počet CPU jader pořízených v národním výpočetním prostředí MetaVO (grid + cloud) na 41288CPU jader (vloni 37628), z toho 20064 CPU jader patřilo CESNETu (bez EGI, 18624 PBS, 1440 cloud), CERIT-SC měl 8120 (5152 PBS + 536 cloud, 2432 K8s). Zbývajících 13528 CPU jader (bez EGI) vlastnily univerzity, Akademie věd ČR a velké projekty.


Dalších 6460 CPU jader bylo k dispozici v mezinárodním prostředí EGI. V dávkovém režimu (HTC) byly zapojené zdroje CESNETU (1040 CPU jader) a FZÚ AV ČR (5420 CPU jader) a část kapacity MetaCentrum Cloudu bylo k dispozici v EGI FedCloudu.

V roce 2023 uživatelé MetaVO, MetaCentrum cloudu a Kubernetes propočítali celkem 31858 CPU let (27547 v roce 2022).

  • Z toho v dávkovém systému (PBS) bylo propočítáno více než 22,5 tis. CPU let (19,1 tis. CPU let v roce 2022), z toho 4,3 tis. CPU let bylo propočítáno v cerit-pbs a 16,6 tis. CPU let v meta-pbs (na strojích CESNETu a ostatních poskytovatelů), dalších 1,6 tis. CPU let bylo propočítáno na strojích pod elixir-pbs. V dávkovém režimu bylo v roce 2022 spuštěno 10,1 mil. úloh (11,1 mil. ve 2021)
  • V prostředí MetacentrumCloud bylo propočítánocelkem 10880 CPU let včetně exportu do PBS (9948 CPU let v roce 2022) na téměř 20 tisících (16 tis. v loňském roce) virtuálních strojích. V propočítaném čase je zahrnutý povolený overcommiting.
  • V prostředí Kubernetes bylo v provozu 2432 CPU jader (včetně 256 CPU jader vyhrazených pro Sensitive Cloud), na kterých bylo propočítáno celkem 1977 CPU let (997 CPU let v roce 2022) a přes bylo spuštěno téměř 1,6 milionů podů.

PBS

celkem 32968 CPU jader, 22525 CPU let, 1627 GPU let, 10,1 mil. úloh

  • meta-pbs 16636 CPU let, 1411 GPU let, 6,2 mil. úloh
  • cerit-pbs 4311 CPU let, 216 GPU let, 4,3 mil. úloh
  • elixir-pbs 1579 CPU let, 911 tis. úloh (GPU karty nejsou k dispozici)

MetaCentrumCloud

MetaCentrum Cloud provozoval v roce 2022 9928 CPU jader a 54+49 GPU karet.

Bylo propočítáno celkem 10880 CPU let v 19897 instancích, z toho ve FedCloud 1526 CPU let ve 3353 instancích.

  

Kubernetes

na konci roku 2023 bylo v provozu 2432 CPU jader (včetně 256 CPU jader vyhrazených pro Sensitive Cloud), na kterých bylo propočítáno celkem 1917 CPU let. Rancher použilo 372 uživatelů, z 25 institucí a dále z projektů podpořených v EGI.

 

 

Vlastníci zdrojů

V MetaCentrum NGI jsou zapojeny následující typy výpočetních kapacit

  • Národní výpočetní a úložné kapacity zapojené v MetaVO jsou k dispozici pro zaměstnance a studenty akademických a výzkumných organizací v ČR a jejich výzkumné partnery. Sem patří
    • zdroje využívající dávkové systémy PBS Pro,
    • cloudové stroje z MetaCentrum cloudu
    • Kubernetes
  • Kromě toho MetaCentrum NGI spravuje stroje zapojené do mezinárodní výpočetní infrastruktury EGI.

pocty-cpujader-roky

 

 instituce-cpu-2023-mensi

 

 

Celkem 49386 CPU jader (prosinec 2023)

  • CERIT-SC (8120 CPU jader): capy, uruk, urga, ursa, zefron, glados, black, phi, zia, gita, zenon, zelda, k8s -- zapojené dle potřeby v PBS, K8s nebo v MetaCloudu/FedCloudu
    • PBS Pro (5152 CPU jader)
    • Kubernetes (2432 CPU jader)
    • cloud (536 CPU jader )
  • CESNET (21104 CPU jader)
    • PBS Pro (18624 CPU jader): aman, adan, tarkil, ida, halmir, galdor, nympha, kirke, grimbold, hildor, tyra, turin, hagrid
    • MetaCloud (1440 CPU jader: cloud
    • EGI HTC (1040 CPU jader): skurut
  • ELIXIR (5624 CPU jader)
    • PBS Pro (3224 CPU jader): elmo, eli + elwe, eltu, elan
    • MetaCloud (2400 CPU): cloud
  • Ostatní
    • Fyzikální ústav AV ČR
      • PBS Pro (3008 CPU jader): luna
      • EGI HTC (5420 CPU jader)
    • Masarykova univerzita ÚVT a C4E (1600 CPU jader): cloud
    • Masarykova univerzita RECETOX (336 CPU jader): cloud
    • Masarykova univerzita FSS (0(48) CPU): cloud
    • Karlova univerzita (1520 CPU jader): cha, fau, mor, pcr, fer
    • Západočeská univerzita (368 CPU jader):  alfrid, konos
    • Botanický ústav AV ČR: (352 CPU jader): ibot, draba, carex, vinca
    • Technická univerzita Liberec (480 CPU jader): charon
    • Univerzita Palackého Olomouc (128 CPU jader): upol128
    • Ústav experimentální botaniky (112 CPU jader): samson

 

resource-providers-2020-2023

 

 

Statistiky využití zdrojů MetaVO

Využití strojů v dávkovém systému PBS

Následující graf ukazuje průměrné vytížení výpočetních clusterů a strojů v MetaVO v roce 2022. Základem pro výpočet průměrného vytížení (100%) je celkový počet dostupných CPU-core-seconds mínus počet CPU-core-seconds strojů, které nebyly v provozu. Rezervované stroje jsou započítané tak, jako by byly plně využity, bez ohledu na jejich skutečné využití. Údaj v závorce udává počet CPU v clusteru na konci roku. Nula značí, že cluster byl v průběhu roku vyřazen.

Průměrné vytížení (CPU) volně dostupných strojů v MetaCentru se pohybovalo v roce 2022 okolo 65 %. Vytížení okolo 70% je optimální, vyšší vytížení již znamená faktickou saturaci a způsobuje delší doby čekání úloh ve frontě. Nižší hodnoty vytížení vykazují stroje, které byly do MetaCentra zapojeny až v průběhu sledovaného období nebo jsou unikátní, vyhrazené pro specifický typ výpočtů nebo vyhrazené pro některou skupinu. Clustery s GPU mají také nižší využití CPU, protože jsou využívány primárně pro výpočty na GPU.

prumer_vytizeni-stroju2023 

Průměrné vytížení clusterů se liší podle toho, zda jsou vlastněné CESNETem a jsouvyužitelné všem bez rozdílu, anebo zda patří některé uživatelské skupině, která má prioritní přístup a ostatní uživatelé jsou zde limitovaní, využití je proto nižší.

[Summary]-CPU usage in time (CPU days) [Summary]_(2023-01-01-2024-01-01)_-332149279

 

[Summary]-GPU usage in time (GPU days) [Summary]_(2023-01-01-2024-01-01)_-332149279

 

[Summary]-Jobs in time [Summary]_(2023-01-01-2024-01-01)_-332149279

 

Průměrné vytížení všech strojů zapojených v meta-pbs v průběhu celého roku 2023

Průměrné vytížení CPU se pohybovalo okolo 74 %, GPU pak více než 80 %. Do průměru jsou započítany všechny výpočetní clustery, i ty, které jsou vyhrazeny s přednostním právem vlastníkům a jejichž vytížení obvykle bývá nižší.

utilization-cpu-meta-pbs-2023 

 utilization-gpu-meta-pbs-2023

Průměrné vytížení všech strojů zapojených v cerit-pbs v průběhu celého roku 2023

Průměrné vytížení CPU se pohybovalo podobně jako v předchozím případě okolo 62 %, GPU 70 %. Do průměru jsou započítany všechny výpočetní clustery, i ty, které jsou specializované a dokáží obsloužit jen určitý typ výpočtů (např. cluster phí speciální architektury pro velmi specifické úlohy, které umí využít speciální akcelerátory Xeon phí, ale kterých není mnoho).

utilization-cpu-cerit-pbs-2023

utilization-gpu-cerit-pbs-2023

 

Průměrné vytížení strojů zapojených v elixir-pbs v průběhu celého roku 2023

Průměrné vytížení CPU je o trochu nižší, stroje mají prioritu pro skupinu ELIXIR, pohybovalo se okolo 48 %, GPU karty tyto clustery neobsahují. 

utilization-cpu-elixir-pbs-2023
 

 Využití výkonného stroje DGX H100

Stroj centra CERIT SC DGX H100 se 4 kartami NVIDIA H100 (GPU RAM 40 GB každá) byl pořízen v polovině roku (červen 2023).  Je přístupný přes speciální frontu a jen pro uživatele, kteří doložili, že jej opravdu potřebují a umí využít. Standardní úlohy, které mohou být spočítány na méně výkonných kartách, na tento stroj vůbec nezařazujeme.  I tak si získal velikou oblibu. Po prázdninách se využití GPU karet zvýšilo až ke 100 % a je prakticky stále obsazený.

capy-vyuziti

 

 [Summary]-Number of jobs and avg. Wait time wrt. job parallelism [Summary]_(2023-01-01-2024-01-01)_-332149279

[Summary]-Number of jobs and avg. Wait time wrt. job types [Summary]_(2023-01-01-2024-01-01)_-332149279

[Summary]-Number of jobs and avg. Wait time wrt. job types [Summary]_(2023-01-01-2024-01-01)_-332149279

[Summary]-Number of jobs and avg. Wait time wrt. job types [Summary]_(2023-01-01-2024-01-01)_-332149279

 

[Summary]-Stacked Queue CPU usage in time (CPU days) [Summary]_(2023-01-01-2024-01-01)_-332149279 

Vývoj počtu jader, propočítaného času a počtu úloh ukazuje, že zatímco počet CPU jader, které jsou k dispozici a propočítaný čas rostou proporčně, celkový počet propočítaných úloh roste pomaleji a v posledním roce dokonce klesl. Lze to vysvětlit prodloužení délky jednotlivých úloh.

 cpus-time-jobs-in-years

 

 

Uživatelé

Využití MetaCentra organizacemi (Meta VO, PBS) dle propočítaného času

[Summary]-Used CPU years by Institutions [Summary]_(2023-01-01-2024-01-01)_-332149279

Počet uživatelů dle institucí, kteří použili gridové služby MetaCentra (spustili úlohu). Na prvním obrázku je AV ČR jako celek, na druhém jsou pak pouze uživatelé z jednotlivých ústavů AV ČR.

 instituce-pocetuzivatelu-2023-AVjakojedna

 instituce-pocetuzivatelu-2023-jenAV

 

MetaCentrum Cloud

V cloudu rozlišujeme stroje podle určení nebo vlastníků: meta, cerit-sc, egi, mu, recetox, csirt.

Zdroje jsou nabízené 2 způsoby: osobní využití s omezením počtu a velikosti běžících instancí a projektové využití

Část kapacity je exportovaná do cerit-pbs (dávkové využití).

 

Podíl propočítaného CPU času spotřebovaného v MetaCentrum Cloud

 

Podíl propočítaného GPU času spotřebovaného v MetaCentrum Cloud

 

 

Kubernetes

V kubernets uživatelé propočítali celkem 1917 CPU let. Kubernetes cluster použilo 372 uživatelů z 25 institucí.

Graf využití podle propočítaného času následuje:

k8s-instituce

 

 

Úložné prostory

Meziročně opět vzrostlo zaplnění diskových polích v MetaCentru i v CERIT-SC. Mimo to, se podařilo integrovat diskové pole jiných vlastníků do infrastruktury MetaCentra (CEITEC, ELIXIR). Přístup na taková pole je dedikován vlastníkům, po dohodě s nimi může být přístupný i pro další uživatele.

 

storage2023 

 

Publikace

 

 

EGI statistiky

 

Selected statistical values for the VO auger and belle2 usage with focus on the CZ contribution.

Source: accounting.egi.eu

VO auger

 

The VO auger submitted 669494 jobs, above 7% were executed on CESNET cluster (prague_cesnet_lcg2). The other Czech resource at FZY (praguelcg2) is used mostly via local jobs submission.

EGI-auger-jobs

 

Total normalized elapsed time was 66,5 million hours. The Czech contribution was at the level of 5%.

EGI-auger-CPUtime

VO belle

 

Total number of jobs in the VO belle exceeded 24 million, out of which almost 1.2 million were executed in the Czech Republic.

 EGI-belle-jobs

 

The VO belle used 1527 million hours of normalized elapsed time. CESNET contribution was 43 million hours, 2.82%.

EGI-belle-CPUtime

 

CESNET EGI cluster statistics

 

Evolution of total number of jobs in the last 5 years.

egi-jobs-total

 

The total walltime was 4.6 million hours (not normalized), which corresponds to 528 years. Details from a local accounting database (months):

EGI-walltime-perVI-o

EGI-walltime-perVO

EGI Storage usage

 

The Storage Element at prague_cesnet_lcg2 uses dCache software supporting SRM, gsiftp, https and xrootd protocols. In total, 74 TB of data were uploaded, and 2882 TB were downloaded during 2023.

 EGI-storage-used-VO

EGI-storage-used-grafana

 

Poslední změna: Tue Aug 06 10:57:19 CEST 2024