Novinky infrastruktury
Novinky infrastruktury
- Nový cluster glados.cerit-sc.cz částečně vybavený GPU kartami (CERIT-SC)
- Spouštění úloh na strojích s Debian9 (CERIT-SC)
- Změny v nastavení vlastností na strojích (arien-pro i wagap-pro)
- Automatické promazávání scratchů na frontendech
- Zprovoznění nových strojů vlastníka ELIXIR-CZ
1) nový cluster glados.cerit-sc.cz částečně vybavený GPU kartami (CERIT-SC)
MetaCentrum bylo rozšířeno o nový cluster glados[1-17].cerit-sc.cz (lokalita Brno, vlastník CERIT-SC), 680 CPU, 17 uzlů s následující HW specifikací:
- CPU: 2x Intel Xeon Gold 6138 (2x 20 Core) 2.0 GHz
- RAM: 384 GB
- Disk: 2x 2TB SSD
- Výkon každého uzlu dle SPECfp2006: 1370 (34,25 na jádro)
- Uzly glados[10-17] obsahují každý 2 GPU karty -- Nvidia 1080 Ti
- Scratch je pouze typu SSD, nutno zohlednit při zadání úlohy
- Dočasně nastavena podpora pouze krátkých úloh, aktuálně maximálně 24 hodin. Pokud nebudou problémy, maximální doba běhu úloh bude postupně navyšována.
- OS debian9
Cluster je dostupný v prostředí plánovacího serveru @wagap-pro prostřednictvím standardních front.
- GPU úloha se v prostředí CERIT-SC (server @wagap-pro) zadává jako standardní úloha v defaultní frontě, pouze se specifikací počtu GPU:
$ qsub ... -l select=1:ncpus=1:gpu=1 ...
- Nezapomeňte v qsub zadat typ scratche SSD a OS Debian9:
$ qsub -l walltime=1:0:0 -l select=1:ncpus=1:mem=400mb:scratch_ssd=400mb:os=debian9 ...
2) Spouštění úloh na strojích s Debian9 (CERIT-SC)
CERIT-SC rozšířilo portfolium strojů s novým OS Debian9 (všechny nové stroje a některé starší). Od příštího týdne vypneme dočasné defaultní nastavení plánovače na Debian8. Pokud po vypnutí ve svých úlohách explicitně neuvedete požadovaný OS, plánovací systém vybere libovolný z nich, který je v dané frontě k dispozici.
Pokud chcete mít výběr operačního systému pod kontrolou, můžete využit následující volby (defaultní fronta):
- Pro spuštění úlohy na stroji s OS Debian9 přidejte parametr "os=debian9":
zuphux$ qsub -l select=1:ncpus=2:mem=1gb:scratch_local=1gb:os=debian9 …
- Podobně pro spuštění úloh na strojích s OS Debian8 zadejte "os=debian8":
zuphux$ qsub -l select=1:ncpus=2:mem=1gb:scratch_local=1gb:os=debian8 …
- Stroje s jiným OS (centos7) jsou k dispozici přes speciální fronty: např. urga, ungu (ve frontě uv@wagap-pro) a phi (ve frontě phi@wagap-pro)
V případě problémů s kompatibilitou vyzkoušejte přidání modulu debian8-compat.
Případné problémy s během aplikací (chybějícími knihovnami apod.) na strojích s OS Debian9 nám, prosím, neprodleně hlaste na meta@cesnet.cz .
Seznam uzlů s OS Debian9/Debian8/Centos7 je možné zobrazit v seznamu vlastností ve webové aplikaci PBSMon:
https://metavo.metacentrum.cz/pbsmon2/props?property=os%3Ddebian9
https://metavo.metacentrum.cz/pbsmon2/props?property=os%3Ddebian8
https://metavo.metacentrum.cz/pbsmon2/props?property=os%3Dcentos7
3) Změny v nastavení vlastností na strojích (arien-pro i wagap-pro)
V průběhu dubna plánujeme úklid a pokud možno i sjednocení vlastností strojů v obou prostředích @arien-pro i @wagap-pro.
Operační systém
Začneme s důsledným označováním operačního systému strojů parametrem os=<debian8, debian9,centos7>
Nadbytečné původní vlastnosti centos7, debian8 a debian9 postupně na strojích zrušíme (pozůstatek PBS Torque). Pro výběr operačního systému v příkazu qsub postupujte podle návodu výše v bodu 2.
Tip: Sestavovač Qsub pro pomoc s napsáním zadání úlohy a výběrem strojů: https://metavo.metacentrum.cz/pbsmon2/qsub_pbspro
4) Automatické promazávání scratchů na frontendech
Kvůli opakovaným problémům s plnými scratchi na frontendech zavedeme automatické promazávání starých dat (starší 60 dnů) také na frontendech. Nenechávejte ve scratchi na frontendech žádná důležitá data. Přeneste si je do /home adresářů.
5) Zprovoznění nových strojů vlastníka ELIXIR-CZ
Pro skupinu českého národního uzlu ELIXIR-CZ jsme zprovoznili následující clustery:
• elmo1.hw.elixir-czech.cz - 224 CPU in total, SMP, 4 nodes with 56 CPUs, 768 GB RAM (Praha UOCHB)
• elmo2.hw.elixir-czech.cz - 96 CPU in total, HD, 4 nodes with 24 CPUs, 384 GB RAM (Praha UOCHB)
• elmo3.hw.elixir-czech.cz - 336 CPU in total, SMP, 6 nodes with 56 CPUs, 768 GB RAM (Brno)
• elmo4.hw.elixir-czech.cz - 96 CPU in total, HD, 4 nodes with 24 CPUs, 384 GB RAM (Brno)
Stroje jsou přístupné přes prioritní frontu elixircz (PBS server @arien-pro), do které mají přístup pouze členové českého národního uzlu ELIXIR-CZ a jejich spolupracovníci. Členství ve skupině podléhá schvalování. Podmínky a další informace jsou uvedené na wiki https://wiki.metacentrum.cz/wiki/Elixir. Ostatní uživatelé MetaCentra budou moci brzy nové clustery využít v běžných krátkých frontách.
Popis a nastavení fronty: https://metavo.metacentrum.cz/pbsmon2/queue/elixircz
Vzorový qsub:
$ qsub -q elixircz@arien-pro.ics.muni.cz -l select=1:ncpus=2:mem=2gb:scratch_local=1gb -l walltime=24:00:00 muj_script.sh
Quickstart: https://wiki.metacentrum.cz/w/images/f/f8/Quickstart-pbspro-ELIXIR.pdf
Stroje mají nainstalovaný OS Debian9. Případné problémy s během aplikací (chybějícími knihovnami apod.) na strojích s OS Debian9 nám, prosím, neprodleně hlaste na meta@cesnet.cz .
V případě problémů s kompatibilitou vyzkoušejte přidání modulu debian8-compat.
Ivana Křenková, Fri Apr 06 15:35:00 CEST 2018

