Přeskočit na obsah

Novinky infrastruktury

Novinky infrastruktury

  1. Nový cluster glados.cerit-sc.cz částečně vybavený GPU kartami (CERIT-SC)
  2. Spouštění úloh na strojích s Debian9 (CERIT-SC)
  3. Změny v nastavení vlastností na strojích (arien-pro i wagap-pro)
  4. Automatické promazávání scratchů na frontendech
  5. Zprovoznění nových strojů vlastníka ELIXIR-CZ


1) nový cluster glados.cerit-sc.cz částečně vybavený GPU kartami (CERIT-SC)

MetaCentrum bylo rozšířeno o nový cluster glados[1-17].cerit-sc.cz (lokalita Brno, vlastník CERIT-SC), 680 CPU, 17 uzlů s následující HW specifikací:

  •  CPU: 2x Intel Xeon Gold 6138 (2x 20 Core) 2.0 GHz
  •  RAM: 384 GB
  •  Disk: 2x 2TB SSD
  •  Výkon každého uzlu dle SPECfp2006: 1370 (34,25 na jádro)
  •  Uzly glados[10-17] obsahují každý 2 GPU karty -- Nvidia 1080 Ti
  •  Scratch je pouze typu SSD, nutno zohlednit při zadání úlohy
  •  Dočasně nastavena podpora pouze krátkých úloh, aktuálně maximálně 24 hodin. Pokud nebudou problémy, maximální doba běhu úloh bude postupně navyšována.
  •  OS debian9

Cluster je dostupný v prostředí plánovacího serveru @wagap-pro prostřednictvím standardních front.

  • GPU úloha se v prostředí CERIT-SC (server @wagap-pro) zadává jako standardní úloha v defaultní frontě, pouze se specifikací počtu GPU:
$ qsub ... -l select=1:ncpus=1:gpu=1 ...
  • Nezapomeňte v qsub zadat typ scratche SSD a OS Debian9:
$ qsub -l walltime=1:0:0 -l select=1:ncpus=1:mem=400mb:scratch_ssd=400mb:os=debian9 ...

 

2) Spouštění úloh na strojích s Debian9 (CERIT-SC)

CERIT-SC rozšířilo portfolium strojů s novým OS Debian9 (všechny nové stroje a některé starší). Od příštího týdne vypneme dočasné defaultní nastavení plánovače na Debian8. Pokud po vypnutí ve svých úlohách explicitně neuvedete požadovaný OS, plánovací systém vybere libovolný z nich, který je v dané frontě k dispozici.

Pokud chcete mít výběr operačního systému pod kontrolou, můžete využit následující volby (defaultní fronta):

  • Pro spuštění úlohy na stroji s OS Debian9 přidejte parametr "os=debian9":
zuphux$ qsub -l select=1:ncpus=2:mem=1gb:scratch_local=1gb:os=debian9 …
  • Podobně pro spuštění úloh na strojích s OS Debian8 zadejte "os=debian8":
zuphux$ qsub -l select=1:ncpus=2:mem=1gb:scratch_local=1gb:os=debian8 …
  • Stroje s jiným OS (centos7) jsou k dispozici přes speciální fronty: např. urga, ungu (ve frontě uv@wagap-pro) a phi (ve frontě phi@wagap-pro)

   
V případě problémů s kompatibilitou vyzkoušejte přidání modulu debian8-compat.

Případné problémy s během aplikací (chybějícími knihovnami apod.) na strojích s OS Debian9 nám, prosím, neprodleně hlaste na meta@cesnet.cz .


Seznam uzlů s OS Debian9/Debian8/Centos7 je možné zobrazit v seznamu vlastností ve webové aplikaci PBSMon:

https://metavo.metacentrum.cz/pbsmon2/props?property=os%3Ddebian9
https://metavo.metacentrum.cz/pbsmon2/props?property=os%3Ddebian8
https://metavo.metacentrum.cz/pbsmon2/props?property=os%3Dcentos7

 

3) Změny v nastavení vlastností na strojích (arien-pro i wagap-pro)

V průběhu dubna plánujeme úklid a pokud možno i sjednocení vlastností strojů v obou prostředích @arien-pro i @wagap-pro.

Operační systém

Začneme s důsledným označováním operačního systému strojů parametrem os=<debian8, debian9,centos7>
Nadbytečné původní vlastnosti centos7, debian8 a debian9 postupně na strojích zrušíme (pozůstatek PBS Torque). Pro výběr operačního systému v příkazu qsub postupujte podle návodu výše v bodu 2.



Tip: Sestavovač Qsub pro pomoc s napsáním zadání úlohy a výběrem strojů: https://metavo.metacentrum.cz/pbsmon2/qsub_pbspro

 

4) Automatické promazávání scratchů na frontendech

Kvůli opakovaným problémům s plnými scratchi na frontendech zavedeme automatické promazávání starých dat (starší 60 dnů) také na frontendech. Nenechávejte ve scratchi na frontendech žádná důležitá data. Přeneste si je do /home adresářů.

 

5) Zprovoznění nových strojů vlastníka ELIXIR-CZ

Pro skupinu českého národního uzlu ELIXIR-CZ jsme zprovoznili následující clustery:
    • elmo1.hw.elixir-czech.cz - 224 CPU in total, SMP, 4 nodes with 56 CPUs, 768 GB RAM (Praha UOCHB)
    • elmo2.hw.elixir-czech.cz - 96 CPU in total, HD, 4 nodes with 24 CPUs, 384 GB RAM (Praha UOCHB)
    • elmo3.hw.elixir-czech.cz - 336 CPU in total, SMP, 6 nodes with 56 CPUs, 768 GB RAM (Brno)
    • elmo4.hw.elixir-czech.cz - 96 CPU in total, HD, 4 nodes with 24 CPUs, 384 GB RAM (Brno)

Stroje jsou přístupné přes prioritní frontu elixircz (PBS server @arien-pro), do které mají přístup pouze členové českého národního uzlu ELIXIR-CZ a jejich spolupracovníci. Členství ve skupině podléhá schvalování. Podmínky a další informace jsou uvedené na wiki https://wiki.metacentrum.cz/wiki/Elixir. Ostatní uživatelé MetaCentra budou moci brzy nové clustery využít v běžných krátkých frontách.

Popis a nastavení fronty: https://metavo.metacentrum.cz/pbsmon2/queue/elixircz

Vzorový qsub:

$ qsub -q elixircz@arien-pro.ics.muni.cz -l select=1:ncpus=2:mem=2gb:scratch_local=1gb -l walltime=24:00:00 muj_script.sh

Quickstart: https://wiki.metacentrum.cz/w/images/f/f8/Quickstart-pbspro-ELIXIR.pdf
 

Stroje mají nainstalovaný OS Debian9. Případné problémy s během aplikací (chybějícími knihovnami apod.) na strojích s OS Debian9 nám, prosím, neprodleně hlaste na meta@cesnet.cz .
V případě problémů s kompatibilitou vyzkoušejte přidání modulu debian8-compat.
 


Ivana Křenková, Fri Apr 06 15:35:00 CEST 2018