Výpadky

Tyto výpadky můžete číst jako RSS.

18-22.10.2024 - Neplánovaný výpadek s'íťového připojení v Plzni na sále NITS

 

Vážení uživatelé,

od dnešního odpoledne jsou, kvůli výpadku síťového připojení, nedostupné clustery konos a kubus, umístěné na sále NTIS. Nový switch se podaří zajistit až v průběhu příštího týdne,

Pokud je to možné, používejte prozatím ostatní stroje v jiných lokalitách

S díky za pochopení,

 tým MetaCentra

 

 

 


Ivana Křenková, Fri Oct 18 15:00:00 CEST 2024

12.10.2024 - Neplánovaný výpadek pole storage/brno12-cerit/

Aktualizace 13:00: diskové pole je zpět v provozu 

--

Vážení uživatelé,

od dnešního dopoledne je nedostupné diskové pole /storage/brno12-cerit/, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.

Pokud je to možné, používejte prozatím ostatní storage a frontendy.

S díky za pochopení,

 tým MetaCentra

 

 

 


Ivana Křenková, Sat Oct 12 15:00:00 CEST 2024

18-19.8.2024 - Neplánovaný výpadek pole storage/brno12-cerit/ a frontendu zuphux

aktualizace 26.8. 15:00: diskové pole je zpět v provozu a data by měla být čitelná. Případné problémy prosím hlaste. Děkujeme za pochopení.

 

aktualizace 26.8. od 10:30: během dněšního dopoledne bude diskové pole krátce nedostupné, pokoušíme se znovuzpřístupnit nečitelná data. Omlouváme se za kompliace.

 

aktualizace 20.8.:

Velmi se omlouváme, od neděle se potýkáme s velmi vážným HW problémem.
Malá část dat ve /storage/brno12-cerit je nyní kvůli poruše na jednom z diskových polí nedostupná, pokus o jejich čtení se projevuje jako Input/Output error (z pohledu bloků dat jde o zhruba 1.1 %, ale protože velké soubory nad 4MB se rozkládají přes více zařízení, je u nich pravděpodobnější, že je z nich dotčena alespoň nějaká část).
Závadu řeší podpora výrobce. Zatím nejsou tato data definitivně ztracena, ale momentálně nevíme, kdy se je podaří zpřístupnit ani zda budou nakonec všechna v pořádku. Pokud něco z nich potřebujete rychle, může být efektivnější znovu data načíst (pokud šlo o primární vstupy) nebo přepočítat, co je třeba.

Nyní /storage/brno12-cerit normálně běží a není zvláštní důvod předpokládat, že ostatní data jsou více ohrožena než obvykle. Může ještě dojít ke krátkodobému omezení provozu během oprav postiženého hardware.

Upozorňujeme, že vzhledem k prioritě navýšit maximální nabízenou úložnou kapacitu není možné provádět plnou zálohu všech dat na úložištích takového rozsahu.
Na zajištění plných záloh bychom potřebovali minimálně zdvojnásobit finance na nákup vhodného HW. Vzhledem k tomu, že archivní účely pokrývají disková pole Datových úložišť CESNET, a připravují se rovněž oborové repozitáře v rámci projektu EOSC, na našich diskových polích zálohujeme pouze formou tzvn. snapshotů. Ty nabízejí určitou ochranu pro případ, že uživatel neúmyslně odstraní některé své soubory. Obecně lze obnovit data, která existovala den před nehodou. Snapsoty jsou však uloženy na stejných diskových polích jako data samotná, takže v případě selhání hardwaru mohou být tyto zálohy ztraceny :-(  
https://docs.metacentrum.cz/data/metacentrum-backup/

Je nám to velmi líto, snažíme se udělat maximum pro to, abychom společně s dodavatelem HW nedostupná data obnovili.
Pokud svá data potřebujete velmi naléhavě, pošlete prosím úlohy do systému ještě jednou. V případě potřeby jsme schopni zvýšit vaši prioritu (aby se úlohy spustily co nejdříve).

Děkujeme za pochopení.

everything-fails-all-the -time-amazon

 

--

aktualizace 19.8.: diskové pole funguje pouze v omezeném režimu a dochází k nepánovaným krátkým výpadkům. Pokud možno omezte práci nad tímto polem. Pokoušíme se situaci stabilizovat.

aktualizace 18.8. ve 20 hodin: pole je zpět v provozu 

--

Vážení uživatelé,

aktuálně je nedostupné diskové pole /storage/brno12-cerit/ z důvodu selhání disků, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.

Pokud je to možné, používejte prozatím ostatní storage a frontendy.

S díky za pochopení,

 tým MetaCentra

 

 

 


Ivana Křenková, Sun Aug 18 15:00:00 CEST 2024

27.6.2024 - Neplánovany výpadek sítě v Brně Mendelu

 

---

Vážený uživateli,

Před chvílí došlo k výpadku sítě na páteřní síti v Brně (překopnutý kabel v lokalitě Mendelu), kvůli kterému došlo k nedostupnosti některých výpočetních clusterů v této lokalitě (tyra+aman+zenon). Výpadek jsme nahlásili a čekáme na náhradní přepojení k jinému okruhu.

Stroje běží, nemohou číst a zapisovat z diskových úložišť. U končících úloh data zůstanou ve scratchi (pokud jej úloha používá).

 

S omluvou a s díky za pochopení

Tým MetaCentrum

 

 


Ivana Křenková, Thu Jun 27 13:46:00 CEST 2024

od ledna 2024 - Odstavení archivního pole storage/du-cesnet/

Na archivním úložišti /storage/du-cesnet/ (du4.cesnet.cz) došlo v zimě k mechanické závadě páskového robota. Stále probíhá přenos dat na objektové úložiště a je velmi omezen přístup k datům nacházejícím se na páskách. Po domluvě s kolegy z DU jsme odstranili přístup na zmíněné úložiště z našich strojů (kvůli zrychlení přenosu). Pokud svá data potřebujete prioritně, kontaktujte datová úložiště CESNETu du-support@cesnet.cz.

Omlouváme se za potíže.

S díky za pochopení,

 tým MetaCentra

 

 

 


Ivana Křenková, Fri May 24 15:00:00 CEST 2024

23.5.2024 - Výpadek pole storage/brno12-cerit/ a frontendu zuphux

aktualizace: 23.5. v 9:30 opět v provozu

--

Vážení uživatelé,

aktuálně je nedostupné diskové pole /storage/brno12-cerit/ z důvodu poruchy řadiče, na odstranění problému pracujeme. Během dopoledne jej vrátíme do provozu. Také frontend zuphux je nedostupný.

Pokud je to možné, používejte prozatím ostatní storage a frontendy.

S díky za pochopení,

 tým MetaCentra

 

 

 


Ivana Křenková, Thu May 23 15:00:00 CEST 2024

13.5.2024 - Výpadek pole storage/brno12-cerit/ a frontendu zuphux

 

Aktualizace 13.5.2024 11:30: pole je opět plně funkční

---

Vážení uživatelé,

aktuálně je nedostupné diskové pole /storage/brno12-cerit/, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.

Pokud je to možné, používejte prozatím ostatní storage a frontendy.

S díky za pochopení,

 tým MetaCentra

 

 

 


Ivana Křenková, Mon May 13 15:00:00 CEST 2024

19.-24. 4.2024 - Plánované výpadky páteřní sítě

Vážení uživatelé

ve dnech 19. - 21. 4. a 24. 4. v odpoledních/večerních/nočních hodinách proběhne upgrade software v páteřních směrovačích sítě. Výpadek bude v uvedených časech a v rozmezí 30 - 60 minut (viz přiložený rozpis).

=======================================================================

*pátek 19.4.2023 17:00 - 21:00 * - Praha-Sitel, Plzeň1,2

*pátek 19.4.2023 20:00 - 00:00* - Jihlava

*sobota 20.4.2023 15:00 - 19:00* - Praha - ÚMG - UJV Řež

*sobota 20.4.2023 19:00 - 00:00* - Olomouc1,2 - České Budějovice

*neděle 21.4.2023 00:00 - 05:00 - *Praha1 - Brno1

*středa 24.4.2023 00:00 - 05:00 - *Praha2 - Brno2


Ivana Křenková, Fri Apr 19 13:46:00 CEST 2024

11.3.2024 do 18 hodin - Plánovaná údržba MetaCentrum Cloudu

Vážení uživatelé a uživatelky Metacentrum OpenStack cloudu,

Dnes 11.3.2024 (pondělí) dopoledne a část odpoledne (do cca 18:00) nebude dostupná nová instance e-INFRA CZ G2 OpenStack cloudu v Brně [1], došlo k neplánovanému výpadku v souvislosti s plánovanou údržbou. Nedostupnost se týká všech API služeb, již běžící VM servery zůstávají funkční. Hlavní G1 OpenStack cloud v Brně [2] funguje bez omezení.

 

[1] https://brno.openstack.cloud.e-infra.cz/

[2] https://cloud.metacentrum.cz/ https://cloud.muni.cz/

 

Děkujeme za pochopeni,
Tým MetaCentrum Cloud


Ivana Křenková, Mon Mar 11 13:46:00 CET 2024

7.3.2024 - Výpadek pole storage/brno12-cerit/ a frontendu zuphux

Aktualizace stavu: od 10 hodin je diskové pole zpět plně funkční

 

Vážení uživatelé,

aktuálně je nedostupné diskové pole /storage/brno12-cerit/, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.

Pokud je to možné, používejte prozatím ostatní storage a frontendy.

S díky za pochopení,

 tým MetaCentra

 

 

 


Ivana Křenková, Thu Mar 07 15:00:00 CET 2024

7.2.2024 - Výpadek pole storage/brno12-cerit/ a frontendu zuphux

aktualizace 11:50 - diskové pole je už opravené a znovu dostupné

 

Vážení uživatelé,

aktuálně je nedostupné diskové pole /storage/brno12-cerit/, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.

Pokud je to možné, používejte prozatím ostatní storage a frontendy.

S díky za pochopení,

 tým MetaCentra

 

 

 


Ivana Křenková, Wed Feb 07 15:00:00 CET 2024

3. 2. 2024, od 9 hod. - Krátká odstávka diskového pole /storage/brno2

Kvůli nutné údržbě bude v sobotu 3. 2. 2024 od 9 hodin vypnuté diskové pole  /storage/brno2. Nebude možné se přihlásit na čelní uzly skirit, perian a onyx a pozastaví se spouštění nových úloh na brněnských klastrech spravovaných PBS serverem meta-pbs.metacentrum.cz. Odstávka by neměla být delší než hodinu.

Odstávka ovlivní rovněž OnDemand (diskové pole zde slouží jako /home).

S omluvou za komplikace,

Vaše MetaCentrum

 

 


Ivana Křenková, Fri Feb 02 13:46:00 CET 2024

11. 1. 2024, 15-15:45 - Výpadek pole brno2

Vážení uživatelé,

aktuálně je nedostupné pole "brno2" kvůli zatím nezjištěné diskové chybě. Také frontend skirit je nedostupný.

Na odhalení příčiny pracujeme.

Pokud je to možné, používejte prozatím ostatní storage a frontendy.

S díky za pochopení,

 tým MetaCentra

 

 

 


Ivana Křenková, Thu Jan 11 15:00:00 CET 2024

24.08.2023 - Plánovaný výpadek služby Galaxy

Vážení uživatelé,

Ve čtvrtek 24.8. proběhne migrace služby https://usegalaxy.cz do stabilnějšího prostředí VMWare. Součástí migrace je i přenesení uživatelských dat.

Služba bude nedostupná cca od 10:00 CEST (resp. může být střídavě dostupná, ale v tuto dobu již nezaručujeme korektní přenesení uživatelských dat), dokončení migrace očekáváme v odpoledních hodinách. Součástí je ale také změna adresy IP a záznamů DNS, jejichž propagace si vyžádá jistou dobu, plnou dostupnost tedy očekáváme až od pátku 25. 8. 2023.

 

S omluvou a s díky za pochopení,

Galaxy tým MetaCentra

 

 

 


Ivana Křenková, Wed Aug 23 03:00:00 CEST 2023

1.00.2023 16:00 - Plánovaný výpadek čelního uzlu elmo

Vážení uživatelé,

dne 1. 8. bude vypnutý čelní uzel elmo.elixir-czech.cz.

Pro přístup k výpočetním zdrojům prosím využijte v době výpadku jiný z čelních uzlů, viz https://docs.metacentrum.cz/basics/concepts/#frontends-storages-homes.

S omluvou a s díky za pochopení

Tým MetaCentrum

 

 

 


Ivana Křenková, Tue Aug 01 03:00:00 CEST 2023

14.07.2023 16:00 - Plánovaný výpadek sítě v lokalitě Průhonice

Vážený uživateli,

Dnes odpoledne (14. 7.) po 16. hodině dojde ke krátkým výpadkům datového připojení v lokalitě Průhonice (cluster ibot). Omezili jsme submit nových úloh na tento cluster, provoz obnovíme jakmile bude síťové připojení obnovené.

Bežícím úlohám, které kopírují výstup zpět na pole, se toto nepodaří a data zůstanou ve scratchi na příslušném uzlu, kde běžely. K datům na výpočetních uzlech se dostanete z libovolného frontendu následující zkratkou:

      go_to_scratch CELE_CISLO_ULOHY_VCETNE_NAZVU_PLANOVACE 
      např.   
      tarkil.grid.cesnet.cz$ go_to_scratch 79868.meta-pbs.metacentrum.cz

  

S omluvou a s díky za pochopení

Tým MetaCentrum

 

 

 


Ivana Křenková, Fri Jul 14 13:46:00 CEST 2023

7-10.7.2023 - Neplánovaný výpadek /storage/brno1-cerit/

Aktualizace: pole je zpomalené, na opravě pracujeme

-------

Vážený uživateli,

Dnes odpoledne (7. 7.) došlo k HW poruše diskového pole  /storage/brno1-cerit/. Na zprovoznění pracujeme ve spolupráci s dodavatelem.

Bežícím úlohám, které kopírují výstup zpět na pole, se toto nepodaří a data zůstanou ve scratchi na příslušném uzlu, kde běžely. K datům na výpočetních uzlech se dostanete z libovolného frontendu následující zkratkou:

      go_to_scratch CELE_CISLO_ULOHY_VCETNE_NAZVU_PLANOVACE 
      např.   
      tarkil.grid.cesnet.cz$ go_to_scratch 79868.meta-pbs.metacentrum.cz

Po dobu výpadku můžete používat ostatní frontendy https://wiki.metacentrum.cz/wiki/Frontend a disková pole.

  

S omluvou a s díky za pochopení

Tým MetaCentrum

 

 


Ivana Křenková, Fri Jul 07 13:46:00 CEST 2023

20.6.2023 17:00-22:00 - Plánovaná údržba MetaCentrum Cloudu

Vážení uživatelé a uživatelky Metacentrum OpenStack cloudu [1],

Dnes v úterý 20.6. v podvečer 17-22:00 dojde k rekonfiguraci blokového úložiště Metacentrum OpenStack cloudu tak abychom zvýšili kapacitu.
Ze zkušeností vidíme že i prostá rekonfigurace způsobí krátký výpadek (10-30min) v souvislosti s približně 3K volumy které jsou nyní naalokovány. Běžící VM nebudou nikterak ovlivněny, Hlavní API OpenStacku bude dostupné stejně jako Horizon UI, Cinder blokové úložiště a API bude dočasně nedostupné a tedy nebude možné vytvářet volumy.

Děkujeme za pochopeni,
Tým MetaCentrum Cloud

[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz

 


Ivana Křenková, Tue Jun 20 13:46:00 CEST 2023

19.-???. 6.2023 - Hardwarová porucha diskového pole brno2

Vážení uživatelé,

kvůli hardwarové poruše diskového pole je aktuálně nedostupné úložiště brno2.

V důsledku toho také nefunguje přihlášení na čelní uzly skirit, perian a onyx.

Aktuálně nejsme ještě schopni odhadnout kdy/zda bude pole beze ztráty dat zprovozněno.

Jakmile zjistíme více, budeme vás bezodkladně informovat.



S omluvou za komplikace,

váš tým MetaCentra

 

 

 


Ivana Křenková, Mon Jun 19 09:00:00 CEST 2023

12.-15. 5.2023 - Plánovaná odstávka klastru luna, frontendu luna a diskového pole storage/praha6-fzu/

Vážení uživatelé,

12. -15. 5. proběhne plánovaná odstávka vetšiny serverů v serverovně na FZÚ AV ČR kvůli pravidelné každoroční revizi trafostanice. Odstávka bude zahrnovat všechny uzly clusteru luna, včetně frontendu luna a diskového pole storage-praha6-fzu. Odstávku využijeme rovněž k výměně vadných RAM v některých serverech.
Za vzniklé komplikace se omlouváme.

Tým Metacentra
 

 

 


Ivana Křenková, Thu May 04 14:30:00 CEST 2023

18-24.3.2022 - Neplánovaný výpadek /storage/brno2/

Aktualizace 27. 03. 2023: Vyskytl se další problém, bude odstraněn během několika málo hodin. prosíme o trpělivost. V odpoledních hodinách bylo diskové pole vráceno do provozu.

 

Aktualizace 24. 03. 2023: Diskové pole /storage/brno2/ je zpět v plném provozu. Data zůstala neporušena.

----

Vážený uživateli,

V sobotu odpoledne (18. 3.) došlo k HW poruše diskového pole  /storage/brno2/. Na zprovoznění pracujeme ve spolupráci s dodavatelem. Zatím nedokážeme říci, kdy bude pole zprovozněno. Dodavatel postupuje opatrně, abychom nepřišli o uložená data.

Nejde se přihlásit na frontendy, kde toto pole slouží jako /home (skirit, onyx), a na pole nejde přistupovat ani odjinud (z jiných frontendů ani serverů). Postižený je rovněž OnDemand.

Bežícím úlohám, které kopírují výstup zpět na pole, se toto nepodaří a data zůstanou ve scratchi na příslušném uzlu, kde běžely. K datům na výpočetních uzlech se dostanete z libovolného frontendu následující zkratkou:

      go_to_scratch CELE_CISLO_ULOHY_VCETNE_NAZVU_PLANOVACE 
      např.   
      tarkil.grid.cesnet.cz$ go_to_scratch 79868.meta-pbs.metacentrum.cz

Po dobu výpadku můžete používat ostatní frontendy https://wiki.metacentrum.cz/wiki/Frontend a disková pole.

  

S omluvou a s díky za pochopení

Tým MetaCentrum

 

 


Ivana Křenková, Sat Mar 18 13:46:00 CET 2023

20-21.10.2022 - Neplánovany výpadek sítě v Brně

Update

Metacentrum OpenStack (CESNET_MCC), Stav 2022-10-21 9:00
Openstack je funkční, ale omezené množství serverů/hypervisorů, na kterých běží cca 40 virtuálních počítačů, je bez sítě. Pracujeme na migraci virtuálních strojů tam, kde je to možné.

---

Vážený uživateli,

Dnes pozorujeme četné krátkodobé výpadky na lokální síti v Brně, kvůli kterému docházi ke krátkodobé nedpstupnosti plánovacího systému a některých strojů. Po příčině pátrají místní síťaři.

 

 

 

S omluvou a s díky za pochopení

Tým MetaCentrum

 

 


Ivana Křenková, Thu Oct 20 13:46:00 CEST 2022

1. 9.2022 - Plánovaná odstávka klastrů lex, krux a zubat a úložiště brno14-ceitec

Vážení uživatelé,

ve čtvrtek 1. 9. bude přerušená dodávka elektrické energie v serverovně CEITEC. V důsledku toho budou od 5:00 do 12:00 nedostupné klastry krux, lex a zubat. Rovněž bude nedostupné úložiště brno14-ceitec.


Úlohy běžící na dotčených klastrech budou po dobu odstávky automaticky v PBS pozdrženy a spuštěny po opětovném zapnutí strojů.

Úlohy běžící na jiných klastrech, které však zapisují nebo čtou data do/z úložiště brno14-ceitec mohou být odstávkou ovlivněny. Pokud dojde k pádu úlohy krátce po jejím spuštění, počkejte až bude úložiště brno14-ceitec opěrt dostupné a poté úlohu spusťte znova. Pokud dojde k pádu končící úlohy v důsledku nemožnosti zkopírovat výsledná data do domovského adresáře na brno14-ceitec, zkopírujte si data ručně ze scratche.
 


Za vzniklé komplikace se omlouváme.

Tým Metacentra
 

 

 


Ivana Křenková, Tue Aug 23 14:30:00 CEST 2022

14.7.2022 - Výpadek úložiště /storage/liberec3-tul, frontendu charon a clusteru charon

Vážení uživatelé,

ve čtvrtek 14. 7. bude přerušena dodávka elektrického proudu v prostorách Technické univerzity Liberec. V důsledku toho nebude dostupné pole /storage/liberec3-tul, frontend charon.nti.tul.cz a výpočetní klastr charon. Výpadek bude trvat po celý den.

Není nutná žádná akce ze strany uživatelů. Úlohy, u kterých by hrozilo, že do zahájení odstávky nedoběhnou, budou automaticky v PBS pozdrženy a spuštěny po opětovném zapnutí strojů.

Za vzniklé komplikace se omlouváme.

Tým Metacentra
 

 

 


Ivana Křenková, Mon Jul 11 14:30:00 CEST 2022

1.7.2022 - Neplánovaný výpadek a rušení starého pole /storage/brno6/

Vážení uživatelé,

vzhledem k neplanované havárii pole /storage/brno6/, které jsme se chystali v nejbližších dnech kvůli stáří odstavit, jsme nuceni tento proces urychlit. Většinu svých dat z pole /storage/brno6/ najdete v adresáři /storage/brno2/home/LOGIN/brno6, kam jsme data průběžně stěhovali.

Poslední plná synchronizace proběhla v noci ze středy na čtvrtek, další částečná synchronizace probíhala v době výpadku. Některá data, ktera jste na pole nahráli v posledních hodinách tedy nemusí být ještě překopírovaná.

Pokud se nám staré pole podaří zprovoznit, pokusíme se data dosynchronizovat. Pole /storage/brno6/ bude zrušeno bez náhrady, pro práci s daty v Brně používejte prosím pole /storage/brno2/, kam byla data přenesena nebo případně jakékoliv jiné pole, které je k dispozici v MetaCentru. Symlink /storage/brno6/ vede na staré pole v poruš a bude zrušen společně s vypnutím HW.

 

S omluvou za komplikace,
vaše MetaCentrum


Ivana Křenková, Fri Jul 01 13:46:00 CEST 2022

24.6.2022 14:00-16:00 - Plánovaná údržba MetaCentrum Cloudu

Vážení uživatelé a uživatelky Metacentrum OpenStack cloudu [1],

na pátek 24.6.2022 od 14:00 do 16:00 plánujeme zátěžové testování cloudové infrastruktury.

Předpokládáme že toto zátěžové testování se obejde bez výpadku funkcionality, avšak během testů dojde k vysokému zatížení infrastruktury což se může projevit zvýšenými latencemi odezvy OpenStack API i UI.

Děkujeme za pochopeni,
Tým MetaCentrum Cloud

[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz

 


Ivana Křenková, Thu Jun 23 13:46:00 CEST 2022

2.6.2022 - Upgrade diskových polí /storage/praha1/ = /storage/vestec1-elixir/

update 3. 6. 15:30

Po upgradu diskového pole se objevily problémy s novým souborovým systémem. Problém byl ostraněn a pole je opět dostupné, můžete jej začít používat.

Za komplikace se omlouváme.

 

Upgrade HW diskového pole  /storage/praha1/ = /storage/vestec1-elixir/

Ve čtvrtek 2. 6. proběhne upgrade diskových polí v Praze (navýšení kapacity,  zvýšení redundance a rychlosti), během kterého bude nutné pole krátkodobě zastavit.

Pokud půjde vše podle plánu, dají se očekávat krátké výpadky pole storage-vestec1 (=praha1). V následujících dnech by pak mělo dojít k citelnému navýšení dostupné kapacity.

Zároveň dojde k navýšení kvóty na velikost uložených dat 0.5T -> 2TB a kvóty na počet souborů na 2 milióny.

 

Pokusime se co nejvice minimalizovat dopad na běžící úlohy, za případné potíže se předem omlouváme.

 

S omluvou za komplikace,

MetaCentrum

 

 

 

 

 


Ivana Křenková, Tue May 24 13:46:00 CEST 2022

23.5.2022 - Neplánovany výpadek napájení na sále A510

aktualizace 24. 5. 2022


Všechny služby OpenStack jsou nyní dostupné po neplánovaném výpadku napájení od 2022-05-22.

Nyní můžete spustit své virtuální počítače. Pokud se vyskytnou jakékoli problémy, kontaktujte nás prosím na adrese cloud@metacentrum.cz.

Omlouváme se za případné nepříjemnosti.

 --

 

Vážený uživateli,

V noci z 22. na 23. 5. května došlo k neplánovanému výpadku napájení na sále datacentra A510 (FI MU Brnno). Záložní napájení nenaběhlo. Většina systémů na sále běží, na zprovoznění MetaCentrumCloud pracujeme.

Výpadek se týká rovněž frontendu zuphux.cerit-sc.cz, některých clusterů a Rancheru (Kubernetes), které běží z cloudu.

S omluvou a s díky za pochopení

Tým MetaCentrum

 

 


Ivana Křenková, Mon May 23 13:46:00 CEST 2022

13.4.2022 12AM -8PM - Odstávka napájení na sále A510

Vážený uživateli služby MetaCentrum Cloud [1],

na středu 13. dubna 2022 v 12:00 až 20:00 je plánována odstávka části napájení datacentra A510. Odstávka by měla proběhnout bez výpadku a měla by trvat 1-2 hodiny.

Děkujeme za pochopeni,
Tým MetaCentrum Cloud
 

[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz

 


Ivana Křenková, Tue Apr 12 13:46:00 CEST 2022

7.-8.4.2022 - Odstávka MetaCentrum Cloudu

Aktualizace:

V MetaCentrum OpenStack cloud [1] neplánovaně pokračuje série síťových výpadků po včerejší rekonfiguraci HW síťových prvků. Předpokládaná doba, kdy může stáledocházet k výpadkům je pátek 8. 4. 2022 od 8:00 do 20:00.

Jde o prodloužení ohlášeného výpadku naplánovaného na 7. 4. 2022.

 
Děkujeme za pochopeni,
Tým MetaCentrum Cloud
 

---

Vážený uživateli služby MetaCentrum Cloud,

V MetaCentrum OpenStack cloud [1] bude probíhat ve čtvrtek 7. 4. 2022 od 7:00 do 20:00 plánovaná údržba sítě.  Důvodem této údržby bude povýšení verzí firmware síťových přepínačů a jejich následná rekonfigurace s cílem zlepšit jejich síťovou stabilitu. Předpokládáme že údržba se nijak neprojeví na přístupu k Openstack API a UI, nicméně na vybraných hypervizorech a na uživatelských VM tam běžících může docházet ke krátkým síťovým výpadkům.

Děkujeme za pochopeni,
Tým MetaCentrum Cloud

[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz

 


Ivana Křenková, Wed Apr 06 13:46:00 CEST 2022

28.3.2022 - Upgrade HW diskového pole /storage/praha5-elixir/

V pondělí 28. 3. proběhne upgrade diskového pole storage-praha5-elixir (navýšení kapacity, zvýšení redundance a rychlosti, upgrade OS frontendů, změna IP adres), během kterého bude nutné pole dočasně odstavit.

Během dne se dá očekávat občasná nedostupnost pole, nedoporučujeme v tu dobu pole používat.

S omluvou za komplikace,

MetaCentrum

 


Ivana Křenková, Tue Mar 22 13:46:00 CET 2022

4.3.2022 14:00 až 16:00 - Odstávka MetaCentrum Cloudu

Vážený uživateli služby MetaCentrum Cloud,

Metacentrum OpenStack cloud [1] bude mít v pátek 4.3.2022 od 14:00 do 16:00 plánovanou odstávku. Důvodem této odstávky bude migrování kontrolerů do nové lokace a také nasazování produkční podpory IPv6 adres.

Předpokládáme že nedostupnost Openstack API and UI bude méně než 15 minut pokud vše proběhne podle plánu. Běžící uživatelské virtuální stroje nebudou výpadkem zasaženy.

Děkujeme za pochopeni,
Tým MetaCentrum Cloud

[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz

 


Ivana Křenková, Wed Mar 02 13:46:00 CET 2022

4.3.2022 14:00 až 16:00 - Odstávka MetaCentrum Cloudu

Vážený uživateli služby MetaCentrum Cloud,

Metacentrum OpenStack cloud [1] bude mít v pátek 4.3.2022 od 14:00 do 16:00 plánovanou odstávku. Důvodem této odstávky bude migrování kontrolerů do nové lokace a také nasazování produkční podpory IPv6 adres.

Předpokládáme že nedostupnost Openstack API and UI bude méně než 15 minut pokud vše proběhne podle plánu. Běžící uživatelské virtuální stroje nebudou výpadkem zasaženy.

Děkujeme za pochopeni,
Tým MetaCentrum Cloud

[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz

 


Ivana Křenková, Wed Mar 02 13:46:00 CET 2022

26.1.2022 - Upgrade diskových polí /storage/praha1/, /storage/vestec1-elixir/ a /storage/praha5-elixir/

Upgrade HW diskového pole  /storage/praha1/ = /storage/vestec1-elixir/ a /storage/praha5-elixir/

Ve středu 26. 1. proběhne upgrade diskových polí v Praze (navýšení kapacity), během kterého bude nutné pole krátkodobě zastavit.

Pokud půjde vše podle plánu, dají se očekávat krátké výpadky pole storage-vestec1 (=praha1) dopoledne a storage-praha5-elixir odpoledne. V následujících dnech by pak mělo dojít k citelnému navýšení dostupné kapacity.

Pokusime se co nejvice minimalizovat dopad na běžící úlohy, za případné potíže se předem omlouváme.

 

S omluvou za komplikace,

MetaCentrum

 

 

 

 

 


Ivana Křenková, Tue Jan 25 13:46:00 CET 2022

21.1.2022 - Výpadek klastrů krux, zubat, lex

Výpadek klastrů krux, zubat, lex

Včera večer došlo k poruše chlazení v serverovně CEITECu, kde jsou umístěny výpočetní uzly krux, zubat a lex. Tyto clustery jsou dočasně mimo provoz. Budou vráceny do provozu po odstranění poruchy.

S omluvou za komplikace,

vaše Metacentrum

 

 

 


Ivana Křenková, Fri Jan 21 13:46:00 CET 2022

12.1.2022 - Odstávka MetaCentrum Cloudu

Vážený uživateli služby MetaCentrum Cloud,

dovolte nám Vás informovat o plánovaném výpadku. Ve středu 12.1.2022 od 9:00 do 16:00 bude probíhat aktualizace infrastruktury MetaCentrum Cloudu z důvodu příprav na přidání podpory IPv6.

Nepředpokládáme žádné komplikace, avšak budeme rádi za zpětnou vazbu v případě jakýchkoli problémů v průběhu aktualizace.

Děkujeme za pochopeni,
Tým MetaCentrum Cloud

 


Ivana Křenková, Mon Jan 10 13:46:00 CET 2022

16.12.2021 - Výpadek klastrů krux, zubat, lex, čelního uzlu perian a brno9-ceitec

Výpadek klastrů krux, zubat, lex, čelního uzlu perian a brno9-ceitec

Ve čtvrtek 16. 12. cca od 7 h ráno dojde k plánovanému přerušení dodávky proudu v serverovně CEITECu, kde jsou umístěny výpočetní uzly krux, zubat a lex, čelní uzel perian a úložiště brno9-ceitec. Tyto stroje budou v době výpadku nedostupné. Předpokládané trvání odstávky je do 12:00.

S omluvou za komplikace,

vaše Metacentrum

 

 

 


Ivana Křenková, Mon Dec 13 13:46:00 CET 2021

1.-2.12.2021 - Upgrade diskového pole /storage/brno6/

Upgrade HW diskového pole /storage/brno6/

Od středy 1. 12. od 18 hodin do čtvrtka 2. 12. 12 hodin bude probíhat poslední etapa přesunu dat ze starého pole /storage/brno6/ na nový hardware. Bude probíhat finální synchronizace nejnovějších dat mezi starým a novým polem. Pokud možno omezte po tuto dobu práci nad tímto polem.

Téměř po celou dobu synchronizace bude /storage/brno6/ přístupný pro čtení i zápis, na závěr proběhne přepnutí polí, během kterého mohou být data na /storage/brno6 krátkodobě nedostupná. Běžící procesy, které používají dlouhodobě otevřené soubory přímo ve /storage/brno6, mohou po přepnutí havarovat.
 

/storage/brno6/
storage-brno6.metacentrum.cz



Míra ovlivnění běžících úloh v době přepojování:


Úlohy pracující s daty uloženými/ukládanými na jiných diskových polích ovlivněny nebudou.

S omluvou za komplikace,

MetaCentrum

 

 

 

 

 


Ivana Křenková, Tue Nov 30 13:46:00 CET 2021

21.10.2021 - Odstávka MetaCentrum Cloudu

Vazeny uzivateli sluzby MetaCentrum Cloud,

dovolte nám Vás informovat o plánovaném výpadku API a dashboard komponenty cloudu 'Cloud MetaCentrum' (OpenStack). Tento planovany vypadek je z důvodu upgradu reverzní proxy. Výpadek ovlivni přístup k Openstacku přes API a dashboard, Vaše virtuální stroje by jim neměly byt ovlivněné. Výpadek je naplánovaný na 21.10.2021 v čase od 8:30 do 16:00.

Děkujeme za pochopeni,
Tým MetaCentrum Cloud

 


Ivana Křenková, Thu Oct 14 13:46:00 CEST 2021

5.10.2021 - Neplánovaný výpadek pole /storage/budejovice1/ a clusteru hildor

Dnes v noci došlo k neplánovanému výpadku napájení na sále v Českých Budějovicích, závadu se snažíme ve spolupráci s místními správci lokalizovat a opravit.  Diskové pole  /storage/budejovice/home/ je dočasně nedostupné, stejně tak cluster hildor.

Velmi se omlouváme za způsobené komplikace.

Vaše MetaCentrum

 

 


Ivana Křenková, Tue Oct 05 13:46:00 CEST 2021

5.10.-7.10.2021 - Plánovaná odstávka klastru luna, frontendu luna a úložiště storage-praha6-fzu

Kvůli výměně hardware bude klastr luna, frontend luna a úložiště storage-praha6-fzu dočasně odstaveno. Odstávka začne v 7:00 v úterý 5. 10. a skončí ve 12:00 ve čtvrtek 7. 10.
 

Děkujeme za pochopení.

 

Vaše MetaCentrum

 

 


Ivana Křenková, Mon Oct 04 13:46:00 CEST 2021

27.8.2021 - Neplánovaný výpadek pole /storage/budejovice1/

Včera došlo k neplánovanému výpadku síťové konektivity  diskového pole v Českých Budějovicích, závadu se snažíme ve spolupráci s místními správci lokalizovat a opravit.  Diskové pole  /storage/budejovice/home/ je dočasně nedostupné. Samotné úložiště je plně funkční, jen nejde přistupovat k datům. V tuto chvíli nejsme schopni odhadnout dobu výpadku.

Velmi se omlouváme za způsobené komplikace.

Vaše MetaCentrum

 

 


Ivana Křenková, Thu Aug 26 13:46:00 CEST 2021

29.7.-1.8.2021 - Upgrade diskového pole /storage/brno2/

Aktualizace 30. 7. 2021

Data jsou přenesená nové pole je přepnuté, v případě problémů se neváhejte ozvat.

Na poli byly nastaveny kvóty na počet a velikost souborů, standardně 3 TB a 2 milióny souborů.

 

Upgrade HW diskového pole /storage/brno2/

Od čtvrtka 29. 7. do neděle 1.8 bude probíhat poslední etapa přesunu dat ze starého pole /storage/brno2/ na nový hardware. Bude probíhat finální synchronizace nejnovějších dat mezi starým a novým polem. Vzhledem k enormnímu množství dat odhadujeme, že synchronizace bude trvat několik dní, prosíme tedy o trpělivost. Pokud možno omezte po tuto dobu práci nad tímto polem.

Téměř po celou dobu synchronizace bude /storage/brno2/ přístupný pro čtení i zápis, na závěr proběhne přepnutí polí, během kterého mohou být data na /storage/brno2 krátkodobě nedostupná.
 

/storage/brno2/
storage-brno2.metacentrum.cz



Míra ovlivnění běžících úloh v době přepojování:


Úlohy pracující s daty uloženými/ukládanými na jiných diskových polích ovlivněny nebudou.

Data zapsána do /storage/brno2/ během synchornizace polí mohou zůstat nepřenesená na původním poli, storage-brno6:~/../fsbrno2/home/$LOGNAME, a budete si je muset dokopírovat individuálně.


Politika zálohovaní

Připomínáme, že velká disková pole nejsou kompletně zálohovaná, na polích se prováději tzvn. Snapshoty (ukládají se na tom samém poli). Proto data nejsou chráněná v případě celkového selhání takového diskového pole (jako v případě brno6). Pokud máte data určená k archivaci, uchovávejte si primární kopii také někde jinde anebo data svěřte Datovým úložištím CESNETu.

Více se dočtete v politice zálohování: https://wiki.metacentrum.cz/wiki/Politika_zalohovani

Seznam diskových polí https://wiki.metacentrum.cz/wiki/NFS4_Servery

O znovu zprovoznění pole budeme informovat na webu.

Omlouváme se za nepohodlí, děláme to pro vás.

MetaCentrum

 

 

 

 


Ivana Křenková, Thu Jul 22 13:46:00 CEST 2021

22.-27.4.2021 - Upgrade diskového pole /storage/plzen1/

Aktualizace 26. 4. 2021 -- data jsou přenesená nové pole je přepnuté, ale máme hlášené občasné problémy se stabilitou nového diskového pole. Intenzivně pracujeme na vyřešení problému se stabilitou. Prosíme o trpělivost.

Data z období stěhování jsou k dispozici na starém poli, přejmenovaném na storage-plzen1a.metacentrum.cz.

Připomínáme že na storagích nelze pracovat intraktivně (viz https://wiki.metacentrum.cz/wiki/Working_with_data#ssh_protocol). Obsah svého domovského adresáře na odpojeném storagi si můžete prohlédnout příkazem

ssh user_name@storage-plzen1a.metacentrum.cz ls

Data zkopírujete příkazem

scp  user_name@storage-plzen1a.metacentrum.cz:~/some_directory .

 

Upgrade HW diskového pole /storage/plzen1/

 

Od čtvrtka 22. 4. do neděle 25.4 bude probíhat poslední etapa přesunu dat ze starého pole storage-plzen1 (/storaga/plzen1/) na nový hardware. Bude probíhat finální synchronizace nejnovějších dat mezi starým a novým polem. Vzhledem k enormnímu množství dat odhadujeme, že synchronizace bude trvat několik dní, prosíme tedy o trpělivost. Pokud možno omezte po tuto dobu práci nad tímto polem.

 

/storage/plzen1/

Míra ovlivnění běžících úloh v době přepojování:

 

Politika zálohovaní

Připomínáme, že velká disková pole nejsou kompletně zálohovaná, na polích se prováději tzvn. Snapshoty (ukládají se na tom samém poli). Proto data nejsou chráněná v případě celkového selhání takového diskového pole (jako v případě brno6). Pokud máte data určená k archivaci, uchovávejte si primární kopii také někde jinde anebo data svěřte Datovým úložištím CESNETu.

Více se dočtete v politice zálohování: https://wiki.metacentrum.cz/wiki/Politika_zalohovani

 

Seznam diskových polí https://wiki.metacentrum.cz/wiki/NFS4_Servery

 

 

 

O znovu zprovoznění pole budeme informovat na webu.

 

Omlouváme se za nepohodlí, děláme to pro vás.

MetaCentrum

 

 


Ivana Křenková, Thu Apr 15 13:46:00 CEST 2021

3. 2. - Upgrade diskového pole /storage/praha1/, /storage/praha6-fzu, odstávka clusterů adan, tarkil, luna

Upgrade HW diskového pole

Ve středu 3. 2. dojde k výměně HW starého diskového pole storage-praha1.metacentrum.cz /storage/praha1/

storage-praha1-metacentrum.cz

 

Míra ovlivnění běžících úloh v době přepojování:

 

Politika zálohovaní

Připomínáme, že velká disková pole nejsou kompletně zálohovaná, na polích se prováději tzvn. Snapshoty (ukládají se na tom samém poli). Proto data nejsou chráněná v případě celkového selhání takového diskového pole (jako v případě brno6). Pokud máte data určená k archivaci, uchovávejte si primární kopii také někde jinde anebo data svěřte Datovým úložištím CESNETu.

Více se dočtete v politice zálohování: https://wiki.metacentrum.cz/wiki/Politika_zalohovani

 

Seznam diskových polí https://wiki.metacentrum.cz/wiki/NFS4_Servery

 

Velmi se omlouváme za způsobené komplikace.

MetaCentrum

 

 


Ivana Křenková, Fri Jan 29 13:46:00 CET 2021

5.-6.12.2020 - Plánovaná oprava elektrických rozvodů na sále v Praze

Vážení uživatelé,

ve dnech 5. a 6. 12. bude probíhat oprava elektrických rozvodů v Praze. Po dobu opravy bude vypnut cluster tarkil. Diskové pole /storage/praha1/ se budeme snažit udržet v provozu ze záložního zdroje.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

MetaCentrum

 

 


Ivana Křenková, Tue Nov 24 15:50:00 CET 2020

22.10.2020 - Neplánovaný výpadek síťové konektivity v Plzni a Českých Budějovicích

Vážení uživatelé,

Dnes došlo k neohlášenému technickému výpadku síťové konektivity v Plzni a Českých Budějovicích, v jehož důsledku mohou být nedostupné některé místní frontendy, clustery a disková pole. Na nápravě pracujeme.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

MetaCentrum

 

 


Ivana Křenková, Thu Oct 22 15:50:00 CEST 2020

22.-25.9.2020 - Neplánovaný výpadek chlazení na sále hostujícím clustery a diskové pole pro ELIXIR-CZ

update: 24. 09. 2020 14:01 výpadek chlazení stále trvá, nemáme informace, kdy bude opraveno.

 

Dobrý den,

včera v noci došlo k výpadku chlazení na servrovně a clustery elmo1 a 2 a také storage musely být vypnuty.

Na nápravě se pracuje, tak snad brzy budou zase přístupy možné.

S omluvou za komplikace

Vaše MetaCentrum


 

 


Ivana Křenková, Wed Sep 23 13:46:00 CEST 2020

15. -. 16. 9. 2020 - Plánovaný upgrade sítě v Praze

15. a 16. 9. dojde ve večerních hodinách k upgrade SW na routerech v Praze Dejvicích. Při
upgrade bude docházet k cca 30 minutovým výpadkům sítě na jednotlivých routerech.

V úterý 15. září od 22:00 do 01:00

- přípojka pro cluster TARKIL - L2 propoj ke clusteru ARUBA
- přípojka pro cluster SKURUT FZU - globální tabulka - primární
- přípojka pro cluster SKURUT FZU - L3 VPN LHCONE - backup

Ve středu 16. září od 20:00 do 23:00

- přípojka pro cluster SKURUT - globální tabulka - backup
- přípojka pro cluster SKURUT - L3 VPN LHCONE - primarní
- přípojka pro cluster Elixir na UOCHB
- přípojka pro cluster na (luna, kalpa) FZU
- přípojka GEANTu do LHCONE


Předpokládáme, že k výpadku dojde asi půl hodiny po začátku okna.

Cluster SKURUT by měl být dostupný stále. Ty ostatní spoje však zálohu nemají.

Velmi se omlouváme za způsobené komplikace.

Vaše MetaCentrum

 

 


Ivana Křenková, Fri Sep 11 13:46:00 CEST 2020

2-3.8.2020 - Neplánovaný výpadek pole /storage/praha1/

Dnes v noci došlo k neplánovanému výpadku HW/SW diskového pole v Praze, závadu se snažíme lokalizovat a opravit.  Diskové pole  /storage/praha1/home/ je dočasně nedostupné, problematický je i čelní uzel tarkil a clustery, které mají na tomto poli home adresář (adan, luna, kalpa, tarkil...)   

Velmi se omlouváme za způsobené komplikace.

Vaše MetaCentrum

 

 


Ivana Křenková, Sun Aug 02 13:46:00 CEST 2020

16.7.2020 - Odstavka MetaCentrum Cloudu

Vazeny uzivateli sluzby MetaCentrum Cloud,

dovolte nam informovat Vas o planovanom vypadku sitoveho spojeni cloudu
'Cloud MetaCentrum' (OpenStack).  Tento  vypadek je naplanovan z duvodu
nutneho upgradu sitove vrstvy. Vypadek ovlivni vylucne sit, samotne
virtualni stroje by ovlivnene byt nemely. Vypadek je naplanovany na
16.07.2020 v case od 8:00 do 12:00. Behem vypadku nebude mozne
pristupovat k virtualnim strojum a ani virtualni stroje nebudou moci
pristupovat k internetu. Spustene vypocty na Vasich strojich by vsak
nemely byt ovlivneny.

Dekujeme za pochopeni,
Tým MetaCentrum Cloud

 


Ivana Křenková, Thu Jul 09 13:46:00 CEST 2020

27: 5. 2020 - Odstavka MetaCentrum Cloudu

Vážený uživateli služby MetaCentrum Cloud.

Dne 27.5.2020 dojde k plánové odstávce řídící vrstvy služby MetaCentrum Cloud (OpenStack) z důvodů upgrade verze OpenStacku (z verze Stein na Train). Výpadek bude začínat v 8:00 a bude pokračovat nejpozději do 18:00. V průběhu této odstávky nebude dostupné API OpenStacku pro management (včetně dashboardu). Připojení virtuálních instancí k internetu a jejich běh by měl zůstat zachován. Doporučujeme ale neplánovat na tento den kritické úlohy.

Děkujeme za vaši trpělivost

Tým MetaCentrum Cloud;

 


Ivana Křenková, Thu May 14 13:46:00 CEST 2020

16.-17.5.2020 - Odstavka klastru luna/Outage of the cluster luna, /storage/praha4-fzu/home/ a /storage/praha6-fzu/home/

O vikendu 16.5.-17.5. probehne odstavka vsech uzlu luna v dusledku planovaneho preruseni dodavky el. energie v arealu Slovanka. Tato odstavka se tyka take diskovych poli /storage/praha4-fzu/home/
a /storage/praha6-fzu/home/.

Vypnuti uzlu luna probehne v sobotu, 16.5. rano v 6 hod. Uzly i pole budou opet k dispozici v pondeli, 18.5. dopoledne.

Dekujeme za pochopeni.

Vaše MetaCentrum

 

 


Ivana Křenková, Mon May 11 13:46:00 CEST 2020

23. 4. 2020 - Neplánovaný výpadek pole /storage/budejovice1/

Dnes v noci došlo k neplánovanému výpadku HW/SW diskového pole v Českých Budějovicích, závadu se snažíme lokalizovat a opravit.  Diskové pole storage-budejovice1.metacentrum.cz /storage/budejovice1/home/ je dočasně nedostupné, problematický je i čelní uzel hildor, který má na tomto poli home adresář.   

 

Míra ovlivnění běžících úloh:

     * Úlohy pracující s daty uloženými/ukládanými na jiných diskových polích ovlivněny nebudou.

     * Úlohy pracující ve scratchi, které při ukončení výpočtu ověřují úspěšnost vykopírování výsledků na diskové pole (např. dle doporučovaného skeletu skriptu na https://wiki.metacentrum.cz/wiki/Working_with_data/Working_with_data_in_a_job), a které se budou v okamžiku odstávky pokoušet vykopírovat data na diskové pole /storage/budějovice1/ budou ovlivněny jen minimálně, svá data naleznete ve scratchi na příslušných strojích.

     * Úlohy, které jakkoliv pracují přímo nad daty diskového pole /storage/budejovice1/ (nedoporučený způsob práce s daty) budou ukončeny. 

 

Velmi se omlouváme za způsobené komplikace.

Vaše MetaCentrum

 

 


Ivana Křenková, Thu Apr 23 13:46:00 CEST 2020

19. 2. 2020, 13-14h - Odstávka diskových polí /storage/brno2 a /storage/brno6

Kvůli nutné údržbě budou 19. 2. 2020 mezi 13 a 14 h vypnuta disková pole  /storage/brno2 a /storage/brno6. Nebude možné se přihlásit na čelní uzly skirit a perian a pozastaví se spouštění nových úloh na brněnských klastrech spravovaných PBS serverem meta-pbs.metacentrum.cz

S omluvou za komplikace,

Vaše MetaCentrum

 

 


Ivana Křenková, Wed Feb 19 13:46:00 CET 2020

12.2.2020 - Výpadek PBS serveru cerit-pbs, aplikace PBSmon, část cloudu

Aktualizace: po poledni se podařilo problém se sítí vyřešit.

 

Opakované krátké výpadky segmentu univerzitní sítě v Brně způsobují výpadky PBS serveru cerit-pbs, nekatualizaci aplikace PBSmonu a částečné výpadky OpenStacku.

Na odstranění problémů pracujeme. 

S omluvou za komplikace,

Vaše MetaCentrum

 

 


Ivana Křenková, Wed Feb 12 13:46:00 CET 2020

11.2.2020 - Odstávka výpočetního uzlu charon

V úterý 11. 2. od 10 do 14 h dojde k plánované odstávce výpočetního clusteru charon.nti.tul.cz.

 

S omluvou za komplikace,

Vaše MetaCentrum

 

 


Ivana Křenková, Tue Feb 11 13:46:00 CET 2020

14-16.1.2020 - Plánovaná odstávka clusterů draba a carex a diskového pole /storage/pruhonice1-ibot/home

Ve dnech 14. - 16. 1. 2020 dojde k plánované odstávce clusterů carex.ibot.cas.cz a draba.ibot.cas.cz a diskového pole /storage/pruhonice1-ibot/home v Průhonicích.

 

S omluvou za komplikace,

Vaše MetaCentrum

 

 


Ivana Křenková, Tue Jan 07 13:46:00 CET 2020

16.12.2019 - Plánovaná odstávka cloud2.metacentrum.cz (OpenStack)

Vazeny pouzivatel sluzby MetaCentrum Cloud,

dovolte nam informovat Vas ohladom planovanej odstavky sluzieb
MetaCentrum Cloud (OpenStack) dna 16.12.2019 z dovodu upgradu verzie
OpenStacku (z verzie Rocky na Stein). Vypadok bude zacinat o 7:00 rano
a bude pokracovat najneskor do 6:00 popoludni. Pocas tohoto vypadku
nebude dostupne API OpenStacku pre management (vratane dashboardu).
Pripojenie virtualnych strojov k Internetu by malo fungovat pocas tohoto
vypadku, avsak nie je odporucane na nich pustat kriticke ulohy.

Dakujeme za Vasu trpezlivost.

Vaše MetaCentrum & Cloud Team

 

 


Ivana Křenková, Tue Dec 03 13:46:00 CET 2019

30. 10. 2019 - Neplánovaný výpadek napájení v serverovně UOCHB

Ve středu 30. 10. došlo kolem 15. hodiny k úplnému výpadku napájení na sále UOCHB, které postihlo clustery elmo1, elmo2 a diskové pole storage-praha5-elixir.metacentrum.cz (/storage/praha5-elixir/). Dodávka elektřiny byla obnovena po necelé hodině. Na zjištění důvodu výpadku správa budovy pracuje.

Velmi se omlouváme za způsobené komplikace.

Vaše MetaCentrum

 

 


Ivana Křenková, Wed Oct 30 13:46:00 CET 2019

21. - 22. 10. 2019 - Neplánovaný výpadek pole /storage/brno2/

V pondělí 21. 10. od 10:00 dojde, v důsledku neplánované odstávky dolního sálu v Brně na FI MU, k odstávce clusterů a diskového pole umístěných na tomto sále:
    

    Míra ovlivnění běžících úloh v době přepojování:

     * Úlohy pracující s daty uloženými/ukládanými na jiných diskových polích ovlivněny nebudou.

     * Úlohy pracující ve scratchi, které při ukončení výpočtu ověřují úspěšnost vykopírování výsledků na diskové pole (např. dle doporučovaného skeletu skriptu na https://wiki.metacentrum.cz/wiki/Working_with_data/Working_with_data_in_a_job), a které se budou v okamžiku odstávky pokoušet vykopírovat data na diskové pole/storage/brno2/budou ovlivněny jen minimálně, svá data naleznete ve scratchi na příslušných strojích.

     * Úlohy, které jakkoliv pracují přímo nad daty diskového pole /storage/brno2/(nedoporučený způsob práce s daty) budou ukončeny. 

Velmi se omlouváme za způsobené komplikace.

Vaše MetaCentrum

 

 


Ivana Křenková, Fri Oct 18 13:46:00 CEST 2019

4.9.2019 7-12 AM - Plánovaná odstávka cloud2.metacentrum.cz (OpenStack)


Dobry den,

dovolte nam informovat Vas o planovanom vypadku sietoveho spojenia cloudu 'Cloud2 MetaCentrum' (OpenStack). Tento planovany vypadok je z dovodu nutneho upgradu sietovej vrstvy. Vypadok teda ovplyvni vylucne siet, a vase virtualne stroje by nim nemali byt ovplyvnene. Vypadok je naplanovany na 4. 9. 2019.

Pocas vypadku nebude mozne pristupovat ku virtualnym strojom a ani virtualne stroje nebudu moct pristupovat k internetu. Vypocet Vasich strojov by vsak nemal byt ovplyvneny.



Dakujeme za pochopenie.

Vaše MetaCentrum & Cloud Team

 

 


Ivana Křenková, Thu Aug 29 13:46:00 CEST 2019

21.8.2019 7-10 AM - Plánovaná odstávka cloud2.metacentrum.cz (OpenStack)


Dobry den,

dovolte nam informovat Vas o planovanom vypadku sietoveho spojenia cloudu 'Cloud2 MetaCentrum' (OpenStack). Tento planovany vypadok je z dovodu nutneho upgradu sietovej vrstvy. Vypadok teda ovplyvni vylucne siet, a vase virtualne stroje by nim nemali byt ovplyvnene. Vypadok je naplanovany na 21.08.2019 v case od 7:00 do 10:00.

Pocas vypadku nebude mozne pristupovat ku virtualnym strojom a ani virtualne stroje nebudu moct pristupovat k internetu. Vypocet Vasich strojov by vsak nemal byt ovplyvneny.



Dakujeme za pochopenie.

Vaše MetaCentrum & Cloud Team

 

 


Ivana Křenková, Tue Aug 13 13:46:00 CEST 2019

17.7.2019 5-7AM - Plánovaná odstávka du2.cesnet.cz (/storage/jihlava2-archive/)

Ve středu 17. 7. dojde ke krátké odstávce úložiště v Jihlavě kvůli údržbě diesel agregátu.  Nebude dostupné archivní úložiště  du2.cesnet.cz (/storage/jihlava2-archive/) a pole ceph.

Velmi se omlouváme za způsobené komplikace.

Vaše MetaCentrum

 

 


Ivana Křenková, Tue Jul 16 13:46:00 CEST 2019

20.6.2019 - Neplánovaný výpadek síťové konektivity na sále CERIT-SC v Brně

Vážení uživatelé,

Dnes došlo k neohlášenému technickému výpadku síťové konektivity na sále v Brně, v jehož důsledku mohou být nedostupné frontendy, clustery a diskové pole Centra CERIT-SC a ELIXIR-CZ a MetaCloud. Na nápravě pracujeme.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

MetaCentrum

 

 


Ivana Křenková, Thu Jun 20 15:50:00 CEST 2019

26.4.2019 - Neplánovaný výpadek chlazení na sále CERIT-SC v Brně

Vážení uživatelé,

Dne 26. 4. v brzkých raních hodinách došlo k neohlášenému technickému výpadku (chlazení) na sále CERIT-SC  v Brně, v jehož důsledku mohou být nedostupné některé clustery a diskové pole Centra CERIT-SC. Na nápravě pracujeme, stroje postupně vracíme do provozu.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

MetaCentrum

 

update 26. 4. 2019 12:30 - všechny frontendy a všechna disková pole a většina postižených pracovních uzlů jsou zpět v provozu


Ivana Křenková, Fri Apr 26 15:50:00 CEST 2019

10.4.2019 - Neplánovaný výpadek pole du2.cesnet.cz (/storage/jihlava2-archive/)

Dnes 10. 4. došlo k neočekávané závadě napájení na sále v Jihlavě. Není dostupné archivní úložiště  du2.cesnet.cz (/storage/jihlava2-archive/).

Velmi se omlouváme za způsobené komplikace.

Vaše MetaCentrum

 

 


Ivana Křenková, Wed Apr 10 13:46:00 CEST 2019

12.3.2019 - Neplánovaný výpadek na sále CERIT-SC v Brně

Vážení uživatelé,

Dne 12. 3. ve 14 hodin došlo k neohlášenému technickému výpadku (napájení nebo síť) na sále CERIT-SC  v Brně, v jehož důsledku jsou mohou být nedostupné některé clustery a diskové pole Centra CERIT-SC. Rozsah výpadku upřesníme.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

MetaCentrum


Ivana Křenková, Tue Mar 12 15:50:00 CET 2019

8.3.2019 10-11h - Plánovaný výpadek síťové konektivity na sále FZU v Praze

Vážení uživatelé,

Dne 8. 3. 2019 dojde mezi 10. a 11. hodinou k plánovaném cca 10 minutovému výpadku sítě na sále FZU v Praze (upgrade firmware centrálního switche), v jehož důsledku budou krátce nedostupné clustery luna a kalpa a diskové pole /storage/praha4-fzu/home.

Velmi se omlouváme za způsobené komplikace.

MetaCentrum


Ivana Křenková, Thu Mar 07 15:50:00 CET 2019

20.2.2019 9-21h - Plánovaný výpadek napájení a konektivity na sále FZU v Praze

Vážení uživatelé,

Dne 20. 02. 2019 dojde mezi 9. a 21. hodinou k plánovaném výpadku napájení na sále FZU v Praze (pgrade síťového připojení na páteřní síť), v jehož důsledku budou nedostupné clustery luna a kalpa a diskové pole /storage/praha4-fzu/home.

Velmi se omlouváme za způsobené komplikace.

MetaCentrum


Ivana Křenková, Fri Feb 15 15:50:00 CET 2019

28.1.2019 - Neplánovaný výpadek pole /storage/praha1/

Dnes došlo k neočekávané poruše diskového pole /storage/praha1 a nelze se přihlásit na čelní a výpočetní uzly, které sdílejí /home s tímto polem (tarkil, luna). Pracujeme na odstranění příčiny. V tuto chvíli nedokážeme odhadnout, kdy se pole podaří vrátit do provozu.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum

 

 


Ivana Křenková, Mon Jan 28 21:46:00 CET 2019

9.-11.1. - Ukončení provozu diskového pole /storage/brno7-cerit/, vrácení do provozu /storage/brno6/

Ukončení provozu diskového pole, migrace dat

Ve středu 9. 1. bude ukončen provoz starého diskového pole storage-brno7-cerit.metacentrum.cz /storage/brno7-cerit/

 

Míra ovlivnění běžících úloh v době přepojování:

 

Vrácení /storage/brno6/ do provozu

V patek 4.1. bylo vráceno do provozu diskové pole storage-brno6.metacentrum.cz /storage/brno6/.

Porucha diskového pole byla velmi závažná, valnou většinu dat se naštěstí podařilo zachránit, ale  malá část dat (primárně těch, se kterými se manipulovalo v době poruchy) mohla být ztracena či poškozena.

Prosíme, překontrolujte si všechna svá data umístěná na poli /storage/brno6/.

 

Politika zálohovaní

Připomínáme, že velká disková pole nejsou kompletně zálohovaná, na polích se prováději tzvn. Snapshoty (ukládají se na tom samém poli). Proto data nejsou chráněná v případě celkového selhání takového diskového pole (jako v případě brno6). Pokud máte data určená k archivaci, uchovávejte si primární kopii také někde jinde anebo data svěřte Datovým úložištím CESNETu.

Více se dočtete v politice zálohování:

 

 

Velmi se omlouváme za způsobené komplikace.

MetaCentrum

Ivana Křenková, Sun Jan 06 13:46:00 CET 2019

12. - 13. 12. 2018 - Neplánovaný výpadek napájení a konektivity na sále FZU v Praze

Vážení uživatelé,

Dne 12. 12. bohužel došlo k neohlášenému výpadku napájení na sále FZU v Praze (původně šlo o plánované bezvýpadkové přepojování UPS), v jehož důsledku jsou mohou být nedostupné clustery luna a kalpa a je nedostupné diskové pole /storage/praha4-fzu/home. Pole a clustery by měly být zprovozněny následující den 13. 12. 2018

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

MetaCentrum


Ivana Křenková, Wed Dec 12 15:50:00 CET 2018

10.12.2018 - Přesun dat /storage/brno6/ --> /storage/brno1/

Z důvodu opakovaných HW výpadků diskového pole /storage/brno6/ došlo k přesunu všech dat na jiné diskové úložiště /storage/brno1/. Symlink /storage/brno6/ zůstal zachován.

Chybující pole jsme reklamovali dodavateli (výměna řadiče). Po opravě budou data vrácena do původního umístění.

 

Velmi se omlouváme za způsobené komplikace.

MetaCentrum

Ivana Křenková, Mon Dec 10 13:46:00 CET 2018

26-27.11.2018 - Neplánovaný výpadek pole /storage/brno6/

O víkendu došlo opakované HW poruše diskového pole /storage/brno6/home/. Vyhodnocujeme závažnost situace a společně s dodavatelem pracujeme na opravě. Snažíme se minimalizovat následky. Momentálně jsou data nedostupná.

Update 26.11.2018 15:00:  Kvůli obnově dat jsme pozastavili webové rozhraní OpenNebuly (https://cloud.metacentrum.cz/).

Velmi se omlouváme za způsobené komplikace.

MetaCentrum

Ivana Křenková, Mon Nov 26 13:46:00 CET 2018

23. 11. 15-16 hodin - Plánovaný upgrade diskového pole /storage/brno11-elixir/

Dnes mezi 15. a 16. hodinou dojde, z důvodu navýšení kapacity, ke krátkému 10 minutovému výpadku  diskového pole /storage/brno11-elixir/ (storage-brno11-elixir.metacentrum.cz). Po dobu výpadku nebude pole krátce dostupné.

Míra ovlivnění běžících úloh v době přepojování:

Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum


Ivana Křenková, Fri Nov 23 19:00:00 CET 2018

od 19.11.2018 - Neplánovaný výpadek pole /storage/brno6/

Dne 19. 11. došlo k neočekávané HW poruše diskového pole /storage/brno6/ a nelze se přihlásit na webové rozhraní OpenNebuly (https://cloud.metacentrum.cz/). 

21. 11.  se podařilo obnovit ze zálohy a znovu zprovoznit  https://cloud.metacentrum.cz/

Problém s přístupem na  /storage/brno6/home/ přetrvává.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum

 

 


Ivana Křenková, Mon Nov 19 13:46:00 CET 2018

26.-28.10.2018 - Trvalé odstavení hiearchického úložiště CESNETu

Vážený uživateli MetaCentra a datových úložišť CESNET,

rádi bychom Vás informovali, že hierarchické úložiště v Plzni (du1.cesnet.cz, v MetaCentru /storage/plzen2-archive) bude trvale odstaveno a zlikvidováno.

Pokud na tomto úložišti nemáte data, zbytek tohoto mailu pro Vás není relevantní.

Přenos všech Vašich dat z plzen2-archive bude proveden administrátory úložiště. V tomto mailu Vás seznámíme s harmonogramem a plánovaným postupem.

Data na /storage/plzen2-archive budou dne 26. 10. večer pro uživatele trvale znepřístupněna. Poté provedeme finální synchronizaci jejich aktuálního stavu do Ostravy, tj. du4.cesnet.cz, v MetaCentru /storage/du-cesnet (pozor, nový způsob pojmenování). Tam budou po dobu přesunu také pro uživatele nepřístupná.

Předpokládáme, že je zpřístupníme během večera v neděli 28. 10. Od toho okamžiku budou trvale dostupná v novém umístění v Ostravě.

Věnujte rovněž pozornost novým provozním pravidlům datových úložišť CESNETu, která zejména rozlišují politiku pro data trvalé hodnoty a pro dočasné zálohy. Na stránce https://du.cesnet.cz/cs/provozni_pravidla/start najdete plné znění pravidel, na https://du.cesnet.cz/cs/navody/faq/start#zachazeni_s_daty_typu_archiv_a_zalohy popis důležitých změn. Uživatelům MetaCentra jsou k dispozici obě politiky.

Data z Plzně považujeme za data trvalé povahy a budou přesunuta do trvalého archivu. Máte-li jakékoli dotazy nebo potřebujete-li s čímkoli pomoci, kontaktuje nás odpovědí na tento mail na support@cesnet.cz. Děkujeme za spolupráci.

S pozdravem,

Tým Metacentra a datových úložišť CESNET

 

 


Ivana Křenková, Wed Oct 24 13:46:00 CEST 2018

13.9.2018 - Neplánovaný výpadek pole /storage/brno2/

Dnes došlo k neočekávané poruše diskového pole /storage/brno2 a nelze se přihlásit na čelní a výpočetní uzly, které sdílejí /home s tímto polem.  Pole je od odpoledních hodin zpět v provozu.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum

 

 


Ivana Křenková, Thu Sep 13 13:46:00 CEST 2018

21.-23.5.2018 - Plánovaný restart cloudových strojů z důvodů plánované údržby a bezpečnostních aktulizací

Vážení uživatelé VO MetaCloud,
 
z důvodů plánované údržby a bezpečnostních aktulizací na fyzických strojích, dojde v první polovině příštího týdne k postupnému restartu virtuálních strojů umístěných na strojích dukan1.ics.muni.czdukan26ics.muni.cz a na stroji gorbag.ics.muni.cz. Informaci, zda bude Váš virtuální stroj zasažen, můžete ověřit skrze nástroj OpenNebula (https://cloud.metacentrum.cz/) v sekci Info u každého virtuálního stroje.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum & CERIT-SC

 

 


Ivana Křenková, Thu May 17 13:46:00 CEST 2018

12.2.2018 do 11 hodin - Neočekávaný výpadek svazku AFS

Aktualizace 2. 2. 2018 11 hodin:: závada byla odstraněna

 

O víkendu došlo k havárii AFS serveru, která vyvolala rovněž nečekané potíže v klinstké části AFS subsystému. V důsledku těchto poruch jsou nedostupné některé svazky na AFS (nejsou dostupné některé SW moduly) a nejde se přihlásit na některé výpočetní uzly a čelní uzly postižené výše zmíněnou chybou. Na opravě pracujeme.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum & CERIT-SC

 

 


Ivana Křenková, Mon Feb 12 13:46:00 CET 2018

5.2.2018 - Neplánovaný výpadek síťové konektivity v Brně

Kvůli výpadku síťové konektivity na sále v Brně nefungují služby vyžadující s´ťovou konektivitu hostované v lokalitě Brno -- MetaCloud, PBS servery, některé brněnské stroje, ... Na nápravě pracujeme.

Za komplikace se omlouváme,

MetaCentrum

 

 


Ivana Křenková, Mon Feb 05 22:00:00 CET 2018

od 8.1. - Reakce na bezpečnostní chyby v procesorech (Meltdown a Spectre)

Vážení uživatelé,

Administrátoři Metacentra sledují situaci ohledně nedávno zveřejných chyb v procesorech (známé pod jmény Meltdown a Spectre, pro více informací viz
https://spectreattack.com/).

Vyhodnocujeme reálné dopady zranitelností na infrastrukturu a možné způsoby, jak zabránit jejich zneužití. Dostupné aktualizace jsme aplikovali v prostředích VMWare a MetaCloudu. Pro část výpočetních uzlů sledujeme dostupné aktualizace a vyhodnocujeme jejich vliv na prostředí Metacentra. Instalace oprav budou provedeny v okamžiku, kdy budou dostatečně otestované a budou ověřena případná vykonnostní omezení. V tuto chvíli plánujeme postupnou instalaci aktualizací, ale bude-li to situace vyžadovat, můžeme přistoupit i k akcím, které vynutí okamžitý restart výpočetních zdrojů a zastavení všech aktivních úloh.

Zejména u chystaných dlouhých úloh prosím zvažte odložení jejich spuštění na pozdější dobu, zejména v případě, že vaše úlohy není možné restartovat.

Velmi se omlouváme za způsobené komplikace.
Vaše MetaCentrum


Ivana Křenková, Tue Jan 09 15:50:00 CET 2018

31.1.2017 - Neplánovaný výpadek napájení na sále FZU v Praze (cluster luna, kalpa)

Vážení uživatelé,

Dne 31.12. bohužel došlo k neohlášenému výpadku napájení na sále FZU v Praze (závada UPS), v jehož důsledku jsou nedostupné clustery luna a kalpa. Nedokážeme nyní odhadnout, kdy bude závada odstraněna.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
MetaCentrum


Ivana Křenková, Tue Jan 02 15:50:00 CET 2018

7.12.2017 - Plánovaný upgrade diskového pole /storage/budejovice1/

Ve čtvrtek 7.12. 2017 dojde k přepojování diskového pole /storage/budejovice1/ (storage-budejovice1.metacentrum.cz) na nový HW s vyšší úložnou kapacitou. Po dobu synchronizace dat se starým polem (několik hodin) bude pole nedostupné. Sdílený pracovní prostor hildor*:/scratch.shared, mountovaný z tohoto pole, nebude rovněž po dobu výpadku dostupný.

Míra ovlivnění běžících úloh v době přepojování:

Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum


Ivana Křenková, Thu Dec 07 19:00:00 CET 2017

28.11.2017 - Výpadek PBS serveru arien-pro v důsledku upgrade

Vážení uživatelé,

Vlivem chyby v nové verzi PBS Pro, kterou se nám nepodařilo zachytit na testbedu, došlo dnes dopoledne k vynulování walltime běžících úloh, následně PBS Pro chybně spočitalo využití CPU, velmi nadhodnotila využitý cpu čas a ukončila tak úlohy pro překročení CPU. Chybu jsme hlásili vývojářům PBS Pro a do opravy se vrátili k předchozí funkční verzi.

Omlouváme se za způsobené problémy.

Ivana Krenkova,
MetaCentrum
 

Ivana Křenková, Tue Nov 28 10:50:00 CET 2017

6.10.2017 7-10AM - Výpadek napájení na sále JU

Vážení uživatelé,

Z důvodu plánované odstávky napájení na sále Jihočeské univerzity v Českých Budějovicích v pátek 6.10. 2017 od 7:00 do 10 hodin budou vypnuté všechny stroje klastrů hildor/haldir/hagrid a diskové pole /storage/budejovice1/. Běžící úlohy budou při výpadku ukončeny. Diskové pole poběží na UPS, raději si ale data potřebná k výpočtům překopírujte na jiné pole, nemusí být po celou dobu výpadku dostupná.

Omlouváme se za způsobené problémy.

Ivana Krenkova,
MetaCentrum
 

Ivana Křenková, Thu Oct 05 10:50:00 CEST 2017

25. 7. 2017 - MetaCloud: aktualizace firmware na dukan19 – dukan25

Vážený uživateli MetaCloudu,

vzhledem k naléhavé potřebě aktualizovat firmware na cloudových uzlech dukan19 – dukan25, budeme muset na chvíli zastavit virtuální stroje umístěné na těchto uzlech. Zásah jsme naplánovali na úterý 25. července. Toho dne bude každý uzel a tedy i každý virtuální stroj zhruba 20 minut vypnutý. Dotčené stroje po zásahu znovu automaticky spustíme. Nedojde k žádné ztrátě dat. Dotčené uživatele jsme upozornili e-mailem.

S omluvou za komplikace,

Váš MetaCloud tým


Ivana Křenková, Tue Jul 25 13:50:00 CEST 2017

5. 6. 2017 - MetaCloud: migrace virtuálních strojů z uzlů dukan1- 10

Vážení uživatelé MetaCloudu,

v pondělí 5. června provedeme migraci virtuálních strojů z uzlů dukan1- 10.

V průběhu migrace budou stroje po dobu několika minut vypnuté tudíž nedostupné. Nedojde k žádné ztrátě dat. Zvláštní pozornost je třeba věnovat strojům s privátními síťovými adresami (nyní v rozsahu 10.4.0.*). Vzhledem ke konfiguraci sítě jim budeme muset změnit privátní IP adresy. Prosím, po tomto datu si vyhledejte nové adresy svých strojů v rozhraní MetaCloudu. Dotčené uživatele jsme na tuto skutečnost upozornili také samostatnou e- mailovou zprávou.

S pozdravem

MetaCloud tým

 


Ivana Křenková, Mon May 29 13:50:00 CEST 2017

4.6.2017 (7:45-10 AM) - Výpadek napájení na sále JU

Vážení uživatelé,

Z důvodu plánované odstávky napájení na sále Jihočeské univerzity v Českých Budějovicích v neděli 4. 6. 2017 od 7:45 do 10 hodin budou vypnuté všechny stroje klastrů hildor/haldir/hagrid a diskové pole /storage/budejovice1/. Běžící úlohy budou při výpadku ukončeny. Diskové pole poběží na UPS, raději si ale data potřebná k výpočtům překopírujte na jiné pole, nemusí být po celou dobu výpadku dostupná.

Omlouváme se za způsobené problémy.

Ivana Krenkova,
MetaCentrum
 

Ivana Křenková, Wed May 17 10:50:00 CEST 2017

11.5.2017 - Aktualizace frontendu zuphux.cerit-sc.cz na PBS Pro a OS Centos 7.3

Ve čtvrtek 11. 5. bude frontend zuphux.cerit-sc.cz přenastaven do prostředí @wagap-pro a dojde k upgrade verze OS (Centos 7.3).

Zároveň dojde k zastavení přijímání nových úloh v prostředí Torque (@wagap). Stávající úlohy se dopočítají na zbylých uzlech. Zbylé výpočetní uzly v Torque budou po uvolnění postupně převáděny do prostředí PBS Pro. Stroje zařazené v PBS Pro jsou v PBSMonu označené nápisem "Pro" https://metavo.metacentrum.cz/pbsmon2/nodes/physical .

S omluvou za komplikace a s díky za pochopení,

Uživatelská podpora centra CERIT-SC


Ivana Křenková, Wed May 10 23:00:00 CEST 2017

7.4.2016 16-24 hod. - Neplánovaná odstávka frontendu zuphux.cerit-sc.cz a plánovačů @wagap, @wagap-pro

V pátek 7. 4. od 15:45 bude probíhat havarijní oprava řadiče diskového pole, které je mj. využívané pro  provoz důležitých serverů CERIT-SC. Po celou dobu údržby
bude nedostupný frontend zuphux,  další služby (wagap, wagap-pro) budeme ve čtvrteks večer migrovat na jiný provizorní server a mohou mít kratši výpadky dostupnosti. Doba výpadku je odhadována na několik hodin.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra: https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení, support@cerit-sc.cz


Ivana Křenková, Thu Apr 06 23:00:00 CEST 2017

10.3.2017 - Výpadek hierarchického úložiště CERIT-SC /storage/brno4-cerit-hsm/

Vážení uživatelé,

po upgrade HSM (storage-brno4-cerit-hsm.metacentrum.cz) dodavatelem (upgrade probíhal 14.-15. 2.) došlo opět k chybě a částečnému výpadku systému (NFS funguje). Dodavatel pracuje na opravě.

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Fri Mar 10 14:50:00 CET 2017

24.2.2017 od 4:00 - Havárie chlazení v servrovně v Plzni

Dnes kolem 4. hodiny došlo k rozsáhlé havárii chlazení v Plzni, místní stroje byly/mohou být proto vypnuty. Výpadek postihl všechny naše plzeňské uzly a diskové pole /storage/plzen1/. Nyní je provoz provizorně obnoven, ale správci nevylučují možnost odstávky při finální opravě.

Velmi se omlouváme za způsobené problémy.

Ivana Křenková
MetaCentrum

 


, Fri Feb 24 15:26:00 CET 2017

od 19.2.2017 - Výpadek hierarchického úložiště CERIT-SC /storage/brno4-cerit-hsm/

Vážení uživatelé,

po upgrade HSM (storage-brno4-cerit-hsm.metacentrum.cz) dodavatelem (upgrade probíhal 14.-15. 2.) došlo k nečekané chybě a výpadku celého systému. HSM je nyní nedostupné. Dodavatel pracuje na opravě, délku výpadku v tuto chvíli nelze odhadnout.

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Mon Feb 20 13:50:00 CET 2017

14.-15.2.2017 - Plánovaná odstávka hierarchického úložiště CERIT-SC /storage/brno4-cerit-hsm/

Vážení uživatelé,

dne 14. 2. od 9:00 dojde, z důvodu bezpečnostního upgrade systému HSM dodavatelem, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/).
Odstávka je plánovaná na 2 dny, tj. 14. 2. od 9 hod. do 15. 2. 18 hod.
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/.

Míra ovlivnění běžících úloh:

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Tue Feb 07 13:50:00 CET 2017

23.1.2017 - Plánovaný upgrade diskového pole /storage/praha1/

V pondělí 23. 1. 2017 dojde k přepojování diskového pole /storage/praha1/ (storage-praha1.metacentrum.cz) na nový HW. Po dobu synchronizace dat se starým polem (několik hodin) bude pole nedostupné. Sdílený pracovní prostor tarkil*:/scratch.shared, mountovaný z tohoto pole, nebude rovněž po dobu výpadku dostupný.

Míra ovlivnění běžících úloh v době přepojování:

Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum


Ivana Křenková, Mon Jan 09 23:00:00 CET 2017

11.1.2017 - Plánovaný výpadek MetaCloud

Vážení uživatelé,

již dříve oznámenou aktualizaci cloudového manageru OpenNebula zahájíme ve středu 11. 1. V té době bude po nějakou dobu nedostupný front-end a v souvislosti s aktualizací uzlů dojde na clusteru dukan.ics.muni.cz k restartu Vašich virtuálních strojů.

Chtěli bychom Vás upozornit, že může dojít k potížím především u virtuálních strojů spouštěných ještě v předminulé verzi OpenNebuly (tj. v roce 2015 a dříve). V případě, že by k nim došlo, kontaktujte nás na cloud@metacentrum.cz.

S omluvou za komplikace,

MetaCoud tým

 

 


Ivana Křenková, Mon Jan 09 13:50:00 CET 2017

15.12.2016 (23:00-02:00) - Plánovaná odstávka Torqure serveru @wagap

Vážení uživatelé,

ve čtvrtek 15. 12. od 23 hodin bude probíhat údržba a upgrade  Torque serveru wagap.cerit-sc.cz. Nebude možné zadávat  nové úlohy ani manipulovat se stávajícími. Předněžně dobu výpadku odhadujeme na 3 hodiny.

Omlouváme se za způsobené problémy.

Ivana Křenková

MetaCentrum & CERIT-SC

 

Ivana Křenková, Thu Dec 15 22:50:00 CET 2016

8.12.2016 - Neplánovaný výpadek napájení na sále JU

Vážení uživatelé,

všechny stroje klastrů hildor/haldir/hagrid postihl neplánovaný výpadek napájení na sále na Jihočeské univerzitě v Českých Budějovicích. Sál běží ze záložní UPS, výpočetní uzly byly vypnuty, abychom byli schopni udržet v provozu alespoň diskové pole /storage/budejovice1/.

Omlouváme se za způsobené problémy.

Ivana Křenková

MetaCentrum 

 

Ivana Křenková, Thu Dec 08 10:50:00 CET 2016

od 1.11.2016 - Odstávka frontendu tarkil.cesnet.cz

Z důvodu přesunu na nový HW je odstavený frontend tarkil

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, Tue Nov 01 23:00:00 CET 2016

27.10.2016 od 10:00 - Plánovaný upgrade diskového pole /storage/brno3-cerit/

Ve čtvrtek 27. 10. 2016 od 10 hodin dojde k přepojování diskového pole /storage/brno3-cerit/ (storage-brno3-cerit.metacentrum.cz) na nový HW. Samotné přepojení se obejde bez výpadku. Může se však stát, že data uložená na starém poli bezprostředně před přepojením se na novém poli objeví se zpožděním.

Míra ovlivnění běžících úloh v době přepojování:

Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC


Ivana Křenková, Tue Oct 25 23:00:00 CEST 2016

30.8.2016 22:00-0:00 - Odstávka frontendu zuphux.cerit-sc.cz

Na úterý 30. 8. 2016 od 22 hodin je plánovaná dvouhodinová odstávka frontendu zuphux.cerit-sc.cz z důvodu přesunu systému na nový HW. Všechny běžící procesy na tomto frontendu budou ukončeny.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, Wed Aug 24 23:00:00 CEST 2016

25.7.2016 10:00 - Plánovaný výpadek Hadoop clusteru

V pondělí 25. 7. 2016 10:00 dojde k odstávce Hadoop clusteru z důvodu upgradu z CDH 5.5.1 na CDH 5.8.0 (s Hadoop 2.6.0 a Spark 1.6.0) a upgradu Java prostředí.

 

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum

 


Ivana Křenková, Fri Jul 22 15:50:00 CEST 2016

25.7.-29.7.2016 - Stěhování clusterů a diskového pole v Českých Budějovicích

Vážení uživatelé,

Ve dnech 25. 7. - 29. 7. 2016 dojde ke stěhování clusterů i diskového pole v Českých Budějovicích na jinou serverovnu. Stěhování se týká strojů hildor, haldir, hagrid a diskového pole /storage/budejovice1/, po celou dobu budou vypnuty. Data potřebná k výpočtům si překopírujte na jiné pole, po dobu stěhování nebudou dostupná.

Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum
 

 


Ivana Křenková, Fri Jun 24 15:50:00 CEST 2016

1.6.2016 - Neplánovaný výpadek napájení na sále CERIT-SC v Brně

Vážení uživatelé,

dnes ráno došlo k výpadku klimatizace na sále CERIT-SC v Brně. V důsledku přehřívání byly vypnuty některé stroje clusterů zigur, zapat a zebra. Výpočetní uzly postupně vracíme do provozu, úlohy běžící v době výpadku byly bohužel násilně ukončeny.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková

MetaCentrum & CERIT-SC


Ivana Křenková, Wed Jun 01 16:00:00 CEST 2016

27. 4. 2016 22:00 - Plánovaný výpadek napájení na sále Karolina UK

Vážení uživatelé,

na 27.4. od 22:00 hodin bude plánovaný výpadek napájení v areálu Karolina včetně vypnutí záložního dieselagregátu. Výpadek se týká serverů eru1, eru2, acharon, AFS serverů asterix, obelix, sal a licenčních serverů lm.cuni.cz a tom. Doba trvání výpadku je naplánována na půl hodiny.

 

Omlouváme se za způsobené problémy.

Ivana Křenková

MetaCentrum 

 

Ivana Křenková, Tue Apr 26 13:50:00 CEST 2016

21.4.2016 od 22:30 - Plánovaný výpadek MetaCloud

Vážení uživatelé,

na zdrojích centra CERIT-SC v rámci OpenNebula MetaCloudu (fyz. stroje hda*) bude probíhat tento čtvrtek 21. 4. od 22:30 údržba. Vaše virtuální stroje budou během ní pouze pozastaveny (o běžící stav nepřijdete) a po skončení údržby každeho stroje postupně spouštěny. Optimistický předpoklad nedostupnosti každého virt. stroje je 30 minut a celé údržby 2 hodiny.

 

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Tue Apr 19 13:50:00 CEST 2016

18.4.2016 7-15:00 - Neplánovaný výpadek napájení na sále v Brně UKB

Vážení uživatelé,

v pondělí 18. 4. bude, z důvodu úprav elektroinstalace v pavilonu A35, v UKB odstavena dodávka el. napájení včetně zálohované větve serverovny, ve které jsou umístěny clustery lex, krux, zubat a diskové pole brno9-ceitec a brno10-ceitec-hsm. Výpadek se nedotkne clusteru perian, který je umístěný v jiném pavilonu.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum


Ivana Křenková, Mon Apr 11 16:00:00 CEST 2016

7. 4. 2016 - Neplánovaný výpadek napájení na sále JU

Vážení uživatelé,

všechny stroje klastrů hermes/hildor/haldir postihl výpadek napájení na sále na Jihočeské univerzitě v Českých Budějovicích. Všechny uzly byly neplánovaně vypnuty. Diskové pole /storage/budejovice1/ běží na záložním napájení.

Omlouváme se za způsobené problémy.

Ivana Křenková

MetaCentrum 

 

Ivana Křenková, Thu Apr 07 13:50:00 CEST 2016

1.3.2016 - Problém s PBS serverem dnes v noci

Vážení uživatelé,

Sendmail PBS serveru dnes v noci, při změně konfigurace, odeslal část chybných/neaktuálních hlášení o zrušených úlohách, které skončily v průběhu předešlého týdne.

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Tue Mar 01 13:50:00 CET 2016

2.-3.3.2016 - Plánovaná odstávka hierarchického úložiště CERIT-SC /storage/brno4-cerit-hsm/

Vážení uživatelé,

dne 2. 3. od 9:00 dojde, z důvodu bezpečnostního upgrade systému HSM dodavatelem, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/).
Odstávka je plánovaná na 2 dny, tj. 2. 3. od 9 hod. do 3. 3. 18 hod.

**************************************************
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/.
***************************************************

Míra ovlivnění běžících úloh:

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Tue Feb 23 13:50:00 CET 2016

23.2.2016 10:00-11:00 - Plánovaná odstávka diskového pole v Brně /storage/brno6/

Vážení uživatelé,

Dne 23.2.2016 od 10:00 hodin dojde, z důvodu výměny baterií dodavatelem, k cca hodinovému výpadku diskového pole v Brně (/storage/brno6/).
 
Míra ovlivnění běžících úloh:

Dále po dobu výpadku nebude dostupné uživatelské (Sunstone) i programové (API) rozhraní MetaCloudu. Běžící virtuální stroje zůstanou v provozu! Pouze nepůjdou vytvářet nové a běžící virtuální stroje se nebudou dát spravovat. Omlouváme se za případné zdržení, které vám tento zásah může způsobit.

Velmi se omlouváme za způsobené komplikace,
 
Ivana Křenková
MetaCentrum & CERIT-SC


Ivana Křenková, Tue Feb 16 13:50:00 CET 2016

12.2.2016 8:00 - Plánovaný výpadek Hadoop clusteru

V pátek 12. 2. 2016 8:00 dojde k odstávce Hadoop clusteru z důvodu upgradu z CDH 5.4.7 na CDH 5.5.1 (s Hadoop 2.6.0 a Spark 1.5.0) a přechodu na Javu verze 8.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum

 


Ivana Křenková, Thu Feb 11 15:50:00 CET 2016

4.2.2016 11:00 - Plánovaný výpadek Hadoop clusteru

Ve čtvrtek 4. 2. 2016 v 11:00 dojde ke krátké odstávce Hadoop clusteru z důvodu výmeny certifikátů, rebootu strojů a prací spojených s přípravou experimentálního clusteru v kontejnech.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum

 


Ivana Křenková, Wed Feb 03 15:50:00 CET 2016

11.2.2016 - Plánovaný výpadek MetaCloud

Vážení uživatelé,

Dne 11. 2. proběhne dlouho plánovaný upgrade manažeru OpenNebula. Z toho důvodu bude po několik hodin nedostupné uživatelské (Sunstone) i programové (API) rozhraní MetaCloudu. Běžící virtuální stroje zůstanou v provozu! Pouze nepůjdou vytvářet nové a běžící virtuální stroje se nebudou dát spravovat. Omlouváme se za případné zdržení, které vám tento zásah může způsobit.

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Thu Jan 28 13:50:00 CET 2016

23. - 24. 1. 2016 - Plánovaný výpadek konektivity na sále FZÚ AV v Praze

Vážení uživatelé,

na víkend 23. - 24. 1. 2016 je, z důvodu výměny páteřního síťového boxu na Pasnetu, hlášen výpadek síťové konektivity v celém areálu FZÚ AV v Praze na Slovance. Po dobu výpadku nebudou dostupné všechny uzly clusterů luna a kalpa a diskové pole /storage/praha4-fzu/. 

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, Thu Jan 21 08:00:00 CET 2016

21.10.2015 16:30 - Neplánovaný výpadek napájení na sále v Brně UKB (cluster perian)

Vážení uživatelé,

dnes odpoledne bohužel došlo k cca hodinovému výpadku elektrickeho napajeni (cca od 16:30)
v celém areálu Univerzitního kampusu v Bohunicich, při kterém nenaběhly záložní zdroje (diesel agregaty).

Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, Wed Oct 21 16:00:00 CEST 2015

14.10.2015 - Neplánovaný výpadek databáze hlavního KDC (Kerberos)

Vážení uživatelé,

včera v podvečerních hodinách (17-23 hod.) došlo k porušení integrity databáze hlavního KDC serveru, který zajišťuje provoz Kerbera. Některé záznamy databáze byly nedostupné. Jelikož sejednalo mimo jiné o záznamy s klíči výpočetních/úložných uzlů, docházelo k problémům s komunikací s těmito službami (zápis končících úloh do /storage apod.). Nyní vše běží a děláme vše pro to, aby se situace neopakovala.

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Thu Oct 15 12:50:00 CEST 2015

9.10.2015 - Neplánovaný výpadek MetaCloud

Vážení uživatelé,

Kvůli HW poruše diskového pole došlo k výpadku front-endu služby MetaCloud. Již spuštěné virtuální stroje jsou nadále v provozu, ale až do ukončení výpadku nelze spouštět další ani běžící stroje spravovat v cloudovém manageru (OpenNebule).

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Fri Oct 09 13:50:00 CEST 2015

8.- 9.10. 2015 - Plánovaná odstávka diskového pole v Plzni /storage/plzen1/ a výpadek portálu GALAXY

Vážení uživatelé,

Dne 8. 10. od 8:00 ráno dojde, z důvodu stěhování dat na nový hardware, k výpadku diskového pole v Plzni (/storage/plzen1/).

**************************************************
DǓLEŽITÉ
Upozorňujeme, že po dobu odstávky pole nebude v provozu portál GALAXY.

Frontendy a clustery v lokalitě Plzeň budou rovněž odstaveny. 
***************************************************

Míra ovlivnění běžících úloh:

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Wed Oct 07 13:50:00 CEST 2015

18.8.-18.10.2015 - Nedostupnost clusterů zigur a zapat a diskového pole /storage/jihlava1-cerit/

Kvůli HW chybám, které řešíme s dodavatelem, budou clustery zigut a zapat zprovozněny s měsíčním zpožděním, pravděpodobně ve druhé polovině října.

Za způsobené komplikace se omlouváme.

--

Vážení uživatelé,

Od 18. 8. 2015 budou, z důvodu stěhování do Brna, nedostupné clustery zigur a zapat a diskové pole /storage/jihlava1-cerit/

Kvůli trvající záruce stěhování zajišťuje dodavatel, předpokládaná doba výpadku je 1 měsíc (jedná se o 144 uzlů clusteru).
 

Míra ovlivnění běžících úloh:



Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
 

 


Ivana Křenková, Thu Oct 01 15:50:00 CEST 2015

22.9.-23.9.2015 - Plánovaná odstávka hierarchického úložiště CERIT-SC /storage/brno4-cerit-hsm/

Vážení uživatelé,

dne 22. 9. od 10:00 dopoledne dojde, z důvodu údržby HSM dodavatelem, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/).
Odstávka je plánovaná na 2 dny, tj. 22. 9. - 23. 9. Je však velmi pravděpodobné, že se služby podaří zprovoznit již 22. 9. v odpoledních hodinách.

**************************************************
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/ a starší, už zrušený, /storage/brno1/. Doporučujeme data určená pro výpočty přesunout na některé z dalších diskových polí (například /storage/brno6/, kde je dostatek volné kapacity). Pokud potřebujete přenést větší objem dat, můžete se obrátit na meta@cesnet.cz.
***************************************************

Míra ovlivnění běžících úloh:

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Wed Sep 16 13:50:00 CEST 2015

18.9.-? - Neplánovaná odstávka hierarchického úložiště CERIT-SC /storage/brno4-cerit-hsm/

Vážení uživatelé,

dne 18. 9. došlo, z důvodu SW chyby, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/). Opětovné zprovoznění dodavatel předpokládá začátkem příštího týdne.
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/ a starší, už zrušený, /storage/brno1/ a /storage/home/.

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, Wed Sep 16 13:30:00 CEST 2015

29.8.2015 - Neplánovaný výpadek frontendu tarkil, clusteru tarkil, mudrc a diskového pole /storage/praha1/

Vážení uživatelé,

V sootu 29. 8. dopoledne došlo k poruše primárního i záložního napájení sálů v Praze, v jehož důsledku nebyl dostupný frontend a cluster Tarkil, Mudrc a diskové pole v Praze /storage/praha1/. Dodávka elektrické energie byla obnovena ve 14 hodin. Pole i výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum

 


Ivana Křenková, Sat Aug 29 15:50:00 CEST 2015

18.8.-31.8.2015 - Plánovaný výpadek proudu a následné stěhování clusteru Doom a diskového pole z Ostravy do Brna

Vážení uživatelé,

Dne 18.8. je v Ostravě hlášen výpadke proudu kvůli revizi elektroinstalace. Od ranních hodin jsou cluster Doom a diskové pole /storage/ostrava1/ vypnuty. Zpět do provozu budou vráceny tentýž den v nočních hodinách.

Ve dnech 24.8. až 31.8. pak dojde ke stěhování clusteru i diskového pole na nový sál do Brna. Po tuto dobu budou cluster Doom i diskové pole /storage/ostrava1/ vypnuty. Data potřebná k výpočtům si překopírujte na jiné pole, po dobu stěhování nebudou dostupná.

Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum
 

 


Ivana Křenková, Tue Aug 18 15:50:00 CEST 2015

25.6.2015 10:00 - Plánovaný výpadek Hadoop clusteru

Ve čtvrtek 25. 6. 2015 10:00 dojde ke krátké odstávce Hadoop clusteru z důvodu servisního HW zásahu - výměna CMOS baterie na serveru hador-c1.ics.muni.cz.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum

 



Ivana Křenková, Tue Jun 23 15:50:00 CEST 2015

22.6.2015 10-11 hod. - Odstávka frontendu skirit.ics.muni.cz

V pondělí 22. 6. 2015 dopoledne dojde ke krátké odstávce frontendu skirit z důvodu upgrade systému. Všechny běžící procesy na tomto frontendu budou ukončeny.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,
MetaCentrum

Ivana Křenková, Fri Jun 19 23:00:00 CEST 2015

16.6.2015 10-12 hod. - Plánovaný výpadek frontendu tarkil, clusteru tarkil a diskového pole /storage/praha1/

Vážení uživatelé, v důsledku přepojování L2 sítí v brněnském PoP páteřní sítě CESNET2, dojde k dočasné nedostupnosti frontendu a clusteru tarkil a diskového pole v Praze. Během zásahu nebude na zmíněných strojích síťová konektivita. Úlohy běžící na clusteru tarkil po dobu výpadku pozastavíme, krátce před výpadkem zablokujeme spouštění úloh nových. Taktéž pozastavíme úlohy, které podle zadání v PBS používají diskové pole /storage/praha1/.

Prosím, ukončete do úterního rána všechny interaktivní úlohy běžící z frontendu tarkil.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum

 



Ivana Křenková, Fri Jun 12 15:50:00 CEST 2015

18.5.2015 10-12:OO - Odstávka frontendu skirit.ics.muni.cz

V pondělí dopoledne 18. 5. 2015 dojde ke krátké odstávce frontendu skirit z důvodu upgrade systému. Všechny běžící procesy na tomto frontendu budou ukončeny.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, Thu May 14 23:00:00 CEST 2015

31.3.2015 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat + /storage/jihlava1)

Vážení uživatelé,

dnes odpoledne bohužel došlo k dalšímu neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, Tue Mar 31 15:50:00 CEST 2015

24.-27.3.2015 - Plánovaný výpadek clusteru metacloud-dukan

Vážení uživatelé!

Dovolte nám, abychom vám oznámili plánovanou odstávku clusteru 'metacloud-dukan', který představuje část fyzických uzlů v MetaCloudu. Jedná se o poslední v sérii větších odstávek, při nichž jsme postupně rozšiřovali, modernizovali a fyzicky přesouvali cloudovou infrastrukturu. Odstávka proběhne od 24. do 27. března a budou při ní zastaveny všechny virtuální stroje běžící na uzlech 'dukan{1..10}.ics.muni.cz'. Hlavní změnou bude změna hypervizoru z XEN na KVM, čímž se virtualizační technologie používaná na prostředcích MetaCloudu po několika letech konečně sjednotí.

Jak poznat, že se odstávka týká právě vašich virtuálních strojů

Ve webovém rozhraní OpenNebuly si můžete zobrazit seznam všech svých virtuálních strojů (Virtual Resources → Virtual Machines). Sloupeček 'Host' obsahuje název uzlu, na němž virtuální stroj běží. Plánovaný výpadek se dotkne virtuálních strojů běžících na uzlech dukan{1..10}.ics.muni.cz. V tabulce se dá vyhledávat i s pomocí editačního okna 'Search' v horní části stránky.

Co se bude s virtuálními stroji při odstávce dít

Virtuální stroje bude třeba zastavit. Velkou pomocí nám bude, pokud své stroje zastavíte sami před skončením pracovní doby v pondělí 23. 3. Jinak začneme virtuální stroje zastavovat a odsouvat do úložiště se začátkem odstávky. Po skončení odstávky vás budeme informovat e-mailem a vy budete moci své virtuální stroje začít znovu spouštět. Jelikož na uzlech dojde ke změně hypervizoru z XEN na KVM, mohou některé stroje mít při opětném spuštění problémy. Pokud byste pozorovali v chování svých strojů cokoli neobvyklého, neváhejte se na nás obrátit. Plnou kompatibilitu stávajících strojů s KVM bohužel není možné ověřit jinak než experimentálně. S jistotou lze tvrdit pouze to, že potíže nenastanou u standardních obrazů MetaCentra, protože ty jsou na provoz s KVM připraveny. Děkujeme vám za porozumění. Po skončení tohoto výpadku již další odstávky v dohledné budoucnosti neočekáváme.

S pozdravem,
MetaCloud

 


Ivana Křenková, Tue Mar 10 15:50:00 CET 2015

3.3.2015 10-12 hod. - Neplánovaný výpadek napájení na sále FZU v JPraze (cluster luna)

Vážení uživatelé,

dnes odpoledne bohužel došlo k neohlášenému výpadku napájení na sále FZU v Praze, v jehož důsledku je nedostupný cluster luna. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum .


Ivana Křenková, Tue Mar 03 15:50:00 CET 2015

13.1.2015 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat + /storage/jihlava1)

Vážení uživatelé,

dnes odpoledne bohužel došlo k dalšímu neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, Tue Jan 13 15:50:00 CET 2015

10.1.2015 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat)

Vážení uživatelé,

dnes krátce po poledni bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, Sat Jan 10 15:50:00 CET 2015

- Potenciální problém se zápisem do paměti na clusteru zebra

Vážení uživatelé,

po přestěhování uzlů SMP clusteru zewura (nyní přejmenovaných na zebra1-12) na nový sál jsme na několika uzlech při těžkých zátěžových testech narazili na ojedinělé chyby paměti -- při specifické velmi intenzivní zátěži jedním z paměťových testů může dojít k selhání zápisu. Chyby nejsou reprodukovatelné, vyskytly se i při několikadenních testech jen velmi zřídka a považujeme za téměř vyloučené, že se mohou projevit v normálním provozu. Dodavatele jsme na toto chování upozornili a problém se jeho technická podpora snaží přesněji diagnostikovat.

Jednotlivé uzlu postupně vracíme do provozu k dispozici uživatelům; přestože nečekáme problémy, prosíme o hlášení jakéhokoliv podezřelého chování clusteru.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, Tue Dec 09 15:50:00 CET 2014

3.12.2014 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat)

Vážení uživatelé,

dnes v noci bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, Wed Dec 03 15:50:00 CET 2014

3. - 4.12. 2014 - Plánovaná údržba archivního úložiště v Plzni a v Brně

Vážení uživatelé hierarchických datových úložišť CESNET / CERIT-SC,

dovolujeme si Vás informovat, že hierarchické úložiště v Plzni (/storage/plzen2-archive) a v Brně (/storage/brno4-cerit-hsm/) nebudou pro uživatele dostupné od středy 3. prosince cca 8:30 do odpoledne 4. prosince 2014. Na úložišti proběhne údržba a upgrade systému. Pokud byste v tuto dobu potřebovali mít přístupná nějaká data, dejte dopředu vědět na meta@cesnet.cz. Zpřístupníme je.

Služby dalších úložišť v Jihlavě (/storage/jihlava2-archive) a Brně (/storage/brno5-archive) nebudou dotčeny. Stejně tak se výpadek netýká služby ownCloud.

Omlouváme se způsobené problémy a děkujeme za pochopení.

Ivana Křenková


Ivana Křenková, Tue Nov 25 22:00:00 CET 2014

28.11.2014 9-13 hod. - Plánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat + /storage/jihlava1)

Vážení uživatelé,

v pátek 28. 11. 2014 dojde k plánovanému přerušení dodávky elektrické energie na sále v Jihlavě. Clustery zigur a zapat Centra CERIT-SC a diskové pole /storage/jihlava1 budou před hlášeným výpadkem vypnuty a všechny běžící procesy násilně ukončeny. Spouštění nových úloh na dotčených strojích je v tuto chvíli omezeno jen na krátké úlohy, které stihnou do výpadku doběhnout.

Výpadek se týká rovněž cloudových zdrojů umístěných v Jihlavě.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.

 



Ivana Křenková, Fri Nov 21 15:50:00 CET 2014

31.10.2014 - Dokončení přesunu dat - brno3-cerit v plném provozu

Dnes dopoledne byl úspěšně dokončen přesun dat diskového úložiště brno3-cerit z Jihlavy -- brno3-cerit je tak navráceno do plného provozu.

Upozornění: Pokud Vám během synchronizace končily úlohy, mohlo se za určitých okolností stát, že jejich výsledky nebyly zkopírovány -- v tomto případě by tato data měla být uložena v původní (jihlavské) lokaci, aktuálně dostupné skrze cestu /auto/jihlava1-cerit/brno3/export/home/$USER (chybějící data si odsud sami zkopírujte na brno3-cerit -- po pár týdnech je z jihlavského úložiště smažeme).

S přáním úspěšných výpočtů
Tom Rebok.


Tom Rebok, Fri Oct 31 16:33:00 CET 2014

29.-30.10.2014 - Navraceni dat zpet z Jihlavy - kratkodoby vypadek uloziste brno3-cerit

Vzhledem k jiz uskutecnene oprave diskoveho pole /storage/brno3-cerit dojde

*** ve stredu 29. rijna ***

k navraceni tohoto diskoveho pole do provozu a presunu dat z Jihlavy zpet do Brna.

Vzhledem k tomu, ze nejsme schopni tato data prenest z Jihlavy (ktera momentalne zastupuje brno3-cerit) instantne bez povsimnuti, bude nutne provozovat ne zcela konzistentni uloziste v delce 1 az 2 dnu.

Abychom minimalizovali dopad tohoto presunu na Vas, uzivatele, bude tento presun probihat nasledovne:

Upozorneni: Pokud budete v prubehu stredy/ctvrtka menit data v lokaci /storage/brno3/home/$LOGIN, mohou byt tato prepsana dokoncenim synchronizace z Jihlavy.

Bezicich uloh by se vsak vyse popsany presun nemel nijak dotknout...

Omlouvame se za pripadne komplikace a dekujeme za pochopeni.

S pozdravem Tomas Rebok,
MetaCentrum NGI.


Tom Rebok, Thu Oct 23 01:40:00 CEST 2014

4.10.2014 - Neplánovaný výpadek napájení na sále v Ostravě (GPU cluster doom)

Vážení uživatelé,

dnes bohužel došlo k opětovnému neohlášenému výpadku napájení na sále v Ostravě, v jehož důsledku byl nedostupný cluster doom a diskové pole /storage/ostrava1/. Úlohy běžící v době výpadku byly bohužel ukončeny. Stroje kontrolujeme a postupně vracíme do provozu.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum


Tom Rebok, Sat Oct 04 11:05:00 CEST 2014

1. 10. 2014 9:00 - 16:00 - Plánovaná odstávka archivního úložiště /storage/brno4-cerit-hsm/

Dovolujeme si Vás informovat, že hierarchické úložiště CERIT-SC (/storage/brno4-cerit-hsm) nebude pro uživatele dostupné dne 1. 10. 2014 v době od 9 hodin). Na úložišti proběhne významný upgrade softwaru. Vzhledem k náročnosti a rozsahu akce nelze dokončení přesně odhadnout. Po dobu odstávky nebude umožněn přístup k uloženým datům.

Za případné problémy se omlouváme a děkujeme za pochopení,

Ivana Křenková
MetaCentrum & CERIT-SC

 


Ivana Křenková, Wed Oct 01 13:11:00 CEST 2014

29.9.2014 - Neplánovaný výpadek diskového pole /storage/brno2/, frontendů a některých uzlů

Dnes v ranních hodinách došlo v důsledku poruchy hardware serveru k výpadku diskového pole /storage/brno2/, některých výpočetních strojů a frontendů. Stroje jsme byli nuceni restartovat, úlohy na nich běžící byly přerušeny. Pokud byla některá z Vašich úloh tímto výpadkem postižena, prosím, zadejte ji znovu.

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, Mon Sep 29 23:00:00 CEST 2014

26.9.2014 - Nedostupnost dat z diskového pole /storage/brno3-cerit/

V důsledku nočního výpadku el. energie na sále CERIT-SC v Brně došlo k poškození filesystému na svazku /storage/brno3-cerit. Vzhledem k rozsahu poškození svazku brno3-cerit je možné, že se nepodaří obnovit nejčerstvější data (25.9. okolo 21. hodiny), jedná se převážně o data, se kterými se v době havárie pracovalo. 

Data uživatelů (cca 208 TB dat) postupně kopírujeme provizorně do Jihlavy (/auto/jihlava1-cerit/brno3/export), vzhledem k objemu dat je předpokládaná doba kopírování odhadována na 1-2 týdny. Pokud data potřebujete rychleji, napiště na meta@cesnet.cz, jejich kopírování upřednostníme.

Jihlavské pole bude sloužit provizorně (do opravy brněnského pole) jako /home clusterů zewura, zegox a frontendu zuphux. Data budou zpřístupněna rovněž simlinkem /storage/brno3-cerit (po opravě se data vrátí znovu do Brna).

S omluvou za komplikace a s díky za pochopení,

Ivana Křenková,
MetaCentrum & CERIT-SC

Ivana Křenková, Fri Sep 26 15:00:00 CEST 2014

26.9.2014 - Neplánovaný výpadek diskového pole /storage/brno3-cerit/

Dnes v noci došlo v důsledku poruchy napájení k výpadku diskového pole /storage/brno3-cerit/. Na odstranění problému pracujeme. Data jsou v současné chvíli nedostupná, na jejich zpřístupnění pracujeme (obnova ze zálohy). V případě, že svá data potřebujete urgentně, napište na meta@cesnet.cz, odkopírujeme požadovaná data na pole do Jihlavy. 

S omluvou za komplikace a s díky za pochopení,

Ivana Křenková, MetaCentrum


Ivana Křenková, Fri Sep 26 04:00:00 CEST 2014

21.9.2014 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat + /storage/jihlava1)

Vážení uživatelé,

dnes v noci bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly již byly vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, Sun Sep 21 15:50:00 CEST 2014

19.8.2014 - Neplánovaný výpadek napájení na sále v Ostravě (GPU cluster doom)

Vážení uživatelé,

dnes bohužel došlo k opětovnému neohlášenému výpadku napájení na sále v Ostravě, v jehož důsledku byl nedostupný cluster doom a diskové pole /storage/ostrava1/. Úlohy běžící v době výpadku byly bohužel ukončeny. Stroje kontrolujeme a postupně vracíme do provozu.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum


Tom Rebok, Tue Aug 19 11:05:00 CEST 2014

15. 8. 2014 14:45 - 22:00 - Neplánovaný výpadek napájení na sále v Brně, možná stálá nefunkčnost některých služeb (licenční server, portál)

Vážení uživatelé,

dnes bohužel došlo k dalšímu neplánovanému výpadku napájení, tentokrát na sále ÚVT v Brně. Důsledkem tohoto byla ochromena činnost brněnské části MetaCentra, stejně jako některé centrální služby (plánovač, licenční server, disková úložiště, ...). Úlohy běžící v době výpadku byly bohužel ukončeny.

Většina strojů a služeb by již měla být v provozu, nicméně některé napájecí okruhy se nepodařilo oživit a bude potřeba důkladnější inspekce připojených zařízení a nalezení zkratujících zdrojů -- aktuálně tak některé služby (např. licenční server či část portálu) stále nefungují.

Velmi se omlouváme za způsobené komplikace -- bohužel, v boji "vyšší moc" vs. člověk taháme za kratší konec provazu. :-(

Tom Rebok
MetaCentrum


Tom Rebok, Sat Aug 16 07:44:00 CEST 2014

19.8.2014 11:00-13:00 - Odstávka frontendu skirit.ics.muni.cz

V úterý 19. 8. 2014 od 11 hodin dojde ke dvouhodinové odstávce frontendu skirit.ics.muni.cz z důvodu reinstalace systému. Všechny běžící procesy na tomto frontendu budou ukončeny 19.8. v 11.00.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, Fri Aug 15 23:00:00 CEST 2014

15.8.2014 - Neplánovaný výpadek napájení na sále v Ostravě (GPU cluster doom)

Vážení uživatelé,

dnes bohužel došlo k neohlášenému výpadku napájení na sále v Ostravě, v jehož důsledku byl nedostupný cluster doom a diskové pole /storage/ostrava1/. Úlohy běžící v době výpadku byly bohužel ukončeny. Stroje kontrolujeme a postupně vracíme do provozu.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum


Tom Rebok, Fri Aug 15 11:05:00 CEST 2014

7.8.2014 3:50 - 9:00 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat + /storage/jihlava1)

Vážení uživatelé,

dnes v noci bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly již byly vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Tom Rebok
MetaCentrum & CERIT-SC.


Tom Rebok, Thu Aug 07 11:05:00 CEST 2014

25.7.2014 14:00 - 14:30 - Výpadek konektivity v Plzni

Dnes kolem 14 hodiny došlo k neplánovanému výpadku konektivity na sálech Západočeské univerzity, který rovněž postihl naše plzeňské uzly. Výpadek byl zaznamenán v době mezi 14:00 -- 14:30 hod., nicméně jeho případné následky se mohly projevit i po tomto čase.

Konektivita by již měla být obnovena, nicméně v důsledku souvisejících servisních činností bohužel nemůžeme zcela vyloučit další krátkodobé výpadky.

Velmi se omlouváme za způsobené problémy.

Tomáš Rebok,
MetaCentrum & CERIT-SC.


Tom Rebok, Fri Jul 25 15:26:00 CEST 2014

23.6.2014 - Neočekávaný výpadek svazku AFS

V noci na dnešek došlo k havárii AFS serveru, která vyvolala rovněž nečekané potíže v klinstké části AFS subsystému. V důsledku těchto poruch jsou nedostupné některé svazky na AFS (nejsou dostupné některé SW moduly) a nejde se přihlásit na některé výpočetní uzly a čelní uzly postižené výše zmíněnou chybou. Na opravě pracujeme.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum & CERIT-SC

 

 


Ivana Křenková, Mon Jun 23 13:46:00 CEST 2014

30.4.2014 0:00 - 13:00 - Neočekávaný výpadek některých autentizovaných služeb

V důsledku nočních masivních síťových útoků nebyly dnes přístupné některé autentizované služby -- správa osobních údajů, RT rozhraní, autentizovaná část webu a wiki, apod. Problémy měly i některé brněnské uzly centra CERIT-SC, krátce i frontend skirit a plánovací systémy.

V tuto chvíli jsou všechny služby obnoveny. Pokud narazíte na problém, prosím reportujte.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum & CERIT-SC

 

 


Ivana Křenková, Wed Apr 30 13:46:00 CEST 2014

28.4.2014 - Neplánovaný výpadek části clusterů zigur a zapat v lokalitě Jihlava

Dnes okolo poledne došlo k neohlášenému cca hodinovému výpadku napájení na sále v Jihlavě, který postihl cca třetinu clusterů zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu (po upgrade na Debian7), úlohy běžící v době výpadku byly bohužel násilně ukončeny. Data z havarovaných výpočtů zůstala v adresářích /scratch na příslušných strojích.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC


Ivana Křenková, Mon Apr 28 14:00:00 CEST 2014

16.4.2014 16:00 - Neplánovaný výpadek diskového pole /storage/brno2/ a frontendu skirit

Dnes došlo v důsledku poruchy hardware k opetovnému zamrznutí diskového pole /storage/brno2/ a následně pak frontendu skirit. Na odstranění problému pracujeme.

S omluvou za komplikace a s díky za pochopení,

Ivana Křenková, MetaCentrum


Ivana Křenková, Wed Apr 16 04:00:00 CEST 2014

10.4.2014 - Neplánovaný výpadek diskového pole, frontendů a některých uzlů

Dnes v ranních hodinách došlo v důsledku poruchy hardware serveru k výpadku sdílených (implicitních) scratchů v clusteru mandos. Následně pak kvůli SW problému na straně klientského kódu NFS v jádře došlo během dneška k zamrznutí diskového pole /storage/brno2/, některých výpočetních strojů a frontendů. Stroje jsme byli nuceni restartovat, úlohy na nich běžící byly přerušeny. Pokud byla některá z Vašich úloh tímto výpadkem postižena, prosím, zadejte ji znovu.

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, Thu Apr 10 23:00:00 CEST 2014

23.3.2014 23:00 - Odstávka frontendu zuphux.cerit-sc.cz

V neděli 23. 3. 2014 od 23 hodin dojde ke krátké odstávce frontendu zuphux z důvodu reinstalace systému (upgrade na Debian 7.0). Všechny běžící procesy na tomto frontendu budou ukončeny. Stroj bude opět v provozu nejpozději v pondělí ráno.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum & CERIT-SC


Ivana Křenková, Wed Mar 19 23:00:00 CET 2014

25.-26. 2. 2014 - Servisní odstávka diskového pole /storage/brno1 (/storage/home)

Díky opakovaným HW/SW problémům diskového pole /storage/brno1 (resp. /storage/home) jsme nuceni provést jeho komplexní údržbu a upgrade SW.

Tato plánovaná servisní údržba bohužel nelze provést za běhu systému; proto bude diskové pole ***ODSTAVENO*** (a znepřístupněno)

v úterý 25. února 2014 v ranních hodinách
(Předpokládaná délka odstávky je 1-2 dny.)

Míra ovlivnění běžících úloh:

Omlouváme se za způsobené obtíže. Bohužel, aktuální stav /storage/brno1 je bez výraznějšího servisního zásahu dlouhodobě neudržitelný -- tímto tak předejdeme výraznějším problémům, které by mohly nastat v budoucnu.

S díky za pochopení
Tomáš Rebok.


Tom Rebok, Thu Feb 20 22:05:00 CET 2014

6. 1. 2014 - Výpadek elektřiny v Jihlavě

Dnes v noci došlo k neohlášenému cca hodinovému výpadku napájení na sále v Jihlavě, který postihl diskové pole a clustery zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC


Ivana Křenková, Mon Jan 06 14:14:00 CET 2014

7. 12. 2013 6:00 - 14:00 - Rozsáhlá rekonstrukce elektřiny na FI MUNI v Brně

V sobotu 7. 12. 2013 dojde mezi 6. a 14. hodinou, v souvislosti s rekonstrukcí budovy Fakulty informatiky MU, k plánovaným rozsáhlým úpravám v trafostanici. Po dobu servisních prací bude přívod elektřiny zajišťovat diesel agregát. V krajním případě může dojít ke krátkému neplánovanému výpadku napájení na všech brněnských sálech (stroje s vlastností "brno", kromě clusteru perian). Pravděpodobnost výpadku napájení je poměrně malá, avšak ne nulová.

S omluvou,
Ivana Křenková
MetaCentrum & CERIT-SC

Ivana Křenková, Wed Dec 04 15:17:00 CET 2013

5. 11. 2013 - Neočekávaný výpadek sálu v Jihlavě (clustery zigur a zapat)

Během údržby elektroinstalce došlo před chvílí k neohlášenému výpadku napájení na sále v Jihlavě, který postihl clustery zigur a zapat Centra CERIT-SC.
Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit...

Ivana Křenková

MetaCentrum & CERIT-SC


Ivana Křenková, Tue Nov 05 15:17:00 CET 2013

1. 10. 2013 - Plánovaný výpadek v Brně 1. 10. 2013

Rozšíření a úpravy elektroinstalace na sále ÚVT MU, probíhající v souvislosti s přípravou zprovoznění nově pořizovaného clusteru centra CERIT-SC, si vyžádají vypnutí výpočetních uzlů umístěných v lokalitě Brno ÚVT MU (všechny stroje s vlastností "brno", kromě strojů zewura [1-8]).

V tuto chvíli již nejsou spouštěny úlohy z front delších jak 4 dny, ostatní fronty budou odstavovány postupně. Běžící úlohy budou v den odstávky násilně ukončeny, prosíme majitele dlouhých nebo interaktivních úloh o uvolnění clusterů 30. 9. 2013.

Po dobu výpadku nebude dostupný frontend skirit.ics.muni.cz.

Výpadek se netýká brněnských diskových polí, která budou provizorně připojena přes náhradní napájení.

Omlouváme se za dočasné omezení výpočetní kapacity.


Ivana Křenková, Thu Sep 26 16:17:00 CEST 2013

9. 9. 2013 9:00 - 17:00 - Plánovaná odstávka archivního úložiště /storage/plzen2-archive/

V pondělí 9. 9. 2013 od 9:00 do 17:00 bude, z důvodu aktualizace klíčových komponent systému, dočasně nedostupný svazek /storage/plzen2-archive/ provozovaný oddělením datových úložišť sdružení CESNET, z.s.p.o. Po dobu odstávky bude omezen přístup k uloženým datům.

Za případné problémy se omlouváme a děkujeme za pochopení. 


Ivana Křenková, Tue Sep 03 13:11:00 CEST 2013

13.-18. 8. 2013 - Plánovaná profylaxe na ZČU v Plzni

Tento týden probíhá v Plzni na ZČU plánovaná každoroční údržba IT systému (út-pá), mohou se objevit občasné výpadky systému umístěných v této lokalitě, dopad na uživatele se pokusíme minimalizovat.

Omlouváme se za způsobené komplikace.


Ivana Křenková, Tue Aug 13 09:51:00 CEST 2013

13. 8. 2013 0:00 - 8:00 - Plánovaná údržba HA strojů CERIT-SC

V úterý 13.8. bude od časných ranních hodin prováděna větší údržba HA strojů centra CERIT-SC, kvůli které budou pro uživatele průběžně nedostupné servery zuphux.cerit-sc.cz (frontend) a
wagap.cerit-sc.cz (Torque server). Služby budou opět uvedeny do provozu do 8 hodin.

Omlouváme se za komplikace.


Ivana Křenková, Mon Aug 12 12:14:00 CEST 2013

9.8.2013 - Neočekávaný výpadek sálu v Jihlavě (clustery zigur a zapat)

V důsledku nepříznivých meteorologických podmínek posledních dnů (a odstraňování jejich následků) jsme před chvílí bohužel opět zaznamenali neohlášený výpadek napájení na sále v Jihlavě, který postihl clustery zigur a zapat Centra CERIT-SC.

Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit...

T. Rebok,
MetaCentrum & CERIT-SC.


Tom Rebok, Fri Aug 09 11:32:00 CEST 2013

7.8.2013 23:45 - Krátkodobý výpadek proudu v Jihlavě

V pozdních nočních hodinách došlo k částečnému výpadku napájení v serverovně CERIT-SC, který postihl 11 uzlů clusteru zigur a zapat, konkrétně uzly  zapat23 zapat98 zapat99 zapat100 zapat101 zapat111 zigur1zigur3 zigur28 zigur30 zigur31. Výpočetní uzly byly restartovány, běh úloh na postižených strojích byl bohužel ukončen.

Omlouváme se za způsobené komplikace.

 


Martin Kuba, Thu Aug 08 11:30:00 CEST 2013

29. 7. 2013 - Neplánované přerušení dodávky elektrické energie v Jihlavě

Dnes večer došlo v důsledku přerušení dodávky elektrické energie k neplánovanému výpadku clusterů a diskového pole umístěných na sále v Jihlavě.
Výpadek se týká clusterů Zigur, Zapat a diskového pole /storage/jihlava1-cerit/.
Bohužel došlo k pádu všech běžících úloh. Na znovuzprovoznění clusterů a diskového pole pracujeme.
Omlouváme se za nepříjemnosti.


Ivana Křenková, Mon Jul 29 22:00:00 CEST 2013

10. 8. 2013 7:00 - 10:00 - Plánovaná odstávka na sále v Českých Budějovicích

Dne 10. 8. 2013 7:00 - 10:00 dojde k odstávce clusterů a diskového pole umístěných na sále v Českých Budějovicích z důvodu servisních prací na trafostanici a vynuceného přerušení dodávky elektrické energie.
Odstávka se týká clusterů haldir, hildor, hermes (včetně frontendu) a diskového pole /storage/budejovice1/.

V nejbližší době bude na těchto strojích pozastaveno přijímání úloh do dlouhých front, kratší fronty budeme vypínat postupně. Ve frontách vlastníků (jcu a jcu2) budeme postupně omezovat maximální dobu běhu úloh, aby v době výpadku už žádné úlohy neběžely (dlouhotrvající výpočty si, prosíme, dočasně spouštějte  ve frontě long na jiné clustery).  Případné běžící úlohy budou v den odstávky násilně ukončeny.

S omluvou za komplikace a s díky za pochopení.


Ivana Křenková, Thu Jul 18 22:00:00 CEST 2013

29. 7. 2013 12:00 - 13:00 - Plánovaný výpadek síťové konektivity v Brně

Dne 29. 7. 2013 12:00 - 13:00 dojde, z důvodu výměny vadného switche, ke krátkému výpadku síťového připojení na sále v Brně. Po dobu výpadku nebude dostupný frontend skirit a provoz plánovacího serveru arien.ics.muni.cz bude omezen. Výpadek se nedotkne diskových polí.

 


Ivana Křenková, Thu Jul 18 22:00:00 CEST 2013

17. 7. 2013 14:00 - 17:00 - Plánovaná údržba archivního úložiště v Plzni

Vážení uživatelé,
chtěli bychom Vás informovat o možné nedostupnosti služeb datových úložišť sdružení CESNET (týká se svazku /storage/plzen2-archieve/), ke které může dojít 17.7.2013 od 14:00 do 17:00 z důvodů aktualizace klíčových komponent systému. V případě, že nedojde  k žádným neočekávaným problémům, k výpadku služeb nedojde. Za případné problémy se omlouváme a děkujeme za pochopení.

Za tým datových uložišť,  Michal Strnad CESNET z.s.p.o.


Ivana Křenková, Wed Jul 17 22:00:00 CEST 2013

18. 6. 2013 10:00 - Výpadek frontendu skirit.ics.muni.cz

V úterý 18. 6. 2013. v 10:00 dojde ke krátké odstávce frontendu skirit z důvodu přesunu na nový HW. Při této příležitosti provedeme upgrade systému na Debian 6.0. Všechny běžící procesy na tomto frontendu budou ukončeny.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů:

S omluvou za komplikace a s díky za pochopení.


Ivana Křenková, Sat Jun 15 22:00:00 CEST 2013

16. 5. 2013 - Výpadek chlazení na sále v Plzni

Dnes v podvečerních hodinách došlo v důsledku závady na chlazení k přehřívání a následnému vypnutí clusterů umístěných na sále v Plzni. Výpadek se týká clusterů Gram, Minos, Nympha, Konos a stroje Ajax a rovněž plzeňského diskového pole. Bohužel došlo k pádu všech běžících úloh. Na ostranění závady na chlazení se pracuje. Omlouváme se za nepříjemnosti.


Ivana Křenková, Thu May 16 14:10:00 CEST 2013

16. 5. 2013 - Výpadek diskového pole v Brně

Dnes došlo v důsledku servisního zásahu dodavatele k neplánovanému výpadku staršího brněnského diskového pole. Dočasně není dostupný /storage/brno1, /afs a SW moduly. Omlouváme se za nepříjemnosti.


Ivana Křenková, Thu May 16 12:00:00 CEST 2013

Pondělí 6.5.2013 10:00h - Přepojování elektřiny na sále v Plzni

V pondělí 6.5.2013 v 10:00h se začne přepojovat elektřina na sále v Plzni. Přitom bude nutné vypnout clustery Gram, Minos a cloudovy cluster Banakil. V případě nepříznivých skutečností může nastat i výpadek clusteru Nympha a diskových polí. Výpadek by se neměl dotknout clusteru Konos. Příležitost využijeme k reinstalaci clusteru Minos, zapojíme ho tedy zpět o něco později, než ostatní zdroje. Omlouváme se za nepříjemnosti.

Petr Hanousek, Fri May 03 14:10:00 CEST 2013

12. 4. 2013 - Výpadek clusteru/frontendu perian + upgrade systému

Vzhledem k neočekávané páteční události - požár na brněnském sále-  si Vás
dovolujeme informovat o výpadku clusteru perian a čelního uzlu
perian.ncbr.muni.cz.

Tento výpadek plánujeme využít k upgradu systému dotčených uzlů (Debian
5 -> Debian 6), přičemž uzly budou po svém upgradu (počínaje čelním
uzlem) postupně začleňovány zpět do provozu. Navrácení všech/většiny
uzlů clusteru perian pak předpokládáme nejpozději v průběhu přístího
týdne...

S omluvou za komplikace a s díky za pochopení.


Tomáš Rebok, Fri Apr 12 17:07:00 CEST 2013

11. 4. 2013 - Výpadek elektřiny na sále v Praze a reinstalace clusteru Tarkil

Dnes nastal neočekávaný výpadek elektřiny na sále v Praze, což vedlo k pádu clusteru Tarkil i čelního uzlu tarkil.cesnet.cz. Omlouváme se za přerušení běžících úloh.

Výpadku elektřiny jsme využili k tomu, abychom po obnovení její dodávky spustili plánovanou reinstalaci clusteru i čelního uzlu. Reinstalace, přesun některých služeb a případná migrace uživatelských dat z lokálních disků dotčených strojů na nové diskové pole bude trvat zhruba týden. Po zprovoznění strojů se ozveme novinkou. Mezitím můžete využít jiných čelních uzlů.

Po dobu reinstalace nebude běžně přístup k datům, uloženým na lokálních discích postižených strojů. Kdybyste přesto nějaká data nutně potřebovali, prosím ozvěte se na e-mail uživatelské podpory MetaVO meta@cesnet.cz.


Petr Hanousek, Thu Apr 11 17:07:00 CEST 2013

5. 3. 2013 - Přechod na nový systém pro správu požadavků

Dne 5. března 2013 od 9:00 do cca 12:00 bude probíhat odstávka systému pro správu požadavků (RT - rt3.cesnet.cz) a jeho převod na novou verzi. Během odstávky nebude přístupné ani webové ani mailové rozhraní systému. Maily poslané v době odstávky do systému (například na adresu meta@cesnet.cz), budou doručeny po jejím skončení. Omlouváme se proto za odpovědi opožděné o cca půl dne.


Petr Hanousek, Tue Mar 05 17:08:00 CET 2013

22. - 25. 10. 2012 - Plánovaná odstávka v Plzni

Tento týden probíhá na ZČU v Plzni stěhování clusterů na nový sál. V pondělí dojde k vypnutí výpočetních uzlů clusterů/stroje ajax, konos, minos[20-35] a nympha. V tuto chvíli už není možné na dotčených strojích spouštět nové úlohy. Běžící úlohy budou násilně ukončeny. Stroje budeme vracet do provozu postupně.

Omlouváme se za dočasné omezení výpočetní kapacity.


Ivana Křenková, Mon Oct 22 16:25:00 CEST 2012

10.-11.10.2012 - Rekonstrukce elektroinstalace v Plzni - dodělávky

Při přejímce prací na přepojování UL011 v Plzni na energocentrum byla zjištěna zavážná vada - porucha některých podpůrných systémů (MaR - měření a regulace). K opravě je bohužel třeba dalšího vypnutí (zabití běžících úloh). Práce se uskuteční v noci ze středy na čtvrtek 10.10.2012 (21:00 - 5:00). Omlouváme se za komplikace.


Petr Hanousek, Tue Oct 02 16:21:00 CEST 2012

14.9.2012 - Zaplněný svazek /storage/brno1

Svazek /storage/brno1 je zaplněný na 100 procent. Navíc se pravděpodobně poškodil i souborový systém, takže na svazku nyní nelze pracovat s daty. Pro práci proto zatím využívejte svazky /storage/brno2 (11TB volných) a /storage/plzen1 (27TB volných). Konec opravy zatím nedovedu odhadnout.

Rád bych vás v této souvislosti požádal, abyste promazali nepotřebné soubory, které na těchto datových úložištích máte.


Petr Hanousek, Fri Sep 14 16:16:00 CEST 2012

19. - 20.9.2012 - Rekonstrukce elektroinstalace v Plzni 2. pokus

V noci z 19. na 20.9.2012 se bude přepojovat elektroinstalace na serverovně v Plzni. Stroje vypneme ve středu 19.9. odpoledne, předpokládané spuštění je ve čtvrtek 20.9. ráno. Od čtvrtka by tedy měla být konečně dostupná fronta long na dotčených clusterech.

Kromě zmíněných clusterů nebude též dostupný diskový svazek /storage/plzen1.

Omlouváme se za dočasné omezení výpočetní kapacity.


Petr Hanousek, Thu Sep 13 16:09:00 CEST 2012

29.8.2012 - Odklad rekonstrukce elektroinstalace v Plzni

Nahlášený zítřejší výpadek se nebude konat z důvodu problémů na straně dodavatele prací. O novém plánu odstávky vás budeme informovat opět tímto kanálem. Fronta long na dotčených strojích zůstane zatím vypnutá.


Petr Hanousek, Wed Aug 29 16:05:00 CEST 2012

29.8. - 30.8.2012 - Rekonstrukce elektroinstalace v Plzni

V noci z 29. na 30.8.2012 se bude přepojovat elektroinstalace na serverovně v Plzni. Stroje vypneme ve středu 29.8. odpoledne, předpokládané spuštění je ve čtvrtek 30.8. ráno. Již nyní bylo pozastaveno přijímání úloh do fronty long na těchto strojích, případné běžící úlohy budou v den odstávky násilně ukončeny.

Kromě zmíněných clusterů nebude též dostupný diskový svazek /storage/plzen1.

Omlouváme se za dočasné omezení výpočetní kapacity.


Petr Hanousek, Wed Aug 22 11:27:00 CEST 2012