Tyto výpadky můžete číst jako RSS.
Aktualizace 10:50
pole je zpět v provozu
--
Vážení uživatelé,
aktuálně je nedostupné diskové pole /storage/brno12-cerit/ z důvodu selhání řadiče, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.
Pokud je to možné, používejte prozatím ostatní storage a frontendy.
S díky za pochopení,
tým MetaCentra
Vážení uživatelé,
od dnešního odpoledne jsou, kvůli výpadku síťového připojení, nedostupné clustery konos a kubus, umístěné na sále NTIS. Nový switch se podaří zajistit až v průběhu příštího týdne,
Pokud je to možné, používejte prozatím ostatní stroje v jiných lokalitách
S díky za pochopení,
tým MetaCentra
Aktualizace 13:00: diskové pole je zpět v provozu
--
Vážení uživatelé,
od dnešního dopoledne je nedostupné diskové pole /storage/brno12-cerit/, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.
Pokud je to možné, používejte prozatím ostatní storage a frontendy.
S díky za pochopení,
tým MetaCentra
aktualizace 26.8. 15:00: diskové pole je zpět v provozu a data by měla být čitelná. Případné problémy prosím hlaste. Děkujeme za pochopení.
aktualizace 26.8. od 10:30: během dněšního dopoledne bude diskové pole krátce nedostupné, pokoušíme se znovuzpřístupnit nečitelná data. Omlouváme se za kompliace.
aktualizace 20.8.:
Velmi se omlouváme, od neděle se potýkáme s velmi vážným HW problémem.
Malá část dat ve /storage/brno12-cerit je nyní kvůli poruše na jednom z diskových polí nedostupná, pokus o jejich čtení se projevuje jako Input/Output error (z pohledu bloků dat jde o zhruba 1.1 %, ale protože velké soubory nad 4MB se rozkládají přes více zařízení, je u nich pravděpodobnější, že je z nich dotčena alespoň nějaká část).
Závadu řeší podpora výrobce. Zatím nejsou tato data definitivně ztracena, ale momentálně nevíme, kdy se je podaří zpřístupnit ani zda budou nakonec všechna v pořádku. Pokud něco z nich potřebujete rychle, může být efektivnější znovu data načíst (pokud šlo o primární vstupy) nebo přepočítat, co je třeba.
Nyní /storage/brno12-cerit normálně běží a není zvláštní důvod předpokládat, že ostatní data jsou více ohrožena než obvykle. Může ještě dojít ke krátkodobému omezení provozu během oprav postiženého hardware.
Upozorňujeme, že vzhledem k prioritě navýšit maximální nabízenou úložnou kapacitu není možné provádět plnou zálohu všech dat na úložištích takového rozsahu.
Na zajištění plných záloh bychom potřebovali minimálně zdvojnásobit finance na nákup vhodného HW. Vzhledem k tomu, že archivní účely pokrývají disková pole Datových úložišť CESNET, a připravují se rovněž oborové repozitáře v rámci projektu EOSC, na našich diskových polích zálohujeme pouze formou tzvn. snapshotů. Ty nabízejí určitou ochranu pro případ, že uživatel neúmyslně odstraní některé své soubory. Obecně lze obnovit data, která existovala den před nehodou. Snapsoty jsou však uloženy na stejných diskových polích jako data samotná, takže v případě selhání hardwaru mohou být tyto zálohy ztraceny :-(
https://docs.metacentrum.cz/data/metacentrum-backup/
Je nám to velmi líto, snažíme se udělat maximum pro to, abychom společně s dodavatelem HW nedostupná data obnovili.
Pokud svá data potřebujete velmi naléhavě, pošlete prosím úlohy do systému ještě jednou. V případě potřeby jsme schopni zvýšit vaši prioritu (aby se úlohy spustily co nejdříve).
Děkujeme za pochopení.
--
aktualizace 19.8.: diskové pole funguje pouze v omezeném režimu a dochází k nepánovaným krátkým výpadkům. Pokud možno omezte práci nad tímto polem. Pokoušíme se situaci stabilizovat.
aktualizace 18.8. ve 20 hodin: pole je zpět v provozu
--
Vážení uživatelé,
aktuálně je nedostupné diskové pole /storage/brno12-cerit/ z důvodu selhání disků, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.
Pokud je to možné, používejte prozatím ostatní storage a frontendy.
S díky za pochopení,
tým MetaCentra
---
Vážený uživateli,
Před chvílí došlo k výpadku sítě na páteřní síti v Brně (překopnutý kabel v lokalitě Mendelu), kvůli kterému došlo k nedostupnosti některých výpočetních clusterů v této lokalitě (tyra+aman+zenon). Výpadek jsme nahlásili a čekáme na náhradní přepojení k jinému okruhu.
Stroje běží, nemohou číst a zapisovat z diskových úložišť. U končících úloh data zůstanou ve scratchi (pokud jej úloha používá).
S omluvou a s díky za pochopení
Na archivním úložišti /storage/du-cesnet/ (du4.cesnet.cz) došlo v zimě k mechanické závadě páskového robota. Stále probíhá přenos dat na objektové úložiště a je velmi omezen přístup k datům nacházejícím se na páskách. Po domluvě s kolegy z DU jsme odstranili přístup na zmíněné úložiště z našich strojů (kvůli zrychlení přenosu). Pokud svá data potřebujete prioritně, kontaktujte datová úložiště CESNETu du-support@cesnet.cz.
Omlouváme se za potíže.
S díky za pochopení,
tým MetaCentra
aktualizace: 23.5. v 9:30 opět v provozu
--
Vážení uživatelé,
aktuálně je nedostupné diskové pole /storage/brno12-cerit/ z důvodu poruchy řadiče, na odstranění problému pracujeme. Během dopoledne jej vrátíme do provozu. Také frontend zuphux je nedostupný.
Pokud je to možné, používejte prozatím ostatní storage a frontendy.
S díky za pochopení,
tým MetaCentra
Aktualizace 13.5.2024 11:30: pole je opět plně funkční
---
Vážení uživatelé,
aktuálně je nedostupné diskové pole /storage/brno12-cerit/, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.
Pokud je to možné, používejte prozatím ostatní storage a frontendy.
S díky za pochopení,
tým MetaCentra
Vážení uživatelé
ve dnech 19. - 21. 4. a 24. 4. v odpoledních/večerních/nočních hodinách proběhne upgrade software v páteřních směrovačích sítě. Výpadek bude v uvedených časech a v rozmezí 30 - 60 minut (viz přiložený rozpis).
=======================================================================
*pátek 19.4.2023 17:00 - 21:00 * - Praha-Sitel, Plzeň1,2
*pátek 19.4.2023 20:00 - 00:00* - Jihlava
*sobota 20.4.2023 15:00 - 19:00* - Praha - ÚMG - UJV Řež
*sobota 20.4.2023 19:00 - 00:00* - Olomouc1,2 - České Budějovice
*neděle 21.4.2023 00:00 - 05:00 - *Praha1 - Brno1
*středa 24.4.2023 00:00 - 05:00 - *Praha2 - Brno2
Vážení uživatelé a uživatelky Metacentrum OpenStack cloudu,
Dnes 11.3.2024 (pondělí) dopoledne a část odpoledne (do cca 18:00) nebude dostupná nová instance e-INFRA CZ G2 OpenStack cloudu v Brně [1], došlo k neplánovanému výpadku v souvislosti s plánovanou údržbou. Nedostupnost se týká všech API služeb, již běžící VM servery zůstávají funkční. Hlavní G1 OpenStack cloud v Brně [2] funguje bez omezení.
[1] https://brno.openstack.cloud.e-infra.cz/
[2] https://cloud.metacentrum.cz/ https://cloud.muni.cz/
Děkujeme za pochopeni,
Tým MetaCentrum Cloud
Aktualizace stavu: od 10 hodin je diskové pole zpět plně funkční
Vážení uživatelé,
aktuálně je nedostupné diskové pole /storage/brno12-cerit/, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.
Pokud je to možné, používejte prozatím ostatní storage a frontendy.
S díky za pochopení,
tým MetaCentra
aktualizace 11:50 - diskové pole je už opravené a znovu dostupné
Vážení uživatelé,
aktuálně je nedostupné diskové pole /storage/brno12-cerit/, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.
Pokud je to možné, používejte prozatím ostatní storage a frontendy.
S díky za pochopení,
tým MetaCentra
Kvůli nutné údržbě bude v sobotu 3. 2. 2024 od 9 hodin vypnuté diskové pole /storage/brno2. Nebude možné se přihlásit na čelní uzly skirit, perian a onyx a pozastaví se spouštění nových úloh na brněnských klastrech spravovaných PBS serverem meta-pbs.metacentrum.cz. Odstávka by neměla být delší než hodinu.
Odstávka ovlivní rovněž OnDemand (diskové pole zde slouží jako /home).
S omluvou za komplikace,
Vážení uživatelé,
aktuálně je nedostupné pole "brno2" kvůli zatím nezjištěné diskové chybě. Také frontend skirit je nedostupný.
Na odhalení příčiny pracujeme.
Pokud je to možné, používejte prozatím ostatní storage a frontendy.
S díky za pochopení,
tým MetaCentra
Vážení uživatelé,
Ve čtvrtek 24.8. proběhne migrace služby https://usegalaxy.cz do stabilnějšího prostředí VMWare. Součástí migrace je i přenesení uživatelských dat.
Služba bude nedostupná cca od 10:00 CEST (resp. může být střídavě dostupná, ale v tuto dobu již nezaručujeme korektní přenesení uživatelských dat), dokončení migrace očekáváme v odpoledních hodinách. Součástí je ale také změna adresy IP a záznamů DNS, jejichž propagace si vyžádá jistou dobu, plnou dostupnost tedy očekáváme až od pátku 25. 8. 2023.
S omluvou a s díky za pochopení,
Vážení uživatelé,
dne 1. 8. bude vypnutý čelní uzel elmo.elixir-czech.cz.
Pro přístup k výpočetním zdrojům prosím využijte v době výpadku jiný z čelních uzlů, viz https://docs.metacentrum.cz/basics/concepts/#frontends-storages-homes.
S omluvou a s díky za pochopení
Vážený uživateli,
Dnes odpoledne (14. 7.) po 16. hodině dojde ke krátkým výpadkům datového připojení v lokalitě Průhonice (cluster ibot). Omezili jsme submit nových úloh na tento cluster, provoz obnovíme jakmile bude síťové připojení obnovené.
Bežícím úlohám, které kopírují výstup zpět na pole, se toto nepodaří a data zůstanou ve scratchi na příslušném uzlu, kde běžely. K datům na výpočetních uzlech se dostanete z libovolného frontendu následující zkratkou:
go_to_scratch CELE_CISLO_ULOHY_VCETNE_NAZVU_PLANOVACE např. tarkil.grid.cesnet.cz$ go_to_scratch 79868.meta-pbs.metacentrum.cz
S omluvou a s díky za pochopení
Aktualizace: pole je zpomalené, na opravě pracujeme
-------
Vážený uživateli,
Dnes odpoledne (7. 7.) došlo k HW poruše diskového pole /storage/brno1-cerit/. Na zprovoznění pracujeme ve spolupráci s dodavatelem.
Bežícím úlohám, které kopírují výstup zpět na pole, se toto nepodaří a data zůstanou ve scratchi na příslušném uzlu, kde běžely. K datům na výpočetních uzlech se dostanete z libovolného frontendu následující zkratkou:
go_to_scratch CELE_CISLO_ULOHY_VCETNE_NAZVU_PLANOVACE např. tarkil.grid.cesnet.cz$ go_to_scratch 79868.meta-pbs.metacentrum.cz
Po dobu výpadku můžete používat ostatní frontendy https://wiki.metacentrum.cz/wiki/Frontend a disková pole.
S omluvou a s díky za pochopení
Vážení uživatelé a uživatelky Metacentrum OpenStack cloudu [1],
Dnes v úterý 20.6. v podvečer 17-22:00 dojde k rekonfiguraci blokového úložiště Metacentrum OpenStack cloudu tak abychom zvýšili kapacitu.
Ze zkušeností vidíme že i prostá rekonfigurace způsobí krátký výpadek (10-30min) v souvislosti s približně 3K volumy které jsou nyní naalokovány. Běžící VM nebudou nikterak ovlivněny, Hlavní API OpenStacku bude dostupné stejně jako Horizon UI, Cinder blokové úložiště a API bude dočasně nedostupné a tedy nebude možné vytvářet volumy.
Děkujeme za pochopeni,
Tým MetaCentrum Cloud
[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz
Vážení uživatelé,
kvůli hardwarové poruše diskového pole je aktuálně nedostupné úložiště brno2.
V důsledku toho také nefunguje přihlášení na čelní uzly skirit, perian a onyx.
Aktuálně nejsme ještě schopni odhadnout kdy/zda bude pole beze ztráty dat zprovozněno.
Jakmile zjistíme více, budeme vás bezodkladně informovat.
S omluvou za komplikace,
váš tým MetaCentra
Vážení uživatelé,
12. -15. 5. proběhne plánovaná odstávka vetšiny serverů v serverovně na FZÚ AV ČR kvůli pravidelné každoroční revizi trafostanice. Odstávka bude zahrnovat všechny uzly clusteru luna, včetně frontendu luna a diskového pole storage-praha6-fzu. Odstávku využijeme rovněž k výměně vadných RAM v některých serverech.
Za vzniklé komplikace se omlouváme.
Tým Metacentra
Aktualizace 27. 03. 2023: Vyskytl se další problém, bude odstraněn během několika málo hodin. prosíme o trpělivost. V odpoledních hodinách bylo diskové pole vráceno do provozu.
Aktualizace 24. 03. 2023: Diskové pole /storage/brno2/ je zpět v plném provozu. Data zůstala neporušena.
----
Vážený uživateli,
V sobotu odpoledne (18. 3.) došlo k HW poruše diskového pole /storage/brno2/. Na zprovoznění pracujeme ve spolupráci s dodavatelem. Zatím nedokážeme říci, kdy bude pole zprovozněno. Dodavatel postupuje opatrně, abychom nepřišli o uložená data.
Nejde se přihlásit na frontendy, kde toto pole slouží jako /home (skirit, onyx), a na pole nejde přistupovat ani odjinud (z jiných frontendů ani serverů). Postižený je rovněž OnDemand.
Bežícím úlohám, které kopírují výstup zpět na pole, se toto nepodaří a data zůstanou ve scratchi na příslušném uzlu, kde běžely. K datům na výpočetních uzlech se dostanete z libovolného frontendu následující zkratkou:
go_to_scratch CELE_CISLO_ULOHY_VCETNE_NAZVU_PLANOVACE např. tarkil.grid.cesnet.cz$ go_to_scratch 79868.meta-pbs.metacentrum.cz
Po dobu výpadku můžete používat ostatní frontendy https://wiki.metacentrum.cz/wiki/Frontend a disková pole.
S omluvou a s díky za pochopení
Update
Metacentrum OpenStack (CESNET_MCC), Stav 2022-10-21 9:00
Openstack je funkční, ale omezené množství serverů/hypervisorů, na kterých běží cca 40 virtuálních počítačů, je bez sítě. Pracujeme na migraci virtuálních strojů tam, kde je to možné.
---
Vážený uživateli,
Dnes pozorujeme četné krátkodobé výpadky na lokální síti v Brně, kvůli kterému docházi ke krátkodobé nedpstupnosti plánovacího systému a některých strojů. Po příčině pátrají místní síťaři.
S omluvou a s díky za pochopení
Vážení uživatelé,
ve čtvrtek 1. 9. bude přerušená dodávka elektrické energie v serverovně CEITEC. V důsledku toho budou od 5:00 do 12:00 nedostupné klastry krux, lex a zubat. Rovněž bude nedostupné úložiště brno14-ceitec.
Úlohy běžící na dotčených klastrech budou po dobu odstávky automaticky v PBS pozdrženy a spuštěny po opětovném zapnutí strojů.
Úlohy běžící na jiných klastrech, které však zapisují nebo čtou data do/z úložiště brno14-ceitec mohou být odstávkou ovlivněny. Pokud dojde k pádu úlohy krátce po jejím spuštění, počkejte až bude úložiště brno14-ceitec opěrt dostupné a poté úlohu spusťte znova. Pokud dojde k pádu končící úlohy v důsledku nemožnosti zkopírovat výsledná data do domovského adresáře na brno14-ceitec, zkopírujte si data ručně ze scratche.
Za vzniklé komplikace se omlouváme.
Tým Metacentra
Vážení uživatelé,
ve čtvrtek 14. 7. bude přerušena dodávka elektrického proudu v prostorách Technické univerzity Liberec. V důsledku toho nebude dostupné pole /storage/liberec3-tul, frontend charon.nti.tul.cz a výpočetní klastr charon. Výpadek bude trvat po celý den.
Není nutná žádná akce ze strany uživatelů. Úlohy, u kterých by hrozilo, že do zahájení odstávky nedoběhnou, budou automaticky v PBS pozdrženy a spuštěny po opětovném zapnutí strojů.
Za vzniklé komplikace se omlouváme.
Tým Metacentra
Vážení uživatelé,
vzhledem k neplanované havárii pole /storage/brno6/, které jsme se chystali v nejbližších dnech kvůli stáří odstavit, jsme nuceni tento proces urychlit. Většinu svých dat z pole /storage/brno6/ najdete v adresáři /storage/brno2/home/LOGIN/brno6, kam jsme data průběžně stěhovali.
Poslední plná synchronizace proběhla v noci ze středy na čtvrtek, další částečná synchronizace probíhala v době výpadku. Některá data, ktera jste na pole nahráli v posledních hodinách tedy nemusí být ještě překopírovaná.
Pokud se nám staré pole podaří zprovoznit, pokusíme se data dosynchronizovat. Pole /storage/brno6/ bude zrušeno bez náhrady, pro práci s daty v Brně používejte prosím pole /storage/brno2/, kam byla data přenesena nebo případně jakékoliv jiné pole, které je k dispozici v MetaCentru. Symlink /storage/brno6/ vede na staré pole v poruš a bude zrušen společně s vypnutím HW.
S omluvou za komplikace,
vaše MetaCentrum
Vážení uživatelé a uživatelky Metacentrum OpenStack cloudu [1],
na pátek 24.6.2022 od 14:00 do 16:00 plánujeme zátěžové testování cloudové infrastruktury.
Předpokládáme že toto zátěžové testování se obejde bez výpadku funkcionality, avšak během testů dojde k vysokému zatížení infrastruktury což se může projevit zvýšenými latencemi odezvy OpenStack API i UI.
Děkujeme za pochopeni,
Tým MetaCentrum Cloud
[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz
update 3. 6. 15:30
Po upgradu diskového pole se objevily problémy s novým souborovým systémem. Problém byl ostraněn a pole je opět dostupné, můžete jej začít používat.
Za komplikace se omlouváme.
Ve čtvrtek 2. 6. proběhne upgrade diskových polí v Praze (navýšení kapacity, zvýšení redundance a rychlosti), během kterého bude nutné pole krátkodobě zastavit.
Pokud půjde vše podle plánu, dají se očekávat krátké výpadky pole storage-vestec1 (=praha1). V následujících dnech by pak mělo dojít k citelnému navýšení dostupné kapacity.
Zároveň dojde k navýšení kvóty na velikost uložených dat 0.5T -> 2TB a kvóty na počet souborů na 2 milióny.
Pokusime se co nejvice minimalizovat dopad na běžící úlohy, za případné potíže se předem omlouváme.
S omluvou za komplikace,
MetaCentrum
aktualizace 24. 5. 2022
Všechny služby OpenStack jsou nyní dostupné po neplánovaném výpadku napájení od 2022-05-22.
Nyní můžete spustit své virtuální počítače. Pokud se vyskytnou jakékoli problémy, kontaktujte nás prosím na adrese cloud@metacentrum.cz.
Omlouváme se za případné nepříjemnosti.
--
Vážený uživateli,
V noci z 22. na 23. 5. května došlo k neplánovanému výpadku napájení na sále datacentra A510 (FI MU Brnno). Záložní napájení nenaběhlo. Většina systémů na sále běží, na zprovoznění MetaCentrumCloud pracujeme.
Výpadek se týká rovněž frontendu zuphux.cerit-sc.cz, některých clusterů a Rancheru (Kubernetes), které běží z cloudu.
S omluvou a s díky za pochopení
Vážený uživateli služby MetaCentrum Cloud [1],
na středu 13. dubna 2022 v 12:00 až 20:00 je plánována odstávka části napájení datacentra A510. Odstávka by měla proběhnout bez výpadku a měla by trvat 1-2 hodiny.
[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz
Aktualizace:
V MetaCentrum OpenStack cloud [1] neplánovaně pokračuje série síťových výpadků po včerejší rekonfiguraci HW síťových prvků. Předpokládaná doba, kdy může stáledocházet k výpadkům je pátek 8. 4. 2022 od 8:00 do 20:00.
Jde o prodloužení ohlášeného výpadku naplánovaného na 7. 4. 2022.
---
Vážený uživateli služby MetaCentrum Cloud,
V MetaCentrum OpenStack cloud [1] bude probíhat ve čtvrtek 7. 4. 2022 od 7:00 do 20:00 plánovaná údržba sítě. Důvodem této údržby bude povýšení verzí firmware síťových přepínačů a jejich následná rekonfigurace s cílem zlepšit jejich síťovou stabilitu. Předpokládáme že údržba se nijak neprojeví na přístupu k Openstack API a UI, nicméně na vybraných hypervizorech a na uživatelských VM tam běžících může docházet ke krátkým síťovým výpadkům.
Děkujeme za pochopeni,
Tým MetaCentrum Cloud
[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz
V pondělí 28. 3. proběhne upgrade diskového pole storage-praha5-elixir (navýšení kapacity, zvýšení redundance a rychlosti, upgrade OS frontendů, změna IP adres), během kterého bude nutné pole dočasně odstavit.
Během dne se dá očekávat občasná nedostupnost pole, nedoporučujeme v tu dobu pole používat.
S omluvou za komplikace,
MetaCentrum
Vážený uživateli služby MetaCentrum Cloud,
Metacentrum OpenStack cloud [1] bude mít v pátek 4.3.2022 od 14:00 do 16:00 plánovanou odstávku. Důvodem této odstávky bude migrování kontrolerů do nové lokace a také nasazování produkční podpory IPv6 adres.
Předpokládáme že nedostupnost Openstack API and UI bude méně než 15 minut pokud vše proběhne podle plánu. Běžící uživatelské virtuální stroje nebudou výpadkem zasaženy.
Děkujeme za pochopeni,
Tým MetaCentrum Cloud
[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz
Vážený uživateli služby MetaCentrum Cloud,
Metacentrum OpenStack cloud [1] bude mít v pátek 4.3.2022 od 14:00 do 16:00 plánovanou odstávku. Důvodem této odstávky bude migrování kontrolerů do nové lokace a také nasazování produkční podpory IPv6 adres.
Předpokládáme že nedostupnost Openstack API and UI bude méně než 15 minut pokud vše proběhne podle plánu. Běžící uživatelské virtuální stroje nebudou výpadkem zasaženy.
Děkujeme za pochopeni,
Tým MetaCentrum Cloud
[1] cloud.metacentrum.cz, cloud.muni.cz, cloud.cerit-sc.cz
Ve středu 26. 1. proběhne upgrade diskových polí v Praze (navýšení kapacity), během kterého bude nutné pole krátkodobě zastavit.
Pokud půjde vše podle plánu, dají se očekávat krátké výpadky pole storage-vestec1 (=praha1) dopoledne a storage-praha5-elixir odpoledne. V následujících dnech by pak mělo dojít k citelnému navýšení dostupné kapacity.
Pokusime se co nejvice minimalizovat dopad na běžící úlohy, za případné potíže se předem omlouváme.
S omluvou za komplikace,
MetaCentrum
Včera večer došlo k poruše chlazení v serverovně CEITECu, kde jsou umístěny výpočetní uzly krux, zubat a lex. Tyto clustery jsou dočasně mimo provoz. Budou vráceny do provozu po odstranění poruchy.
S omluvou za komplikace,
vaše Metacentrum
Vážený uživateli služby MetaCentrum Cloud,
dovolte nám Vás informovat o plánovaném výpadku. Ve středu 12.1.2022 od 9:00 do 16:00 bude probíhat aktualizace infrastruktury MetaCentrum Cloudu z důvodu příprav na přidání podpory IPv6.
Nepředpokládáme žádné komplikace, avšak budeme rádi za zpětnou vazbu v případě jakýchkoli problémů v průběhu aktualizace.
Děkujeme za pochopeni,
Tým MetaCentrum Cloud
Ve čtvrtek 16. 12. cca od 7 h ráno dojde k plánovanému přerušení dodávky proudu v serverovně CEITECu, kde jsou umístěny výpočetní uzly krux, zubat a lex, čelní uzel perian a úložiště brno9-ceitec. Tyto stroje budou v době výpadku nedostupné. Předpokládané trvání odstávky je do 12:00.
S omluvou za komplikace,
vaše Metacentrum
Od středy 1. 12. od 18 hodin do čtvrtka 2. 12. 12 hodin bude probíhat poslední etapa přesunu dat ze starého pole /storage/brno6/ na nový hardware. Bude probíhat finální synchronizace nejnovějších dat mezi starým a novým polem. Pokud možno omezte po tuto dobu práci nad tímto polem.
Téměř po celou dobu synchronizace bude /storage/brno6/ přístupný pro čtení i zápis, na závěr proběhne přepnutí polí, během kterého mohou být data na /storage/brno6 krátkodobě nedostupná. Běžící procesy, které používají dlouhodobě otevřené soubory přímo ve /storage/brno6, mohou po přepnutí havarovat.
/storage/brno6/
storage-brno6.metacentrum.cz
Úlohy pracující s daty uloženými/ukládanými na jiných diskových polích ovlivněny nebudou.
S omluvou za komplikace,
MetaCentrum
Vazeny uzivateli sluzby MetaCentrum Cloud,
dovolte nám Vás informovat o plánovaném výpadku API a dashboard komponenty cloudu 'Cloud MetaCentrum' (OpenStack). Tento planovany vypadek je z důvodu upgradu reverzní proxy. Výpadek ovlivni přístup k Openstacku přes API a dashboard, Vaše virtuální stroje by jim neměly byt ovlivněné. Výpadek je naplánovaný na 21.10.2021 v čase od 8:30 do 16:00.
Děkujeme za pochopeni,
Tým MetaCentrum Cloud
Dnes v noci došlo k neplánovanému výpadku napájení na sále v Českých Budějovicích, závadu se snažíme ve spolupráci s místními správci lokalizovat a opravit. Diskové pole /storage/budejovice/home/ je dočasně nedostupné, stejně tak cluster hildor.
Velmi se omlouváme za způsobené komplikace.
Kvůli výměně hardware bude klastr luna, frontend luna a úložiště storage-praha6-fzu dočasně odstaveno. Odstávka začne v 7:00 v úterý 5. 10. a skončí ve 12:00 ve čtvrtek 7. 10.
Děkujeme za pochopení.
Včera došlo k neplánovanému výpadku síťové konektivity diskového pole v Českých Budějovicích, závadu se snažíme ve spolupráci s místními správci lokalizovat a opravit. Diskové pole /storage/budejovice/home/ je dočasně nedostupné. Samotné úložiště je plně funkční, jen nejde přistupovat k datům. V tuto chvíli nejsme schopni odhadnout dobu výpadku.
Velmi se omlouváme za způsobené komplikace.
Data jsou přenesená nové pole je přepnuté, v případě problémů se neváhejte ozvat.
Na poli byly nastaveny kvóty na počet a velikost souborů, standardně 3 TB a 2 milióny souborů.
Od čtvrtka 29. 7. do neděle 1.8 bude probíhat poslední etapa přesunu dat ze starého pole /storage/brno2/ na nový hardware. Bude probíhat finální synchronizace nejnovějších dat mezi starým a novým polem. Vzhledem k enormnímu množství dat odhadujeme, že synchronizace bude trvat několik dní, prosíme tedy o trpělivost. Pokud možno omezte po tuto dobu práci nad tímto polem.
Téměř po celou dobu synchronizace bude /storage/brno2/ přístupný pro čtení i zápis, na závěr proběhne přepnutí polí, během kterého mohou být data na /storage/brno2 krátkodobě nedostupná.
/storage/brno2/
storage-brno2.metacentrum.cz
Úlohy pracující s daty uloženými/ukládanými na jiných diskových polích ovlivněny nebudou.
Data zapsána do /storage/brno2/ během synchornizace polí mohou zůstat nepřenesená na původním poli, storage-brno6:~/../fsbrno2/home/$LOGNAME, a budete si je muset dokopírovat individuálně.
Připomínáme, že velká disková pole nejsou kompletně zálohovaná, na polích se prováději tzvn. Snapshoty (ukládají se na tom samém poli). Proto data nejsou chráněná v případě celkového selhání takového diskového pole (jako v případě brno6). Pokud máte data určená k archivaci, uchovávejte si primární kopii také někde jinde anebo data svěřte Datovým úložištím CESNETu.
Více se dočtete v politice zálohování: https://wiki.metacentrum.cz/wiki/Politika_zalohovani
Seznam diskových polí https://wiki.metacentrum.cz/wiki/NFS4_Servery
O znovu zprovoznění pole budeme informovat na webu.
Omlouváme se za nepohodlí, děláme to pro vás.
MetaCentrum
Aktualizace 26. 4. 2021 -- data jsou přenesená nové pole je přepnuté, ale máme hlášené občasné problémy se stabilitou nového diskového pole. Intenzivně pracujeme na vyřešení problému se stabilitou. Prosíme o trpělivost.
Data z období stěhování jsou k dispozici na starém poli, přejmenovaném na storage-plzen1a.metacentrum.cz.
Připomínáme že na storagích nelze pracovat intraktivně (viz https://wiki.metacentrum.cz/wiki/Working_with_data#ssh_protocol). Obsah svého domovského adresáře na odpojeném storagi si můžete prohlédnout příkazem
ssh user_name@storage-plzen1a.metacentrum.cz ls
Data zkopírujete příkazem
scp user_name@storage-plzen1a.metacentrum.cz:~/some_directory .
Od čtvrtka 22. 4. do neděle 25.4 bude probíhat poslední etapa přesunu dat ze starého pole storage-plzen1 (/storaga/plzen1/) na nový hardware. Bude probíhat finální synchronizace nejnovějších dat mezi starým a novým polem. Vzhledem k enormnímu množství dat odhadujeme, že synchronizace bude trvat několik dní, prosíme tedy o trpělivost. Pokud možno omezte po tuto dobu práci nad tímto polem.
/storage/plzen1/
storage-plzen1.metacentrum.cz
Míra ovlivnění běžících úloh v době přepojování:
Politika zálohovaní
Připomínáme, že velká disková pole nejsou kompletně zálohovaná, na polích se prováději tzvn. Snapshoty (ukládají se na tom samém poli). Proto data nejsou chráněná v případě celkového selhání takového diskového pole (jako v případě brno6). Pokud máte data určená k archivaci, uchovávejte si primární kopii také někde jinde anebo data svěřte Datovým úložištím CESNETu.
Více se dočtete v politice zálohování: https://wiki.metacentrum.cz/wiki/Politika_zalohovani
Seznam diskových polí https://wiki.metacentrum.cz/wiki/NFS4_Servery
O znovu zprovoznění pole budeme informovat na webu.
Omlouváme se za nepohodlí, děláme to pro vás.
MetaCentrum
Ve středu 3. 2. dojde k výměně HW starého diskového pole storage-praha1.metacentrum.cz /storage/praha1/
storage-vestec1-elixir.metacentrum.czsymlink do /storage/praha1/ povede dočasně na nové pole, které bude nadále sloužit jako /home pro stroje v Praze
storage-praha1-metacentrum.cz
Míra ovlivnění běžících úloh v době přepojování:
Politika zálohovaní
Připomínáme, že velká disková pole nejsou kompletně zálohovaná, na polích se prováději tzvn. Snapshoty (ukládají se na tom samém poli). Proto data nejsou chráněná v případě celkového selhání takového diskového pole (jako v případě brno6). Pokud máte data určená k archivaci, uchovávejte si primární kopii také někde jinde anebo data svěřte Datovým úložištím CESNETu.
Více se dočtete v politice zálohování: https://wiki.metacentrum.cz/wiki/Politika_zalohovani
Seznam diskových polí https://wiki.metacentrum.cz/wiki/NFS4_Servery
Velmi se omlouváme za způsobené komplikace.
MetaCentrum
Vážení uživatelé,
ve dnech 5. a 6. 12. bude probíhat oprava elektrických rozvodů v Praze. Po dobu opravy bude vypnut cluster tarkil. Diskové pole /storage/praha1/ se budeme snažit udržet v provozu ze záložního zdroje.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
MetaCentrum
Vážení uživatelé,
Dnes došlo k neohlášenému technickému výpadku síťové konektivity v Plzni a Českých Budějovicích, v jehož důsledku mohou být nedostupné některé místní frontendy, clustery a disková pole. Na nápravě pracujeme.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
MetaCentrum
update: 24. 09. 2020 14:01 výpadek chlazení stále trvá, nemáme informace, kdy bude opraveno.
Dobrý den,
včera v noci došlo k výpadku chlazení na servrovně a clustery elmo1 a 2 a také storage musely být vypnuty.
Na nápravě se pracuje, tak snad brzy budou zase přístupy možné.
S omluvou za komplikace
Vaše MetaCentrum
15. a 16. 9. dojde ve večerních hodinách k upgrade SW na routerech v Praze Dejvicích. Při
upgrade bude docházet k cca 30 minutovým výpadkům sítě na jednotlivých routerech.
V úterý 15. září od 22:00 do 01:00
- přípojka pro cluster TARKIL - L2 propoj ke clusteru ARUBA
- přípojka pro cluster SKURUT FZU - globální tabulka - primární
- přípojka pro cluster SKURUT FZU - L3 VPN LHCONE - backup
Ve středu 16. září od 20:00 do 23:00
- přípojka pro cluster SKURUT - globální tabulka - backup
- přípojka pro cluster SKURUT - L3 VPN LHCONE - primarní
- přípojka pro cluster Elixir na UOCHB
- přípojka pro cluster na (luna, kalpa) FZU
- přípojka GEANTu do LHCONE
Předpokládáme, že k výpadku dojde asi půl hodiny po začátku okna.
Cluster SKURUT by měl být dostupný stále. Ty ostatní spoje však zálohu nemají.
Velmi se omlouváme za způsobené komplikace.
Dnes v noci došlo k neplánovanému výpadku HW/SW diskového pole v Praze, závadu se snažíme lokalizovat a opravit. Diskové pole /storage/praha1/home/ je dočasně nedostupné, problematický je i čelní uzel tarkil a clustery, které mají na tomto poli home adresář (adan, luna, kalpa, tarkil...)
Velmi se omlouváme za způsobené komplikace.
Vazeny uzivateli sluzby MetaCentrum Cloud,
dovolte nam informovat Vas o planovanom vypadku sitoveho spojeni cloudu
'Cloud MetaCentrum' (OpenStack). Tento vypadek je naplanovan z duvodu
nutneho upgradu sitove vrstvy. Vypadek ovlivni vylucne sit, samotne
virtualni stroje by ovlivnene byt nemely. Vypadek je naplanovany na
16.07.2020 v case od 8:00 do 12:00. Behem vypadku nebude mozne
pristupovat k virtualnim strojum a ani virtualni stroje nebudou moci
pristupovat k internetu. Spustene vypocty na Vasich strojich by vsak
nemely byt ovlivneny.
Dekujeme za pochopeni,
Tým MetaCentrum Cloud
Vážený uživateli služby MetaCentrum Cloud.
Dne 27.5.2020 dojde k plánové odstávce řídící vrstvy služby MetaCentrum Cloud (OpenStack) z důvodů upgrade verze OpenStacku (z verze Stein na Train). Výpadek bude začínat v 8:00 a bude pokračovat nejpozději do 18:00. V průběhu této odstávky nebude dostupné API OpenStacku pro management (včetně dashboardu). Připojení virtuálních instancí k internetu a jejich běh by měl zůstat zachován. Doporučujeme ale neplánovat na tento den kritické úlohy.
Děkujeme za vaši trpělivost
Tým MetaCentrum Cloud;
O vikendu 16.5.-17.5. probehne odstavka vsech uzlu luna v dusledku planovaneho preruseni dodavky el. energie v arealu Slovanka. Tato odstavka se tyka take diskovych poli /storage/praha4-fzu/home/
a /storage/praha6-fzu/home/.
Vypnuti uzlu luna probehne v sobotu, 16.5. rano v 6 hod. Uzly i pole budou opet k dispozici v pondeli, 18.5. dopoledne.
Dekujeme za pochopeni.
Dnes v noci došlo k neplánovanému výpadku HW/SW diskového pole v Českých Budějovicích, závadu se snažíme lokalizovat a opravit. Diskové pole storage-budejovice1.metacentrum.cz /storage/budejovice1/home/ je dočasně nedostupné, problematický je i čelní uzel hildor, který má na tomto poli home adresář.
Míra ovlivnění běžících úloh:
* Úlohy pracující s daty uloženými/ukládanými na jiných diskových polích ovlivněny nebudou.
* Úlohy pracující ve scratchi, které při ukončení výpočtu ověřují úspěšnost vykopírování výsledků na diskové pole (např. dle doporučovaného skeletu skriptu na https://wiki.metacentrum.cz/wiki/Working_with_data/Working_with_data_in_a_job), a které se budou v okamžiku odstávky pokoušet vykopírovat data na diskové pole /storage/budějovice1/ budou ovlivněny jen minimálně, svá data naleznete ve scratchi na příslušných strojích.
* Úlohy, které jakkoliv pracují přímo nad daty diskového pole /storage/budejovice1/ (nedoporučený způsob práce s daty) budou ukončeny.
Velmi se omlouváme za způsobené komplikace.
Kvůli nutné údržbě budou 19. 2. 2020 mezi 13 a 14 h vypnuta disková pole /storage/brno2 a /storage/brno6. Nebude možné se přihlásit na čelní uzly skirit a perian a pozastaví se spouštění nových úloh na brněnských klastrech spravovaných PBS serverem meta-pbs.metacentrum.cz
S omluvou za komplikace,
Aktualizace: po poledni se podařilo problém se sítí vyřešit.
Opakované krátké výpadky segmentu univerzitní sítě v Brně způsobují výpadky PBS serveru cerit-pbs, nekatualizaci aplikace PBSmonu a částečné výpadky OpenStacku.
Na odstranění problémů pracujeme.
S omluvou za komplikace,
V úterý 11. 2. od 10 do 14 h dojde k plánované odstávce výpočetního clusteru charon.nti.tul.cz.
S omluvou za komplikace,
Ve dnech 14. - 16. 1. 2020 dojde k plánované odstávce clusterů carex.ibot.cas.cz a draba.ibot.cas.cz a diskového pole /storage/pruhonice1-ibot/home v Průhonicích.
S omluvou za komplikace,
Vazeny pouzivatel sluzby MetaCentrum Cloud,
dovolte nam informovat Vas ohladom planovanej odstavky sluzieb
MetaCentrum Cloud (OpenStack) dna 16.12.2019 z dovodu upgradu verzie
OpenStacku (z verzie Rocky na Stein). Vypadok bude zacinat o 7:00 rano
a bude pokracovat najneskor do 6:00 popoludni. Pocas tohoto vypadku
nebude dostupne API OpenStacku pre management (vratane dashboardu).
Pripojenie virtualnych strojov k Internetu by malo fungovat pocas tohoto
vypadku, avsak nie je odporucane na nich pustat kriticke ulohy.
Dakujeme za Vasu trpezlivost.
Ve středu 30. 10. došlo kolem 15. hodiny k úplnému výpadku napájení na sále UOCHB, které postihlo clustery elmo1, elmo2 a diskové pole storage-praha5-elixir.metacentrum.cz (/storage/praha5-elixir/). Dodávka elektřiny byla obnovena po necelé hodině. Na zjištění důvodu výpadku správa budovy pracuje.
Velmi se omlouváme za způsobené komplikace.
V pondělí 21. 10. od 10:00 dojde, v důsledku neplánované odstávky dolního sálu v Brně na FI MU, k odstávce clusterů a diskového pole umístěných na tomto sále:
Míra ovlivnění běžících úloh v době přepojování:
* Úlohy pracující s daty uloženými/ukládanými na jiných diskových polích ovlivněny nebudou.
* Úlohy pracující ve scratchi, které při ukončení výpočtu ověřují úspěšnost vykopírování výsledků na diskové pole (např. dle doporučovaného skeletu skriptu na https://wiki.metacentrum.cz/wiki/Working_with_data/Working_with_data_in_a_job), a které se budou v okamžiku odstávky pokoušet vykopírovat data na diskové pole/storage/brno2/budou ovlivněny jen minimálně, svá data naleznete ve scratchi na příslušných strojích.
* Úlohy, které jakkoliv pracují přímo nad daty diskového pole /storage/brno2/(nedoporučený způsob práce s daty) budou ukončeny.
Velmi se omlouváme za způsobené komplikace.
Dobry den,
dovolte nam informovat Vas o planovanom vypadku sietoveho spojenia cloudu 'Cloud2 MetaCentrum' (OpenStack). Tento planovany vypadok je z dovodu nutneho upgradu sietovej vrstvy. Vypadok teda ovplyvni vylucne siet, a vase virtualne stroje by nim nemali byt ovplyvnene. Vypadok je naplanovany na 4. 9. 2019.
Pocas vypadku nebude mozne pristupovat ku virtualnym strojom a ani virtualne stroje nebudu moct pristupovat k internetu. Vypocet Vasich strojov by vsak nemal byt ovplyvneny.
Dakujeme za pochopenie.
Dobry den,
dovolte nam informovat Vas o planovanom vypadku sietoveho spojenia cloudu 'Cloud2 MetaCentrum' (OpenStack). Tento planovany vypadok je z dovodu nutneho upgradu sietovej vrstvy. Vypadok teda ovplyvni vylucne siet, a vase virtualne stroje by nim nemali byt ovplyvnene. Vypadok je naplanovany na 21.08.2019 v case od 7:00 do 10:00.
Pocas vypadku nebude mozne pristupovat ku virtualnym strojom a ani virtualne stroje nebudu moct pristupovat k internetu. Vypocet Vasich strojov by vsak nemal byt ovplyvneny.
Dakujeme za pochopenie.
Ve středu 17. 7. dojde ke krátké odstávce úložiště v Jihlavě kvůli údržbě diesel agregátu. Nebude dostupné archivní úložiště du2.cesnet.cz (/storage/jihlava2-archive/) a pole ceph.
Velmi se omlouváme za způsobené komplikace.
Vážení uživatelé,
Dnes došlo k neohlášenému technickému výpadku síťové konektivity na sále v Brně, v jehož důsledku mohou být nedostupné frontendy, clustery a diskové pole Centra CERIT-SC a ELIXIR-CZ a MetaCloud. Na nápravě pracujeme.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
MetaCentrum
Vážení uživatelé,
Dne 26. 4. v brzkých raních hodinách došlo k neohlášenému technickému výpadku (chlazení) na sále CERIT-SC v Brně, v jehož důsledku mohou být nedostupné některé clustery a diskové pole Centra CERIT-SC. Na nápravě pracujeme, stroje postupně vracíme do provozu.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
MetaCentrum
update 26. 4. 2019 12:30 - všechny frontendy a všechna disková pole a většina postižených pracovních uzlů jsou zpět v provozu
Dnes 10. 4. došlo k neočekávané závadě napájení na sále v Jihlavě. Není dostupné archivní úložiště du2.cesnet.cz (/storage/jihlava2-archive/).
Velmi se omlouváme za způsobené komplikace.
Vážení uživatelé,
Dne 12. 3. ve 14 hodin došlo k neohlášenému technickému výpadku (napájení nebo síť) na sále CERIT-SC v Brně, v jehož důsledku jsou mohou být nedostupné některé clustery a diskové pole Centra CERIT-SC. Rozsah výpadku upřesníme.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
MetaCentrum
Vážení uživatelé,
Dne 8. 3. 2019 dojde mezi 10. a 11. hodinou k plánovaném cca 10 minutovému výpadku sítě na sále FZU v Praze (upgrade firmware centrálního switche), v jehož důsledku budou krátce nedostupné clustery luna a kalpa a diskové pole /storage/praha4-fzu/home.
Velmi se omlouváme za způsobené komplikace.
MetaCentrum
Vážení uživatelé,
Dne 20. 02. 2019 dojde mezi 9. a 21. hodinou k plánovaném výpadku napájení na sále FZU v Praze (pgrade síťového připojení na páteřní síť), v jehož důsledku budou nedostupné clustery luna a kalpa a diskové pole /storage/praha4-fzu/home.
Velmi se omlouváme za způsobené komplikace.
MetaCentrum
Dnes došlo k neočekávané poruše diskového pole /storage/praha1 a nelze se přihlásit na čelní a výpočetní uzly, které sdílejí /home s tímto polem (tarkil, luna). Pracujeme na odstranění příčiny. V tuto chvíli nedokážeme odhadnout, kdy se pole podaří vrátit do provozu.
Velmi se omlouváme za způsobené komplikace.
Ve středu 9. 1. bude ukončen provoz starého diskového pole storage-brno7-cerit.metacentrum.cz /storage/brno7-cerit/
Míra ovlivnění běžících úloh v době přepojování:
V patek 4.1. bylo vráceno do provozu diskové pole storage-brno6.metacentrum.cz /storage/brno6/.
Porucha diskového pole byla velmi závažná, valnou většinu dat se naštěstí podařilo zachránit, ale malá část dat (primárně těch, se kterými se manipulovalo v době poruchy) mohla být ztracena či poškozena.
Prosíme, překontrolujte si všechna svá data umístěná na poli /storage/brno6/.
Připomínáme, že velká disková pole nejsou kompletně zálohovaná, na polích se prováději tzvn. Snapshoty (ukládají se na tom samém poli). Proto data nejsou chráněná v případě celkového selhání takového diskového pole (jako v případě brno6). Pokud máte data určená k archivaci, uchovávejte si primární kopii také někde jinde anebo data svěřte Datovým úložištím CESNETu.
Více se dočtete v politice zálohování:
Velmi se omlouváme za způsobené komplikace.
Vážení uživatelé,
Dne 12. 12. bohužel došlo k neohlášenému výpadku napájení na sále FZU v Praze (původně šlo o plánované bezvýpadkové přepojování UPS), v jehož důsledku jsou mohou být nedostupné clustery luna a kalpa a je nedostupné diskové pole /storage/praha4-fzu/home. Pole a clustery by měly být zprovozněny následující den 13. 12. 2018
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
MetaCentrum
Z důvodu opakovaných HW výpadků diskového pole /storage/brno6/ došlo k přesunu všech dat na jiné diskové úložiště /storage/brno1/. Symlink /storage/brno6/ zůstal zachován.
Chybující pole jsme reklamovali dodavateli (výměna řadiče). Po opravě budou data vrácena do původního umístění.
Velmi se omlouváme za způsobené komplikace.
O víkendu došlo opakované HW poruše diskového pole /storage/brno6/home/. Vyhodnocujeme závažnost situace a společně s dodavatelem pracujeme na opravě. Snažíme se minimalizovat následky. Momentálně jsou data nedostupná.
Update 26.11.2018 15:00: Kvůli obnově dat jsme pozastavili webové rozhraní OpenNebuly (https://cloud.metacentrum.cz/).
Velmi se omlouváme za způsobené komplikace.
Dnes mezi 15. a 16. hodinou dojde, z důvodu navýšení kapacity, ke krátkému 10 minutovému výpadku diskového pole /storage/brno11-elixir/ (storage-brno11-elixir.metacentrum.cz). Po dobu výpadku nebude pole krátce dostupné.
Míra ovlivnění běžících úloh v době přepojování:
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum
Dne 19. 11. došlo k neočekávané HW poruše diskového pole /storage/brno6/ a nelze se přihlásit na webové rozhraní OpenNebuly (https://cloud.metacentrum.cz/).
21. 11. se podařilo obnovit ze zálohy a znovu zprovoznit https://cloud.metacentrum.cz/
Problém s přístupem na /storage/brno6/home/ přetrvává.
Velmi se omlouváme za způsobené komplikace.
Vážený uživateli MetaCentra a datových úložišť CESNET,
rádi bychom Vás informovali, že hierarchické úložiště v Plzni (du1.cesnet.cz, v MetaCentru /storage/plzen2-archive) bude trvale odstaveno a zlikvidováno.
Pokud na tomto úložišti nemáte data, zbytek tohoto mailu pro Vás není relevantní.
Přenos všech Vašich dat z plzen2-archive bude proveden administrátory úložiště. V tomto mailu Vás seznámíme s harmonogramem a plánovaným postupem.
Data na /storage/plzen2-archive budou dne 26. 10. večer pro uživatele trvale znepřístupněna. Poté provedeme finální synchronizaci jejich aktuálního stavu do Ostravy, tj. du4.cesnet.cz, v MetaCentru /storage/du-cesnet (pozor, nový způsob pojmenování). Tam budou po dobu přesunu také pro uživatele nepřístupná.
Předpokládáme, že je zpřístupníme během večera v neděli 28. 10. Od toho okamžiku budou trvale dostupná v novém umístění v Ostravě.
Věnujte rovněž pozornost novým provozním pravidlům datových úložišť CESNETu, která zejména rozlišují politiku pro data trvalé hodnoty a pro dočasné zálohy. Na stránce https://du.cesnet.cz/cs/provozni_pravidla/start najdete plné znění pravidel, na https://du.cesnet.cz/cs/navody/faq/start#zachazeni_s_daty_typu_archiv_a_zalohy popis důležitých změn. Uživatelům MetaCentra jsou k dispozici obě politiky.
Data z Plzně považujeme za data trvalé povahy a budou přesunuta do trvalého archivu. Máte-li jakékoli dotazy nebo potřebujete-li s čímkoli pomoci, kontaktuje nás odpovědí na tento mail na support@cesnet.cz. Děkujeme za spolupráci.
S pozdravem,
Tým Metacentra a datových úložišť CESNET
Dnes došlo k neočekávané poruše diskového pole /storage/brno2 a nelze se přihlásit na čelní a výpočetní uzly, které sdílejí /home s tímto polem. Pole je od odpoledních hodin zpět v provozu.
Velmi se omlouváme za způsobené komplikace.
Velmi se omlouváme za způsobené komplikace.
Aktualizace 2. 2. 2018 11 hodin:: závada byla odstraněna
O víkendu došlo k havárii AFS serveru, která vyvolala rovněž nečekané potíže v klinstké části AFS subsystému. V důsledku těchto poruch jsou nedostupné některé svazky na AFS (nejsou dostupné některé SW moduly) a nejde se přihlásit na některé výpočetní uzly a čelní uzly postižené výše zmíněnou chybou. Na opravě pracujeme.
Velmi se omlouváme za způsobené komplikace.
Kvůli výpadku síťové konektivity na sále v Brně nefungují služby vyžadující s´ťovou konektivitu hostované v lokalitě Brno -- MetaCloud, PBS servery, některé brněnské stroje, ... Na nápravě pracujeme.
Za komplikace se omlouváme,
MetaCentrum
Vážení uživatelé,
Administrátoři Metacentra sledují situaci ohledně nedávno zveřejných chyb v procesorech (známé pod jmény Meltdown a Spectre, pro více informací viz
https://spectreattack.com/).
Vyhodnocujeme reálné dopady zranitelností na infrastrukturu a možné způsoby, jak zabránit jejich zneužití. Dostupné aktualizace jsme aplikovali v prostředích VMWare a MetaCloudu. Pro část výpočetních uzlů sledujeme dostupné aktualizace a vyhodnocujeme jejich vliv na prostředí Metacentra. Instalace oprav budou provedeny v okamžiku, kdy budou dostatečně otestované a budou ověřena případná vykonnostní omezení. V tuto chvíli plánujeme postupnou instalaci aktualizací, ale bude-li to situace vyžadovat, můžeme přistoupit i k akcím, které vynutí okamžitý restart výpočetních zdrojů a zastavení všech aktivních úloh.
Zejména u chystaných dlouhých úloh prosím zvažte odložení jejich spuštění na pozdější dobu, zejména v případě, že vaše úlohy není možné restartovat.
Velmi se omlouváme za způsobené komplikace.
Vaše MetaCentrum
Vážení uživatelé,
Dne 31.12. bohužel došlo k neohlášenému výpadku napájení na sále FZU v Praze (závada UPS), v jehož důsledku jsou nedostupné clustery luna a kalpa. Nedokážeme nyní odhadnout, kdy bude závada odstraněna.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
MetaCentrum
Ve čtvrtek 7.12. 2017 dojde k přepojování diskového pole /storage/budejovice1/ (storage-budejovice1.metacentrum.cz) na nový HW s vyšší úložnou kapacitou. Po dobu synchronizace dat se starým polem (několik hodin) bude pole nedostupné. Sdílený pracovní prostor hildor*:/scratch.shared, mountovaný z tohoto pole, nebude rovněž po dobu výpadku dostupný.
Míra ovlivnění běžících úloh v době přepojování:
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum
Vážení uživatelé,
Vlivem chyby v nové verzi PBS Pro, kterou se nám nepodařilo zachytit na testbedu, došlo dnes dopoledne k vynulování walltime běžících úloh, následně PBS Pro chybně spočitalo využití CPU, velmi nadhodnotila využitý cpu čas a ukončila tak úlohy pro překročení CPU. Chybu jsme hlásili vývojářům PBS Pro a do opravy se vrátili k předchozí funkční verzi.
Omlouváme se za způsobené problémy.
Vážení uživatelé,
Z důvodu plánované odstávky napájení na sále Jihočeské univerzity v Českých Budějovicích v pátek 6.10. 2017 od 7:00 do 10 hodin budou vypnuté všechny stroje klastrů hildor/haldir/hagrid a diskové pole /storage/budejovice1/. Běžící úlohy budou při výpadku ukončeny. Diskové pole poběží na UPS, raději si ale data potřebná k výpočtům překopírujte na jiné pole, nemusí být po celou dobu výpadku dostupná.
Omlouváme se za způsobené problémy.
Vážený uživateli MetaCloudu,
vzhledem k naléhavé potřebě aktualizovat firmware na cloudových uzlech dukan19 – dukan25, budeme muset na chvíli zastavit virtuální stroje umístěné na těchto uzlech. Zásah jsme naplánovali na úterý 25. července. Toho dne bude každý uzel a tedy i každý virtuální stroj zhruba 20 minut vypnutý. Dotčené stroje po zásahu znovu automaticky spustíme. Nedojde k žádné ztrátě dat. Dotčené uživatele jsme upozornili e-mailem.
S omluvou za komplikace,
Váš MetaCloud tým
Vážení uživatelé MetaCloudu,
v pondělí 5. června provedeme migraci virtuálních strojů z uzlů dukan1- 10.
V průběhu migrace budou stroje po dobu několika minut vypnuté tudíž nedostupné. Nedojde k žádné ztrátě dat. Zvláštní pozornost je třeba věnovat strojům s privátními síťovými adresami (nyní v rozsahu 10.4.0.*). Vzhledem ke konfiguraci sítě jim budeme muset změnit privátní IP adresy. Prosím, po tomto datu si vyhledejte nové adresy svých strojů v rozhraní MetaCloudu. Dotčené uživatele jsme na tuto skutečnost upozornili také samostatnou e- mailovou zprávou.
MetaCloud tým
Vážení uživatelé,
Z důvodu plánované odstávky napájení na sále Jihočeské univerzity v Českých Budějovicích v neděli 4. 6. 2017 od 7:45 do 10 hodin budou vypnuté všechny stroje klastrů hildor/haldir/hagrid a diskové pole /storage/budejovice1/. Běžící úlohy budou při výpadku ukončeny. Diskové pole poběží na UPS, raději si ale data potřebná k výpočtům překopírujte na jiné pole, nemusí být po celou dobu výpadku dostupná.
Omlouváme se za způsobené problémy.
Zároveň dojde k zastavení přijímání nových úloh v prostředí Torque (@wagap). Stávající úlohy se dopočítají na zbylých uzlech. Zbylé výpočetní uzly v Torque budou po uvolnění postupně převáděny do prostředí PBS Pro. Stroje zařazené v PBS Pro jsou v PBSMonu označené nápisem "Pro" https://metavo.metacentrum.cz/pbsmon2/nodes/physical .
S omluvou za komplikace a s díky za pochopení,
Uživatelská podpora centra CERIT-SC
V pátek 7. 4. od 15:45 bude probíhat havarijní oprava řadiče diskového pole, které je mj. využívané pro provoz důležitých serverů CERIT-SC. Po celou dobu údržby
bude nedostupný frontend zuphux, další služby (wagap, wagap-pro) budeme ve čtvrteks večer migrovat na jiný provizorní server a mohou mít kratši výpadky dostupnosti. Doba výpadku je odhadována na několik hodin.
Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra: https://wiki.metacentrum.cz/wiki/Čelní_uzel
S omluvou za komplikace a s díky za pochopení, support@cerit-sc.cz
Vážení uživatelé,
po upgrade HSM (storage-brno4-cerit-hsm.metacentrum.cz) dodavatelem (upgrade probíhal 14.-15. 2.) došlo opět k chybě a částečnému výpadku systému (NFS funguje). Dodavatel pracuje na opravě.
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Dnes kolem 4. hodiny došlo k rozsáhlé havárii chlazení v Plzni, místní stroje byly/mohou být proto vypnuty. Výpadek postihl všechny naše plzeňské uzly a diskové pole /storage/plzen1/. Nyní je provoz provizorně obnoven, ale správci nevylučují možnost odstávky při finální opravě.
Velmi se omlouváme za způsobené problémy.
Ivana Křenková
MetaCentrum
Vážení uživatelé,
po upgrade HSM (storage-brno4-cerit-hsm.metacentrum.cz) dodavatelem (upgrade probíhal 14.-15. 2.) došlo k nečekané chybě a výpadku celého systému. HSM je nyní nedostupné. Dodavatel pracuje na opravě, délku výpadku v tuto chvíli nelze odhadnout.
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Vážení uživatelé,
dne 14. 2. od 9:00 dojde, z důvodu bezpečnostního upgrade systému HSM dodavatelem, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/).
Odstávka je plánovaná na 2 dny, tj. 14. 2. od 9 hod. do 15. 2. 18 hod.
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/.
Míra ovlivnění běžících úloh:
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
V pondělí 23. 1. 2017 dojde k přepojování diskového pole /storage/praha1/ (storage-praha1.metacentrum.cz) na nový HW. Po dobu synchronizace dat se starým polem (několik hodin) bude pole nedostupné. Sdílený pracovní prostor tarkil*:/scratch.shared, mountovaný z tohoto pole, nebude rovněž po dobu výpadku dostupný.
Míra ovlivnění běžících úloh v době přepojování:
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum
Vážení uživatelé,
již dříve oznámenou aktualizaci cloudového manageru OpenNebula zahájíme ve středu 11. 1. V té době bude po nějakou dobu nedostupný front-end a v souvislosti s aktualizací uzlů dojde na clusteru dukan.ics.muni.cz k restartu Vašich virtuálních strojů.
Chtěli bychom Vás upozornit, že může dojít k potížím především u virtuálních strojů spouštěných ještě v předminulé verzi OpenNebuly (tj. v roce 2015 a dříve). V případě, že by k nim došlo, kontaktujte nás na cloud@metacentrum.cz.
S omluvou za komplikace,
MetaCoud tým
Vážení uživatelé,
ve čtvrtek 15. 12. od 23 hodin bude probíhat údržba a upgrade Torque serveru wagap.cerit-sc.cz. Nebude možné zadávat nové úlohy ani manipulovat se stávajícími. Předněžně dobu výpadku odhadujeme na 3 hodiny.
Omlouváme se za způsobené problémy.
MetaCentrum & CERIT-SC
Vážení uživatelé,
všechny stroje klastrů hildor/haldir/hagrid postihl neplánovaný výpadek napájení na sále na Jihočeské univerzitě v Českých Budějovicích. Sál běží ze záložní UPS, výpočetní uzly byly vypnuty, abychom byli schopni udržet v provozu alespoň diskové pole /storage/budejovice1/.
Omlouváme se za způsobené problémy.
MetaCentrum
Z důvodu přesunu na nový HW je odstavený frontend tarkil
Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel
S omluvou za komplikace a s díky za pochopení.
Ivana Křenková,
MetaCentrum
Ve čtvrtek 27. 10. 2016 od 10 hodin dojde k přepojování diskového pole /storage/brno3-cerit/ (storage-brno3-cerit.metacentrum.cz) na nový HW. Samotné přepojení se obejde bez výpadku. Může se však stát, že data uložená na starém poli bezprostředně před přepojením se na novém poli objeví se zpožděním.
Míra ovlivnění běžících úloh v době přepojování:
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Na úterý 30. 8. 2016 od 22 hodin je plánovaná dvouhodinová odstávka frontendu zuphux.cerit-sc.cz z důvodu přesunu systému na nový HW. Všechny běžící procesy na tomto frontendu budou ukončeny.
Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel
S omluvou za komplikace a s díky za pochopení.
Ivana Křenková,
MetaCentrum
V pondělí 25. 7. 2016 10:00 dojde k odstávce Hadoop clusteru z důvodu upgradu z CDH 5.5.1 na CDH 5.8.0 (s Hadoop 2.6.0 a Spark 1.6.0) a upgradu Java prostředí.
Velmi se omlouváme za způsobené komplikace.
Ivana Křenková
MetaCentrum
Vážení uživatelé,
Ve dnech 25. 7. - 29. 7. 2016 dojde ke stěhování clusterů i diskového pole v Českých Budějovicích na jinou serverovnu. Stěhování se týká strojů hildor, haldir, hagrid a diskového pole /storage/budejovice1/, po celou dobu budou vypnuty. Data potřebná k výpočtům si překopírujte na jiné pole, po dobu stěhování nebudou dostupná.
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum
Vážení uživatelé,
dnes ráno došlo k výpadku klimatizace na sále CERIT-SC v Brně. V důsledku přehřívání byly vypnuty některé stroje clusterů zigur, zapat a zebra. Výpočetní uzly postupně vracíme do provozu, úlohy běžící v době výpadku byly bohužel násilně ukončeny.
Velmi se omlouváme za způsobené komplikace.
Ivana Křenková
MetaCentrum & CERIT-SC
Vážení uživatelé,
na 27.4. od 22:00 hodin bude plánovaný výpadek napájení v areálu Karolina včetně vypnutí záložního dieselagregátu. Výpadek se týká serverů eru1, eru2, acharon, AFS serverů asterix, obelix, sal a licenčních serverů lm.cuni.cz a tom. Doba trvání výpadku je naplánována na půl hodiny.
Omlouváme se za způsobené problémy.
MetaCentrum
Vážení uživatelé,
na zdrojích centra CERIT-SC v rámci OpenNebula MetaCloudu (fyz. stroje hda*) bude probíhat tento čtvrtek 21. 4. od 22:30 údržba. Vaše virtuální stroje budou během ní pouze pozastaveny (o běžící stav nepřijdete) a po skončení údržby každeho stroje postupně spouštěny. Optimistický předpoklad nedostupnosti každého virt. stroje je 30 minut a celé údržby 2 hodiny.
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Vážení uživatelé,
v pondělí 18. 4. bude, z důvodu úprav elektroinstalace v pavilonu A35, v UKB odstavena dodávka el. napájení včetně zálohované větve serverovny, ve které jsou umístěny clustery lex, krux, zubat a diskové pole brno9-ceitec a brno10-ceitec-hsm. Výpadek se nedotkne clusteru perian, který je umístěný v jiném pavilonu.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum
Vážení uživatelé,
všechny stroje klastrů hermes/hildor/haldir postihl výpadek napájení na sále na Jihočeské univerzitě v Českých Budějovicích. Všechny uzly byly neplánovaně vypnuty. Diskové pole /storage/budejovice1/ běží na záložním napájení.
Omlouváme se za způsobené problémy.
MetaCentrum
Vážení uživatelé,
Sendmail PBS serveru dnes v noci, při změně konfigurace, odeslal část chybných/neaktuálních hlášení o zrušených úlohách, které skončily v průběhu předešlého týdne.
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Vážení uživatelé,
dne 2. 3. od 9:00 dojde, z důvodu bezpečnostního upgrade systému HSM dodavatelem, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/).
Odstávka je plánovaná na 2 dny, tj. 2. 3. od 9 hod. do 3. 3. 18 hod.
**************************************************
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/.
***************************************************
Míra ovlivnění běžících úloh:
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Vážení uživatelé,
Dne 23.2.2016 od 10:00 hodin dojde, z důvodu výměny baterií dodavatelem, k cca hodinovému výpadku diskového pole v Brně (/storage/brno6/).
Míra ovlivnění běžících úloh:
Dále po dobu výpadku nebude dostupné uživatelské (Sunstone) i programové (API) rozhraní MetaCloudu. Běžící virtuální stroje zůstanou v provozu! Pouze nepůjdou vytvářet nové a běžící virtuální stroje se nebudou dát spravovat. Omlouváme se za případné zdržení, které vám tento zásah může způsobit.
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
V pátek 12. 2. 2016 8:00 dojde k odstávce Hadoop clusteru z důvodu upgradu z CDH 5.4.7 na CDH 5.5.1 (s Hadoop 2.6.0 a Spark 1.5.0) a přechodu na Javu verze 8.
Velmi se omlouváme za způsobené komplikace.
Ivana Křenková
MetaCentrum
Ve čtvrtek 4. 2. 2016 v 11:00 dojde ke krátké odstávce Hadoop clusteru z důvodu výmeny certifikátů, rebootu strojů a prací spojených s přípravou experimentálního clusteru v kontejnech.
Velmi se omlouváme za způsobené komplikace.
Ivana Křenková
MetaCentrum
Vážení uživatelé,
Dne 11. 2. proběhne dlouho plánovaný upgrade manažeru OpenNebula. Z toho důvodu bude po několik hodin nedostupné uživatelské (Sunstone) i programové (API) rozhraní MetaCloudu. Běžící virtuální stroje zůstanou v provozu! Pouze nepůjdou vytvářet nové a běžící virtuální stroje se nebudou dát spravovat. Omlouváme se za případné zdržení, které vám tento zásah může způsobit.
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Vážení uživatelé,
na víkend 23. - 24. 1. 2016 je, z důvodu výměny páteřního síťového boxu na Pasnetu, hlášen výpadek síťové konektivity v celém areálu FZÚ AV v Praze na Slovance. Po dobu výpadku nebudou dostupné všechny uzly clusterů luna a kalpa a diskové pole /storage/praha4-fzu/.
Velmi se omlouváme za způsobené komplikace.
Ivana Křenková
MetaCentrum & CERIT-SC.
Vážení uživatelé,
dnes odpoledne bohužel došlo k cca hodinovému výpadku elektrickeho napajeni (cca od 16:30)
v celém areálu Univerzitního kampusu v Bohunicich, při kterém nenaběhly záložní zdroje (diesel agregaty).
Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum & CERIT-SC.
Vážení uživatelé,
včera v podvečerních hodinách (17-23 hod.) došlo k porušení integrity databáze hlavního KDC serveru, který zajišťuje provoz Kerbera. Některé záznamy databáze byly nedostupné. Jelikož sejednalo mimo jiné o záznamy s klíči výpočetních/úložných uzlů, docházelo k problémům s komunikací s těmito službami (zápis končících úloh do /storage apod.). Nyní vše běží a děláme vše pro to, aby se situace neopakovala.
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Vážení uživatelé,
Kvůli HW poruše diskového pole došlo k výpadku front-endu služby MetaCloud. Již spuštěné virtuální stroje jsou nadále v provozu, ale až do ukončení výpadku nelze spouštět další ani běžící stroje spravovat v cloudovém manageru (OpenNebule).
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Vážení uživatelé,
Dne 8. 10. od 8:00 ráno dojde, z důvodu stěhování dat na nový hardware, k výpadku diskového pole v Plzni (/storage/plzen1/).
**************************************************
DǓLEŽITÉ
Upozorňujeme, že po dobu odstávky pole nebude v provozu portál GALAXY.
Frontendy a clustery v lokalitě Plzeň budou rovněž odstaveny.
***************************************************
Míra ovlivnění běžících úloh:
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Kvůli HW chybám, které řešíme s dodavatelem, budou clustery zigut a zapat zprovozněny s měsíčním zpožděním, pravděpodobně ve druhé polovině října.
Za způsobené komplikace se omlouváme.
--
Vážení uživatelé,
Od 18. 8. 2015 budou, z důvodu stěhování do Brna, nedostupné clustery zigur a zapat a diskové pole /storage/jihlava1-cerit/
Kvůli trvající záruce stěhování zajišťuje dodavatel, předpokládaná doba výpadku je 1 měsíc (jedná se o 144 uzlů clusteru).
Míra ovlivnění běžících úloh:
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Vážení uživatelé,
dne 22. 9. od 10:00 dopoledne dojde, z důvodu údržby HSM dodavatelem, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/).
Odstávka je plánovaná na 2 dny, tj. 22. 9. - 23. 9. Je však velmi pravděpodobné, že se služby podaří zprovoznit již 22. 9. v odpoledních hodinách.
**************************************************
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/ a starší, už zrušený, /storage/brno1/. Doporučujeme data určená pro výpočty přesunout na některé z dalších diskových polí (například /storage/brno6/, kde je dostatek volné kapacity). Pokud potřebujete přenést větší objem dat, můžete se obrátit na meta@cesnet.cz.
***************************************************
Míra ovlivnění běžících úloh:
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Vážení uživatelé,
dne 18. 9. došlo, z důvodu SW chyby, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/). Opětovné zprovoznění dodavatel předpokládá začátkem příštího týdne.
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/ a starší, už zrušený, /storage/brno1/ a /storage/home/.
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
Vážení uživatelé,
V sootu 29. 8. dopoledne došlo k poruše primárního i záložního napájení sálů v Praze, v jehož důsledku nebyl dostupný frontend a cluster Tarkil, Mudrc a diskové pole v Praze /storage/praha1/. Dodávka elektrické energie byla obnovena ve 14 hodin. Pole i výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum
Vážení uživatelé,
Dne 18.8. je v Ostravě hlášen výpadke proudu kvůli revizi elektroinstalace. Od ranních hodin jsou cluster Doom a diskové pole /storage/ostrava1/ vypnuty. Zpět do provozu budou vráceny tentýž den v nočních hodinách.
Ve dnech 24.8. až 31.8. pak dojde ke stěhování clusteru i diskového pole na nový sál do Brna. Po tuto dobu budou cluster Doom i diskové pole /storage/ostrava1/ vypnuty. Data potřebná k výpočtům si překopírujte na jiné pole, po dobu stěhování nebudou dostupná.
Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum
Ve čtvrtek 25. 6. 2015 10:00 dojde ke krátké odstávce Hadoop clusteru z důvodu servisního HW zásahu - výměna CMOS baterie na serveru hador-c1.ics.muni.cz.
Velmi se omlouváme za způsobené komplikace.
Ivana Křenková
MetaCentrum
V pondělí 22. 6. 2015 dopoledne dojde ke krátké odstávce frontendu skirit z důvodu upgrade systému. Všechny běžící procesy na tomto frontendu budou ukončeny.
Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel
S omluvou za komplikace a s díky za pochopení.
Vážení uživatelé, v důsledku přepojování L2 sítí v brněnském PoP páteřní sítě CESNET2, dojde k dočasné nedostupnosti frontendu a clusteru tarkil a diskového pole v Praze. Během zásahu nebude na zmíněných strojích síťová konektivita. Úlohy běžící na clusteru tarkil po dobu výpadku pozastavíme, krátce před výpadkem zablokujeme spouštění úloh nových. Taktéž pozastavíme úlohy, které podle zadání v PBS používají diskové pole /storage/praha1/.
Prosím, ukončete do úterního rána všechny interaktivní úlohy běžící z frontendu tarkil.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum
V pondělí dopoledne 18. 5. 2015 dojde ke krátké odstávce frontendu skirit z důvodu upgrade systému. Všechny běžící procesy na tomto frontendu budou ukončeny.
Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel
S omluvou za komplikace a s díky za pochopení.
Ivana Křenková,
MetaCentrum
Vážení uživatelé,
dnes odpoledne bohužel došlo k dalšímu neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum & CERIT-SC.
Vážení uživatelé!
Dovolte nám, abychom vám oznámili plánovanou odstávku clusteru 'metacloud-dukan', který představuje část fyzických uzlů v MetaCloudu. Jedná se o poslední v sérii větších odstávek, při nichž jsme postupně rozšiřovali, modernizovali a fyzicky přesouvali cloudovou infrastrukturu. Odstávka proběhne od 24. do 27. března a budou při ní zastaveny všechny virtuální stroje běžící na uzlech 'dukan{1..10}.ics.muni.cz'. Hlavní změnou bude změna hypervizoru z XEN na KVM, čímž se virtualizační technologie používaná na prostředcích MetaCloudu po několika letech konečně sjednotí.
Jak poznat, že se odstávka týká právě vašich virtuálních strojů
Ve webovém rozhraní OpenNebuly si můžete zobrazit seznam všech svých virtuálních strojů (Virtual Resources → Virtual Machines). Sloupeček 'Host' obsahuje název uzlu, na němž virtuální stroj běží. Plánovaný výpadek se dotkne virtuálních strojů běžících na uzlech dukan{1..10}.ics.muni.cz. V tabulce se dá vyhledávat i s pomocí editačního okna 'Search' v horní části stránky.
Co se bude s virtuálními stroji při odstávce dít
Virtuální stroje bude třeba zastavit. Velkou pomocí nám bude, pokud své stroje zastavíte sami před skončením pracovní doby v pondělí 23. 3. Jinak začneme virtuální stroje zastavovat a odsouvat do úložiště se začátkem odstávky. Po skončení odstávky vás budeme informovat e-mailem a vy budete moci své virtuální stroje začít znovu spouštět. Jelikož na uzlech dojde ke změně hypervizoru z XEN na KVM, mohou některé stroje mít při opětném spuštění problémy. Pokud byste pozorovali v chování svých strojů cokoli neobvyklého, neváhejte se na nás obrátit. Plnou kompatibilitu stávajících strojů s KVM bohužel není možné ověřit jinak než experimentálně. S jistotou lze tvrdit pouze to, že potíže nenastanou u standardních obrazů MetaCentra, protože ty jsou na provoz s KVM připraveny. Děkujeme vám za porozumění. Po skončení tohoto výpadku již další odstávky v dohledné budoucnosti neočekáváme.
Vážení uživatelé,
dnes odpoledne bohužel došlo k neohlášenému výpadku napájení na sále FZU v Praze, v jehož důsledku je nedostupný cluster luna. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum .
Vážení uživatelé,
dnes odpoledne bohužel došlo k dalšímu neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum & CERIT-SC.
Vážení uživatelé,
dnes krátce po poledni bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum & CERIT-SC.
Vážení uživatelé,
po přestěhování uzlů SMP clusteru zewura (nyní přejmenovaných na zebra1-12) na nový sál jsme na několika uzlech při těžkých zátěžových testech narazili na ojedinělé chyby paměti -- při specifické velmi intenzivní zátěži jedním z paměťových testů může dojít k selhání zápisu. Chyby nejsou reprodukovatelné, vyskytly se i při několikadenních testech jen velmi zřídka a považujeme za téměř vyloučené, že se mohou projevit v normálním provozu. Dodavatele jsme na toto chování upozornili a problém se jeho technická podpora snaží přesněji diagnostikovat.
Jednotlivé uzlu postupně vracíme do provozu k dispozici uživatelům; přestože nečekáme problémy, prosíme o hlášení jakéhokoliv podezřelého chování clusteru.
Velmi se omlouváme za způsobené komplikace.
Ivana Křenková
MetaCentrum & CERIT-SC.
Vážení uživatelé,
dnes v noci bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum & CERIT-SC.
Vážení uživatelé hierarchických datových úložišť CESNET / CERIT-SC,
dovolujeme si Vás informovat, že hierarchické úložiště v Plzni (/storage/plzen2-archive) a v Brně (/storage/brno4-cerit-hsm/) nebudou pro uživatele dostupné od středy 3. prosince cca 8:30 do odpoledne 4. prosince 2014. Na úložišti proběhne údržba a upgrade systému. Pokud byste v tuto dobu potřebovali mít přístupná nějaká data, dejte dopředu vědět na meta@cesnet.cz. Zpřístupníme je.
Služby dalších úložišť v Jihlavě (/storage/jihlava2-archive) a Brně (/storage/brno5-archive) nebudou dotčeny. Stejně tak se výpadek netýká služby ownCloud.
Omlouváme se způsobené problémy a děkujeme za pochopení.
Ivana Křenková
Vážení uživatelé,
v pátek 28. 11. 2014 dojde k plánovanému přerušení dodávky elektrické energie na sále v Jihlavě. Clustery zigur a zapat Centra CERIT-SC a diskové pole /storage/jihlava1 budou před hlášeným výpadkem vypnuty a všechny běžící procesy násilně ukončeny. Spouštění nových úloh na dotčených strojích je v tuto chvíli omezeno jen na krátké úlohy, které stihnou do výpadku doběhnout.
Výpadek se týká rovněž cloudových zdrojů umístěných v Jihlavě.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum & CERIT-SC.
Dnes dopoledne byl úspěšně dokončen přesun dat diskového úložiště brno3-cerit z Jihlavy -- brno3-cerit je tak navráceno do plného provozu.
Upozornění: Pokud Vám během synchronizace končily úlohy, mohlo se za určitých okolností stát, že jejich výsledky nebyly zkopírovány -- v tomto případě by tato data měla být uložena v původní (jihlavské) lokaci, aktuálně dostupné skrze cestu /auto/jihlava1-cerit/brno3/export/home/$USER (chybějící data si odsud sami zkopírujte na brno3-cerit -- po pár týdnech je z jihlavského úložiště smažeme).
S přáním úspěšných výpočtů
Tom Rebok.
Vzhledem k jiz uskutecnene oprave diskoveho pole /storage/brno3-cerit
dojde
*** ve stredu 29. rijna ***
k navraceni tohoto diskoveho pole do provozu a presunu dat z Jihlavy zpet do Brna.
Vzhledem k tomu, ze nejsme schopni tato data prenest z Jihlavy (ktera momentalne zastupuje brno3-cerit) instantne bez povsimnuti, bude nutne provozovat ne zcela konzistentni uloziste v delce 1 az 2 dnu.
Abychom minimalizovali dopad tohoto presunu na Vas, uzivatele, bude tento presun probihat nasledovne:
Upozorneni: Pokud budete v prubehu stredy/ctvrtka menit data v lokaci /storage/brno3/home/$LOGIN, mohou byt tato prepsana dokoncenim synchronizace z Jihlavy.
Bezicich uloh by se vsak vyse popsany presun nemel nijak dotknout...
Omlouvame se za pripadne komplikace a dekujeme za pochopeni.
S pozdravem Tomas Rebok,
MetaCentrum NGI.
Vážení uživatelé,
dnes bohužel došlo k opětovnému neohlášenému výpadku napájení na sále v Ostravě, v jehož důsledku byl nedostupný cluster doom a diskové pole /storage/ostrava1/. Úlohy běžící v době výpadku byly bohužel ukončeny. Stroje kontrolujeme a postupně vracíme do provozu.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum
Dovolujeme si Vás informovat, že hierarchické úložiště CERIT-SC (/storage/brno4-cerit-hsm) nebude pro uživatele dostupné dne 1. 10. 2014 v době od 9 hodin). Na úložišti proběhne významný upgrade softwaru. Vzhledem k náročnosti a rozsahu akce nelze dokončení přesně odhadnout. Po dobu odstávky nebude umožněn přístup k uloženým datům.
Za případné problémy se omlouváme a děkujeme za pochopení,
Dnes v ranních hodinách došlo v důsledku poruchy hardware serveru k výpadku diskového pole /storage/brno2/, některých výpočetních strojů a frontendů. Stroje jsme byli nuceni restartovat, úlohy na nich běžící byly přerušeny. Pokud byla některá z Vašich úloh tímto výpadkem postižena, prosím, zadejte ji znovu.
S omluvou za komplikace a s díky za pochopení.
Ivana Křenková,
MetaCentrum
V důsledku nočního výpadku el. energie na sále CERIT-SC v Brně došlo k poškození filesystému na svazku /storage/brno3-cerit. Vzhledem k rozsahu poškození svazku brno3-cerit je možné, že se nepodaří obnovit nejčerstvější data (25.9. okolo 21. hodiny), jedná se převážně o data, se kterými se v době havárie pracovalo.
Data uživatelů (cca 208 TB dat) postupně kopírujeme provizorně do Jihlavy (/auto/jihlava1-cerit/brno3/export), vzhledem k objemu dat je předpokládaná doba kopírování odhadována na 1-2 týdny. Pokud data potřebujete rychleji, napiště na meta@cesnet.cz, jejich kopírování upřednostníme.
Jihlavské pole bude sloužit provizorně (do opravy brněnského pole) jako /home clusterů zewura, zegox a frontendu zuphux. Data budou zpřístupněna rovněž simlinkem /storage/brno3-cerit (po opravě se data vrátí znovu do Brna).
S omluvou za komplikace a s díky za pochopení,
Dnes v noci došlo v důsledku poruchy napájení k výpadku diskového pole /storage/brno3-cerit/. Na odstranění problému pracujeme. Data jsou v současné chvíli nedostupná, na jejich zpřístupnění pracujeme (obnova ze zálohy). V případě, že svá data potřebujete urgentně, napište na meta@cesnet.cz, odkopírujeme požadovaná data na pole do Jihlavy.
S omluvou za komplikace a s díky za pochopení,
Ivana Křenková, MetaCentrum
Vážení uživatelé,
dnes v noci bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly již byly vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum & CERIT-SC.
Vážení uživatelé,
dnes bohužel došlo k opětovnému neohlášenému výpadku napájení na sále v Ostravě, v jehož důsledku byl nedostupný cluster doom a diskové pole /storage/ostrava1/. Úlohy běžící v době výpadku byly bohužel ukončeny. Stroje kontrolujeme a postupně vracíme do provozu.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum
Vážení uživatelé,
dnes bohužel došlo k dalšímu neplánovanému výpadku napájení, tentokrát na sále ÚVT v Brně. Důsledkem tohoto byla ochromena činnost brněnské části MetaCentra, stejně jako některé centrální služby (plánovač, licenční server, disková úložiště, ...). Úlohy běžící v době výpadku byly bohužel ukončeny.
Většina strojů a služeb by již měla být v provozu, nicméně některé napájecí okruhy se nepodařilo oživit a bude potřeba důkladnější inspekce připojených zařízení a nalezení zkratujících zdrojů -- aktuálně tak některé služby (např. licenční server či část portálu) stále nefungují.
Velmi se omlouváme za způsobené komplikace -- bohužel, v boji "vyšší moc" vs. člověk taháme za kratší konec provazu. :-(
Tom Rebok
MetaCentrum
V úterý 19. 8. 2014 od 11 hodin dojde ke dvouhodinové odstávce frontendu skirit.ics.muni.cz z důvodu reinstalace systému. Všechny běžící procesy na tomto frontendu budou ukončeny 19.8. v 11.00.
Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel
S omluvou za komplikace a s díky za pochopení.
Ivana Křenková,
MetaCentrum
Vážení uživatelé,
dnes bohužel došlo k neohlášenému výpadku napájení na sále v Ostravě, v jehož důsledku byl nedostupný cluster doom a diskové pole /storage/ostrava1/. Úlohy běžící v době výpadku byly bohužel ukončeny. Stroje kontrolujeme a postupně vracíme do provozu.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum
Vážení uživatelé,
dnes v noci bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly již byly vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Tom Rebok
MetaCentrum & CERIT-SC.
Dnes kolem 14 hodiny došlo k neplánovanému výpadku konektivity na sálech Západočeské univerzity, který rovněž postihl naše plzeňské uzly. Výpadek byl zaznamenán v době mezi 14:00 -- 14:30 hod., nicméně jeho případné následky se mohly projevit i po tomto čase.
Konektivita by již měla být obnovena, nicméně v důsledku souvisejících servisních činností bohužel nemůžeme zcela vyloučit další krátkodobé výpadky.
Velmi se omlouváme za způsobené problémy.
Tomáš Rebok,
MetaCentrum & CERIT-SC.
V noci na dnešek došlo k havárii AFS serveru, která vyvolala rovněž nečekané potíže v klinstké části AFS subsystému. V důsledku těchto poruch jsou nedostupné některé svazky na AFS (nejsou dostupné některé SW moduly) a nejde se přihlásit na některé výpočetní uzly a čelní uzly postižené výše zmíněnou chybou. Na opravě pracujeme.
Velmi se omlouváme za způsobené komplikace.
V důsledku nočních masivních síťových útoků nebyly dnes přístupné některé autentizované služby -- správa osobních údajů, RT rozhraní, autentizovaná část webu a wiki, apod. Problémy měly i některé brněnské uzly centra CERIT-SC, krátce i frontend skirit a plánovací systémy.
V tuto chvíli jsou všechny služby obnoveny. Pokud narazíte na problém, prosím reportujte.
Velmi se omlouváme za způsobené komplikace.
Dnes okolo poledne došlo k neohlášenému cca hodinovému výpadku napájení na sále v Jihlavě, který postihl cca třetinu clusterů zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu (po upgrade na Debian7), úlohy běžící v době výpadku byly bohužel násilně ukončeny. Data z havarovaných výpočtů zůstala v adresářích /scratch na příslušných strojích.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum & CERIT-SC
Dnes došlo v důsledku poruchy hardware k opetovnému zamrznutí diskového pole /storage/brno2/ a následně pak frontendu skirit. Na odstranění problému pracujeme.
S omluvou za komplikace a s díky za pochopení,
Ivana Křenková, MetaCentrum
Dnes v ranních hodinách došlo v důsledku poruchy hardware serveru k výpadku sdílených (implicitních) scratchů v clusteru mandos. Následně pak kvůli SW problému na straně klientského kódu NFS v jádře došlo během dneška k zamrznutí diskového pole /storage/brno2/, některých výpočetních strojů a frontendů. Stroje jsme byli nuceni restartovat, úlohy na nich běžící byly přerušeny. Pokud byla některá z Vašich úloh tímto výpadkem postižena, prosím, zadejte ji znovu.
S omluvou za komplikace a s díky za pochopení.
Ivana Křenková,
MetaCentrum
V neděli 23. 3. 2014 od 23 hodin dojde ke krátké odstávce frontendu zuphux z důvodu reinstalace systému (upgrade na Debian 7.0). Všechny běžící procesy na tomto frontendu budou ukončeny. Stroj bude opět v provozu nejpozději v pondělí ráno.
Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel
S omluvou za komplikace a s díky za pochopení.
Ivana Křenková,
MetaCentrum & CERIT-SC
Díky opakovaným HW/SW problémům diskového pole /storage/brno1 (resp. /storage/home) jsme nuceni provést jeho komplexní údržbu a upgrade SW.
Tato plánovaná servisní údržba bohužel nelze provést za běhu systému; proto bude diskové pole ***ODSTAVENO*** (a znepřístupněno)
v úterý 25. února 2014 v ranních hodinách
(Předpokládaná délka odstávky je 1-2 dny.)
Míra ovlivnění běžících úloh:
Omlouváme se za způsobené obtíže. Bohužel, aktuální stav /storage/brno1 je bez výraznějšího servisního zásahu dlouhodobě neudržitelný -- tímto tak předejdeme výraznějším problémům, které by mohly nastat v budoucnu.
S díky za pochopení
Tomáš Rebok.
Dnes v noci došlo k neohlášenému cca hodinovému výpadku napájení na sále v Jihlavě, který postihl diskové pole a clustery zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.
Ivana Křenková
MetaCentrum & CERIT-SC
V sobotu 7. 12. 2013 dojde mezi 6. a 14. hodinou, v souvislosti s rekonstrukcí budovy Fakulty informatiky MU, k plánovaným rozsáhlým úpravám v trafostanici. Po dobu servisních prací bude přívod elektřiny zajišťovat diesel agregát. V krajním případě může dojít ke krátkému neplánovanému výpadku napájení na všech brněnských sálech (stroje s vlastností "brno", kromě clusteru perian). Pravděpodobnost výpadku napájení je poměrně malá, avšak ne nulová.
Během údržby elektroinstalce došlo před chvílí k neohlášenému výpadku napájení na sále v Jihlavě, který postihl clustery zigur a zapat Centra CERIT-SC.
Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit...
Ivana Křenková
MetaCentrum & CERIT-SC
Rozšíření a úpravy elektroinstalace na sále ÚVT MU, probíhající v souvislosti s přípravou zprovoznění nově pořizovaného clusteru centra CERIT-SC, si vyžádají vypnutí výpočetních uzlů umístěných v lokalitě Brno ÚVT MU (všechny stroje s vlastností "brno", kromě strojů zewura [1-8]).
V tuto chvíli již nejsou spouštěny úlohy z front delších jak 4 dny, ostatní fronty budou odstavovány postupně. Běžící úlohy budou v den odstávky násilně ukončeny, prosíme majitele dlouhých nebo interaktivních úloh o uvolnění clusterů 30. 9. 2013.
Po dobu výpadku nebude dostupný frontend skirit.ics.muni.cz.
Výpadek se netýká brněnských diskových polí, která budou provizorně připojena přes náhradní napájení.
Omlouváme se za dočasné omezení výpočetní kapacity.
V pondělí 9. 9. 2013 od 9:00 do 17:00 bude, z důvodu aktualizace klíčových komponent systému, dočasně nedostupný svazek /storage/plzen2-archive/ provozovaný oddělením datových úložišť sdružení CESNET, z.s.p.o. Po dobu odstávky bude omezen přístup k uloženým datům.
Za případné problémy se omlouváme a děkujeme za pochopení.
Tento týden probíhá v Plzni na ZČU plánovaná každoroční údržba IT systému (út-pá), mohou se objevit občasné výpadky systému umístěných v této lokalitě, dopad na uživatele se pokusíme minimalizovat.
Omlouváme se za způsobené komplikace.
V úterý 13.8. bude od časných ranních hodin prováděna větší údržba HA strojů centra CERIT-SC, kvůli které budou pro uživatele průběžně nedostupné servery zuphux.cerit-sc.cz (frontend) a
wagap.cerit-sc.cz (Torque server). Služby budou opět uvedeny do provozu do 8 hodin.
Omlouváme se za komplikace.
V důsledku nepříznivých meteorologických podmínek posledních dnů (a odstraňování jejich následků) jsme před chvílí bohužel opět zaznamenali neohlášený výpadek napájení na sále v Jihlavě, který postihl clustery zigur a zapat Centra CERIT-SC.
Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.
Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit...
T. Rebok,
MetaCentrum & CERIT-SC.
V pozdních nočních hodinách došlo k částečnému výpadku napájení v serverovně CERIT-SC, který postihl 11 uzlů clusteru zigur a zapat, konkrétně uzly zapat23 zapat98 zapat99 zapat100 zapat101 zapat111 zigur1zigur3 zigur28 zigur30 zigur31. Výpočetní uzly byly restartovány, běh úloh na postižených strojích byl bohužel ukončen.
Omlouváme se za způsobené komplikace.
Dnes večer došlo v důsledku přerušení dodávky elektrické energie k neplánovanému výpadku clusterů a diskového pole umístěných na sále v Jihlavě.
Výpadek se týká clusterů Zigur, Zapat a diskového pole /storage/jihlava1-cerit/.
Bohužel došlo k pádu všech běžících úloh. Na znovuzprovoznění clusterů a diskového pole pracujeme.
Omlouváme se za nepříjemnosti.
Dne 10. 8. 2013 7:00 - 10:00 dojde k odstávce clusterů a diskového pole umístěných na sále v Českých Budějovicích z důvodu servisních prací na trafostanici a vynuceného přerušení dodávky elektrické energie.
Odstávka se týká clusterů haldir, hildor, hermes (včetně frontendu) a diskového pole /storage/budejovice1/.
V nejbližší době bude na těchto strojích pozastaveno přijímání úloh do dlouhých front, kratší fronty budeme vypínat postupně. Ve frontách vlastníků (jcu a jcu2) budeme postupně omezovat maximální dobu běhu úloh, aby v době výpadku už žádné úlohy neběžely (dlouhotrvající výpočty si, prosíme, dočasně spouštějte ve frontě long na jiné clustery). Případné běžící úlohy budou v den odstávky násilně ukončeny.
S omluvou za komplikace a s díky za pochopení.
Dne 29. 7. 2013 12:00 - 13:00 dojde, z důvodu výměny vadného switche, ke krátkému výpadku síťového připojení na sále v Brně. Po dobu výpadku nebude dostupný frontend skirit a provoz plánovacího serveru arien.ics.muni.cz bude omezen. Výpadek se nedotkne diskových polí.
Vážení uživatelé,
chtěli bychom Vás informovat o možné nedostupnosti služeb datových úložišť sdružení CESNET (týká se svazku /storage/plzen2-archieve/), ke které může dojít 17.7.2013 od 14:00 do 17:00 z důvodů aktualizace klíčových komponent systému. V případě, že nedojde k žádným neočekávaným problémům, k výpadku služeb nedojde. Za případné problémy se omlouváme a děkujeme za pochopení.
Za tým datových uložišť, Michal Strnad CESNET z.s.p.o.
V úterý 18. 6. 2013. v 10:00 dojde ke krátké odstávce frontendu skirit z důvodu přesunu na nový HW. Při této příležitosti provedeme upgrade systému na Debian 6.0. Všechny běžící procesy na tomto frontendu budou ukončeny.
Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů:
S omluvou za komplikace a s díky za pochopení.
Dnes v podvečerních hodinách došlo v důsledku závady na chlazení k přehřívání a následnému vypnutí clusterů umístěných na sále v Plzni. Výpadek se týká clusterů Gram, Minos, Nympha, Konos a stroje Ajax a rovněž plzeňského diskového pole. Bohužel došlo k pádu všech běžících úloh. Na ostranění závady na chlazení se pracuje. Omlouváme se za nepříjemnosti.
Dnes došlo v důsledku servisního zásahu dodavatele k neplánovanému výpadku staršího brněnského diskového pole. Dočasně není dostupný /storage/brno1, /afs a SW moduly. Omlouváme se za nepříjemnosti.
Vzhledem k neočekávané páteční události - požár na brněnském sále- si Vás
dovolujeme informovat o výpadku clusteru perian a čelního uzlu
perian.ncbr.muni.cz.
Tento výpadek plánujeme využít k upgradu systému dotčených uzlů (Debian
5 -> Debian 6), přičemž uzly budou po svém upgradu (počínaje čelním
uzlem) postupně začleňovány zpět do provozu. Navrácení všech/většiny
uzlů clusteru perian pak předpokládáme nejpozději v průběhu přístího
týdne...
S omluvou za komplikace a s díky za pochopení.
Dnes nastal neočekávaný výpadek elektřiny na sále v Praze, což vedlo k pádu clusteru Tarkil i čelního uzlu tarkil.cesnet.cz. Omlouváme se za přerušení běžících úloh.
Výpadku elektřiny jsme využili k tomu, abychom po obnovení její dodávky spustili plánovanou reinstalaci clusteru i čelního uzlu. Reinstalace, přesun některých služeb a případná migrace uživatelských dat z lokálních disků dotčených strojů na nové diskové pole bude trvat zhruba týden. Po zprovoznění strojů se ozveme novinkou. Mezitím můžete využít jiných čelních uzlů.
Po dobu reinstalace nebude běžně přístup k datům, uloženým na lokálních discích postižených strojů. Kdybyste přesto nějaká data nutně potřebovali, prosím ozvěte se na e-mail uživatelské podpory MetaVO meta@cesnet.cz.
Dne 5. března 2013 od 9:00 do cca 12:00 bude probíhat odstávka systému pro správu požadavků (RT - rt3.cesnet.cz) a jeho převod na novou verzi. Během odstávky nebude přístupné ani webové ani mailové rozhraní systému. Maily poslané v době odstávky do systému (například na adresu meta@cesnet.cz), budou doručeny po jejím skončení. Omlouváme se proto za odpovědi opožděné o cca půl dne.
Tento týden probíhá na ZČU v Plzni stěhování clusterů na nový sál. V pondělí dojde k vypnutí výpočetních uzlů clusterů/stroje ajax, konos, minos[20-35] a nympha. V tuto chvíli už není možné na dotčených strojích spouštět nové úlohy. Běžící úlohy budou násilně ukončeny. Stroje budeme vracet do provozu postupně.
Omlouváme se za dočasné omezení výpočetní kapacity.
Při přejímce prací na přepojování UL011 v Plzni na energocentrum byla zjištěna zavážná vada - porucha některých podpůrných systémů (MaR - měření a regulace). K opravě je bohužel třeba dalšího vypnutí (zabití běžících úloh). Práce se uskuteční v noci ze středy na čtvrtek 10.10.2012 (21:00 - 5:00). Omlouváme se za komplikace.
Svazek /storage/brno1 je zaplněný na 100 procent. Navíc se pravděpodobně poškodil i souborový systém, takže na svazku nyní nelze pracovat s daty. Pro práci proto zatím využívejte svazky /storage/brno2 (11TB volných) a /storage/plzen1 (27TB volných). Konec opravy zatím nedovedu odhadnout.
Rád bych vás v této souvislosti požádal, abyste promazali nepotřebné soubory, které na těchto datových úložištích máte.
V noci z 19. na 20.9.2012 se bude přepojovat elektroinstalace na serverovně v Plzni. Stroje vypneme ve středu 19.9. odpoledne, předpokládané spuštění je ve čtvrtek 20.9. ráno. Od čtvrtka by tedy měla být konečně dostupná fronta long na dotčených clusterech.
Kromě zmíněných clusterů nebude též dostupný diskový svazek /storage/plzen1.
Omlouváme se za dočasné omezení výpočetní kapacity.
Nahlášený zítřejší výpadek se nebude konat z důvodu problémů na straně dodavatele prací. O novém plánu odstávky vás budeme informovat opět tímto kanálem. Fronta long na dotčených strojích zůstane zatím vypnutá.
V noci z 29. na 30.8.2012 se bude přepojovat elektroinstalace na serverovně v Plzni. Stroje vypneme ve středu 29.8. odpoledne, předpokládané spuštění je ve čtvrtek 30.8. ráno. Již nyní bylo pozastaveno přijímání úloh do fronty long na těchto strojích, případné běžící úlohy budou v den odstávky násilně ukončeny.
Kromě zmíněných clusterů nebude též dostupný diskový svazek /storage/plzen1.
Omlouváme se za dočasné omezení výpočetní kapacity.