Neplánovaný výpadek pole storage/brno12-cerit/ a frontendu zuphux

18-19.8.2024 - Neplánovaný výpadek pole storage/brno12-cerit/ a frontendu zuphux

aktualizace 26.8. 15:00: diskové pole je zpět v provozu a data by měla být čitelná. Případné problémy prosím hlaste. Děkujeme za pochopení.

 

aktualizace 26.8. od 10:30: během dněšního dopoledne bude diskové pole krátce nedostupné, pokoušíme se znovuzpřístupnit nečitelná data. Omlouváme se za kompliace.

 

aktualizace 20.8.:

Velmi se omlouváme, od neděle se potýkáme s velmi vážným HW problémem.
Malá část dat ve /storage/brno12-cerit je nyní kvůli poruše na jednom z diskových polí nedostupná, pokus o jejich čtení se projevuje jako Input/Output error (z pohledu bloků dat jde o zhruba 1.1 %, ale protože velké soubory nad 4MB se rozkládají přes více zařízení, je u nich pravděpodobnější, že je z nich dotčena alespoň nějaká část).
Závadu řeší podpora výrobce. Zatím nejsou tato data definitivně ztracena, ale momentálně nevíme, kdy se je podaří zpřístupnit ani zda budou nakonec všechna v pořádku. Pokud něco z nich potřebujete rychle, může být efektivnější znovu data načíst (pokud šlo o primární vstupy) nebo přepočítat, co je třeba.

Nyní /storage/brno12-cerit normálně běží a není zvláštní důvod předpokládat, že ostatní data jsou více ohrožena než obvykle. Může ještě dojít ke krátkodobému omezení provozu během oprav postiženého hardware.

Upozorňujeme, že vzhledem k prioritě navýšit maximální nabízenou úložnou kapacitu není možné provádět plnou zálohu všech dat na úložištích takového rozsahu.
Na zajištění plných záloh bychom potřebovali minimálně zdvojnásobit finance na nákup vhodného HW. Vzhledem k tomu, že archivní účely pokrývají disková pole Datových úložišť CESNET, a připravují se rovněž oborové repozitáře v rámci projektu EOSC, na našich diskových polích zálohujeme pouze formou tzvn. snapshotů. Ty nabízejí určitou ochranu pro případ, že uživatel neúmyslně odstraní některé své soubory. Obecně lze obnovit data, která existovala den před nehodou. Snapsoty jsou však uloženy na stejných diskových polích jako data samotná, takže v případě selhání hardwaru mohou být tyto zálohy ztraceny :-(  
https://docs.metacentrum.cz/data/metacentrum-backup/

Je nám to velmi líto, snažíme se udělat maximum pro to, abychom společně s dodavatelem HW nedostupná data obnovili.
Pokud svá data potřebujete velmi naléhavě, pošlete prosím úlohy do systému ještě jednou. V případě potřeby jsme schopni zvýšit vaši prioritu (aby se úlohy spustily co nejdříve).

Děkujeme za pochopení.

everything-fails-all-the -time-amazon

 

--

aktualizace 19.8.: diskové pole funguje pouze v omezeném režimu a dochází k nepánovaným krátkým výpadkům. Pokud možno omezte práci nad tímto polem. Pokoušíme se situaci stabilizovat.

aktualizace 18.8. ve 20 hodin: pole je zpět v provozu 

--

Vážení uživatelé,

aktuálně je nedostupné diskové pole /storage/brno12-cerit/ z důvodu selhání disků, na odstranění problému pracujeme. Také frontend zuphux je nedostupný.

Pokud je to možné, používejte prozatím ostatní storage a frontendy.

S díky za pochopení,

 tým MetaCentra

 

 

 


Ivana Křenková, Sun Aug 18 15:00:00 CEST 2024