Výpadky

Tyto výpadky můžete číst jako RSS.

14.-15.2.2017 - Plánovaná odstávka hierarchického úložiště CERIT-SC /storage/brno4-cerit-hsm/

Vážení uživatelé,

dne 14. 2. od 9:00 dojde, z důvodu bezpečnostního upgrade systému HSM dodavatelem, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/).
Odstávka je plánovaná na 2 dny, tj. 14. 2. od 9 hod. do 15. 2. 18 hod.
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/.

Míra ovlivnění běžících úloh:

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, 7. 2. 2017

23.1.2017 - Plánovaný upgrade diskového pole /storage/praha1/

V pondělí 23. 1. 2017 dojde k přepojování diskového pole /storage/praha1/ (storage-praha1.metacentrum.cz) na nový HW. Po dobu synchronizace dat se starým polem (několik hodin) bude pole nedostupné. Sdílený pracovní prostor tarkil*:/scratch.shared, mountovaný z tohoto pole, nebude rovněž po dobu výpadku dostupný.

Míra ovlivnění běžících úloh v době přepojování:

Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum


Ivana Křenková, 9. 1. 2017

11.1.2017 - Plánovaný výpadek MetaCloud

Vážení uživatelé,

již dříve oznámenou aktualizaci cloudového manageru OpenNebula zahájíme ve středu 11. 1. V té době bude po nějakou dobu nedostupný front-end a v souvislosti s aktualizací uzlů dojde na clusteru dukan.ics.muni.cz k restartu Vašich virtuálních strojů.

Chtěli bychom Vás upozornit, že může dojít k potížím především u virtuálních strojů spouštěných ještě v předminulé verzi OpenNebuly (tj. v roce 2015 a dříve). V případě, že by k nim došlo, kontaktujte nás na cloud@metacentrum.cz.

S omluvou za komplikace,

MetaCoud tým

 

 


Ivana Křenková, 9. 1. 2017

15.12.2016 (23:00-02:00) - Plánovaná odstávka Torqure serveru @wagap

Vážení uživatelé,

ve čtvrtek 15. 12. od 23 hodin bude probíhat údržba a upgrade  Torque serveru wagap.cerit-sc.cz. Nebude možné zadávat  nové úlohy ani manipulovat se stávajícími. Předněžně dobu výpadku odhadujeme na 3 hodiny.

Omlouváme se za způsobené problémy.

Ivana Křenková

MetaCentrum & CERIT-SC

 

Ivana Křenková, 15. 12. 2016

8.12.2016 - Neplánovaný výpadek napájení na sále JU

Vážení uživatelé,

všechny stroje klastrů hildor/haldir/hagrid postihl neplánovaný výpadek napájení na sále na Jihočeské univerzitě v Českých Budějovicích. Sál běží ze záložní UPS, výpočetní uzly byly vypnuty, abychom byli schopni udržet v provozu alespoň diskové pole /storage/budejovice1/.

Omlouváme se za způsobené problémy.

Ivana Křenková

MetaCentrum 

 

Ivana Křenková, 8. 12. 2016

od 1.11.2016 - Odstávka frontendu tarkil.cesnet.cz

Z důvodu přesunu na nový HW je odstavený frontend tarkil

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, 1. 11. 2016

27.10.2016 od 10:00 - Plánovaný upgrade diskového pole /storage/brno3-cerit/

Ve čtvrtek 27. 10. 2016 od 10 hodin dojde k přepojování diskového pole /storage/brno3-cerit/ (storage-brno3-cerit.metacentrum.cz) na nový HW. Samotné přepojení se obejde bez výpadku. Může se však stát, že data uložená na starém poli bezprostředně před přepojením se na novém poli objeví se zpožděním.

Míra ovlivnění běžících úloh v době přepojování:

Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC


Ivana Křenková, 25. 10. 2016

30.8.2016 22:00-0:00 - Odstávka frontendu zuphux.cerit-sc.cz

Na úterý 30. 8. 2016 od 22 hodin je plánovaná dvouhodinová odstávka frontendu zuphux.cerit-sc.cz z důvodu přesunu systému na nový HW. Všechny běžící procesy na tomto frontendu budou ukončeny.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, 24. 8. 2016

25.7.2016 10:00 - Plánovaný výpadek Hadoop clusteru

V pondělí 25. 7. 2016 10:00 dojde k odstávce Hadoop clusteru z důvodu upgradu z CDH 5.5.1 na CDH 5.8.0 (s Hadoop 2.6.0 a Spark 1.6.0) a upgradu Java prostředí.

 

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum

 


Ivana Křenková, 22. 7. 2016

25.7.-29.7.2016 - Stěhování clusterů a diskového pole v Českých Budějovicích

Vážení uživatelé,

Ve dnech 25. 7. - 29. 7. 2016 dojde ke stěhování clusterů i diskového pole v Českých Budějovicích na jinou serverovnu. Stěhování se týká strojů hildor, haldir, hagrid a diskového pole /storage/budejovice1/, po celou dobu budou vypnuty. Data potřebná k výpočtům si překopírujte na jiné pole, po dobu stěhování nebudou dostupná.

Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum
 

 


Ivana Křenková, 24. 6. 2016

1.6.2016 - Neplánovaný výpadek napájení na sále CERIT-SC v Brně

Vážení uživatelé,

dnes ráno došlo k výpadku klimatizace na sále CERIT-SC v Brně. V důsledku přehřívání byly vypnuty některé stroje clusterů zigur, zapat a zebra. Výpočetní uzly postupně vracíme do provozu, úlohy běžící v době výpadku byly bohužel násilně ukončeny.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková

MetaCentrum & CERIT-SC


Ivana Křenková, 1. 6. 2016

27. 4. 2016 22:00 - Plánovaný výpadek napájení na sále Karolina UK

Vážení uživatelé,

na 27.4. od 22:00 hodin bude plánovaný výpadek napájení v areálu Karolina včetně vypnutí záložního dieselagregátu. Výpadek se týká serverů eru1, eru2, acharon, AFS serverů asterix, obelix, sal a licenčních serverů lm.cuni.cz a tom. Doba trvání výpadku je naplánována na půl hodiny.

 

Omlouváme se za způsobené problémy.

Ivana Křenková

MetaCentrum 

 

Ivana Křenková, 26. 4. 2016

21.4.2016 od 22:30 - Plánovaný výpadek MetaCloud

Vážení uživatelé,

na zdrojích centra CERIT-SC v rámci OpenNebula MetaCloudu (fyz. stroje hda*) bude probíhat tento čtvrtek 21. 4. od 22:30 údržba. Vaše virtuální stroje budou během ní pouze pozastaveny (o běžící stav nepřijdete) a po skončení údržby každeho stroje postupně spouštěny. Optimistický předpoklad nedostupnosti každého virt. stroje je 30 minut a celé údržby 2 hodiny.

 

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, 19. 4. 2016

18.4.2016 7-15:00 - Neplánovaný výpadek napájení na sále v Brně UKB

Vážení uživatelé,

v pondělí 18. 4. bude, z důvodu úprav elektroinstalace v pavilonu A35, v UKB odstavena dodávka el. napájení včetně zálohované větve serverovny, ve které jsou umístěny clustery lex, krux, zubat a diskové pole brno9-ceitec a brno10-ceitec-hsm. Výpadek se nedotkne clusteru perian, který je umístěný v jiném pavilonu.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum


Ivana Křenková, 11. 4. 2016

7. 4. 2016 - Neplánovaný výpadek napájení na sále JU

Vážení uživatelé,

všechny stroje klastrů hermes/hildor/haldir postihl výpadek napájení na sále na Jihočeské univerzitě v Českých Budějovicích. Všechny uzly byly neplánovaně vypnuty. Diskové pole /storage/budejovice1/ běží na záložním napájení.

Omlouváme se za způsobené problémy.

Ivana Křenková

MetaCentrum 

 

Ivana Křenková, 7. 4. 2016

1.3.2016 - Problém s PBS serverem dnes v noci

Vážení uživatelé,

Sendmail PBS serveru dnes v noci, při změně konfigurace, odeslal část chybných/neaktuálních hlášení o zrušených úlohách, které skončily v průběhu předešlého týdne.

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, 1. 3. 2016

2.-3.3.2016 - Plánovaná odstávka hierarchického úložiště CERIT-SC /storage/brno4-cerit-hsm/

Vážení uživatelé,

dne 2. 3. od 9:00 dojde, z důvodu bezpečnostního upgrade systému HSM dodavatelem, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/).
Odstávka je plánovaná na 2 dny, tj. 2. 3. od 9 hod. do 3. 3. 18 hod.

**************************************************
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/.
***************************************************

Míra ovlivnění běžících úloh:

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, 23. 2. 2016

23.2.2016 10:00-11:00 - Plánovaná odstávka diskového pole v Brně /storage/brno6/

Vážení uživatelé,

Dne 23.2.2016 od 10:00 hodin dojde, z důvodu výměny baterií dodavatelem, k cca hodinovému výpadku diskového pole v Brně (/storage/brno6/).
 
Míra ovlivnění běžících úloh:

Dále po dobu výpadku nebude dostupné uživatelské (Sunstone) i programové (API) rozhraní MetaCloudu. Běžící virtuální stroje zůstanou v provozu! Pouze nepůjdou vytvářet nové a běžící virtuální stroje se nebudou dát spravovat. Omlouváme se za případné zdržení, které vám tento zásah může způsobit.

Velmi se omlouváme za způsobené komplikace,
 
Ivana Křenková
MetaCentrum & CERIT-SC


Ivana Křenková, 16. 2. 2016

12.2.2016 8:00 - Plánovaný výpadek Hadoop clusteru

V pátek 12. 2. 2016 8:00 dojde k odstávce Hadoop clusteru z důvodu upgradu z CDH 5.4.7 na CDH 5.5.1 (s Hadoop 2.6.0 a Spark 1.5.0) a přechodu na Javu verze 8.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum

 


Ivana Křenková, 11. 2. 2016

4.2.2016 11:00 - Plánovaný výpadek Hadoop clusteru

Ve čtvrtek 4. 2. 2016 v 11:00 dojde ke krátké odstávce Hadoop clusteru z důvodu výmeny certifikátů, rebootu strojů a prací spojených s přípravou experimentálního clusteru v kontejnech.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum

 


Ivana Křenková, 3. 2. 2016

11.2.2016 - Plánovaný výpadek MetaCloud

Vážení uživatelé,

Dne 11. 2. proběhne dlouho plánovaný upgrade manažeru OpenNebula. Z toho důvodu bude po několik hodin nedostupné uživatelské (Sunstone) i programové (API) rozhraní MetaCloudu. Běžící virtuální stroje zůstanou v provozu! Pouze nepůjdou vytvářet nové a běžící virtuální stroje se nebudou dát spravovat. Omlouváme se za případné zdržení, které vám tento zásah může způsobit.

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, 28. 1. 2016

23. - 24. 1. 2016 - Plánovaný výpadek konektivity na sále FZÚ AV v Praze

Vážení uživatelé,

na víkend 23. - 24. 1. 2016 je, z důvodu výměny páteřního síťového boxu na Pasnetu, hlášen výpadek síťové konektivity v celém areálu FZÚ AV v Praze na Slovance. Po dobu výpadku nebudou dostupné všechny uzly clusterů luna a kalpa a diskové pole /storage/praha4-fzu/. 

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, 21. 1. 2016

21.10.2015 16:30 - Neplánovaný výpadek napájení na sále v Brně UKB (cluster perian)

Vážení uživatelé,

dnes odpoledne bohužel došlo k cca hodinovému výpadku elektrickeho napajeni (cca od 16:30)
v celém areálu Univerzitního kampusu v Bohunicich, při kterém nenaběhly záložní zdroje (diesel agregaty).

Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, 21. 10. 2015

14.10.2015 - Neplánovaný výpadek databáze hlavního KDC (Kerberos)

Vážení uživatelé,

včera v podvečerních hodinách (17-23 hod.) došlo k porušení integrity databáze hlavního KDC serveru, který zajišťuje provoz Kerbera. Některé záznamy databáze byly nedostupné. Jelikož sejednalo mimo jiné o záznamy s klíči výpočetních/úložných uzlů, docházelo k problémům s komunikací s těmito službami (zápis končících úloh do /storage apod.). Nyní vše běží a děláme vše pro to, aby se situace neopakovala.

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, 15. 10. 2015

9.10.2015 - Neplánovaný výpadek MetaCloud

Vážení uživatelé,

Kvůli HW poruše diskového pole došlo k výpadku front-endu služby MetaCloud. Již spuštěné virtuální stroje jsou nadále v provozu, ale až do ukončení výpadku nelze spouštět další ani běžící stroje spravovat v cloudovém manageru (OpenNebule).

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, 9. 10. 2015

8.- 9.10. 2015 - Plánovaná odstávka diskového pole v Plzni /storage/plzen1/ a výpadek portálu GALAXY

Vážení uživatelé,

Dne 8. 10. od 8:00 ráno dojde, z důvodu stěhování dat na nový hardware, k výpadku diskového pole v Plzni (/storage/plzen1/).

**************************************************
DǓLEŽITÉ
Upozorňujeme, že po dobu odstávky pole nebude v provozu portál GALAXY.

Frontendy a clustery v lokalitě Plzeň budou rovněž odstaveny. 
***************************************************

Míra ovlivnění běžících úloh:

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, 7. 10. 2015

18.8.-18.10.2015 - Nedostupnost clusterů zigur a zapat a diskového pole /storage/jihlava1-cerit/

Kvůli HW chybám, které řešíme s dodavatelem, budou clustery zigut a zapat zprovozněny s měsíčním zpožděním, pravděpodobně ve druhé polovině října.

Za způsobené komplikace se omlouváme.

--

Vážení uživatelé,

Od 18. 8. 2015 budou, z důvodu stěhování do Brna, nedostupné clustery zigur a zapat a diskové pole /storage/jihlava1-cerit/

Kvůli trvající záruce stěhování zajišťuje dodavatel, předpokládaná doba výpadku je 1 měsíc (jedná se o 144 uzlů clusteru).
 

Míra ovlivnění běžících úloh:



Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum & CERIT-SC
 

 


Ivana Křenková, 1. 10. 2015

22.9.-23.9.2015 - Plánovaná odstávka hierarchického úložiště CERIT-SC /storage/brno4-cerit-hsm/

Vážení uživatelé,

dne 22. 9. od 10:00 dopoledne dojde, z důvodu údržby HSM dodavatelem, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/).
Odstávka je plánovaná na 2 dny, tj. 22. 9. - 23. 9. Je však velmi pravděpodobné, že se služby podaří zprovoznit již 22. 9. v odpoledních hodinách.

**************************************************
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/ a starší, už zrušený, /storage/brno1/. Doporučujeme data určená pro výpočty přesunout na některé z dalších diskových polí (například /storage/brno6/, kde je dostatek volné kapacity). Pokud potřebujete přenést větší objem dat, můžete se obrátit na meta@cesnet.cz.
***************************************************

Míra ovlivnění běžících úloh:

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, 16. 9. 2015

18.9.-? - Neplánovaná odstávka hierarchického úložiště CERIT-SC /storage/brno4-cerit-hsm/

Vážení uživatelé,

dne 18. 9. došlo, z důvodu SW chyby, k výpadku hierarchického úložiště v Brně (/storage/brno4-cerit-hsm/). Opětovné zprovoznění dodavatel předpokládá začátkem příštího týdne.
Upozorňujeme, že na hierarchickém úložišti jsou uložena původní data z Jihlavy /storage/jihlava1-cerit/ a starší, už zrušený, /storage/brno1/ a /storage/home/.

Velmi se omlouváme za způsobené komplikace,

Ivana Křenková
MetaCentrum  & CERIT-SC

 


Ivana Křenková, 16. 9. 2015

29.8.2015 - Neplánovaný výpadek frontendu tarkil, clusteru tarkil, mudrc a diskového pole /storage/praha1/

Vážení uživatelé,

V sootu 29. 8. dopoledne došlo k poruše primárního i záložního napájení sálů v Praze, v jehož důsledku nebyl dostupný frontend a cluster Tarkil, Mudrc a diskové pole v Praze /storage/praha1/. Dodávka elektrické energie byla obnovena ve 14 hodin. Pole i výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum

 


Ivana Křenková, 29. 8. 2015

18.8.-31.8.2015 - Plánovaný výpadek proudu a následné stěhování clusteru Doom a diskového pole z Ostravy do Brna

Vážení uživatelé,

Dne 18.8. je v Ostravě hlášen výpadke proudu kvůli revizi elektroinstalace. Od ranních hodin jsou cluster Doom a diskové pole /storage/ostrava1/ vypnuty. Zpět do provozu budou vráceny tentýž den v nočních hodinách.

Ve dnech 24.8. až 31.8. pak dojde ke stěhování clusteru i diskového pole na nový sál do Brna. Po tuto dobu budou cluster Doom i diskové pole /storage/ostrava1/ vypnuty. Data potřebná k výpočtům si překopírujte na jiné pole, po dobu stěhování nebudou dostupná.

Velmi se omlouváme za způsobené komplikace,
Ivana Křenková
MetaCentrum
 

 


Ivana Křenková, 18. 8. 2015

25.6.2015 10:00 - Plánovaný výpadek Hadoop clusteru

Ve čtvrtek 25. 6. 2015 10:00 dojde ke krátké odstávce Hadoop clusteru z důvodu servisního HW zásahu - výměna CMOS baterie na serveru hador-c1.ics.muni.cz.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum

 



Ivana Křenková, 23. 6. 2015

22.6.2015 10-11 hod. - Odstávka frontendu skirit.ics.muni.cz

V pondělí 22. 6. 2015 dopoledne dojde ke krátké odstávce frontendu skirit z důvodu upgrade systému. Všechny běžící procesy na tomto frontendu budou ukončeny.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,
MetaCentrum

Ivana Křenková, 19. 6. 2015

16.6.2015 10-12 hod. - Plánovaný výpadek frontendu tarkil, clusteru tarkil a diskového pole /storage/praha1/

Vážení uživatelé, v důsledku přepojování L2 sítí v brněnském PoP páteřní sítě CESNET2, dojde k dočasné nedostupnosti frontendu a clusteru tarkil a diskového pole v Praze. Během zásahu nebude na zmíněných strojích síťová konektivita. Úlohy běžící na clusteru tarkil po dobu výpadku pozastavíme, krátce před výpadkem zablokujeme spouštění úloh nových. Taktéž pozastavíme úlohy, které podle zadání v PBS používají diskové pole /storage/praha1/.

Prosím, ukončete do úterního rána všechny interaktivní úlohy běžící z frontendu tarkil.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum

 



Ivana Křenková, 12. 6. 2015

18.5.2015 10-12:OO - Odstávka frontendu skirit.ics.muni.cz

V pondělí dopoledne 18. 5. 2015 dojde ke krátké odstávce frontendu skirit z důvodu upgrade systému. Všechny běžící procesy na tomto frontendu budou ukončeny.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, 14. 5. 2015

31.3.2015 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat + /storage/jihlava1)

Vážení uživatelé,

dnes odpoledne bohužel došlo k dalšímu neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, 31. 3. 2015

24.-27.3.2015 - Plánovaný výpadek clusteru metacloud-dukan

Vážení uživatelé!

Dovolte nám, abychom vám oznámili plánovanou odstávku clusteru 'metacloud-dukan', který představuje část fyzických uzlů v MetaCloudu. Jedná se o poslední v sérii větších odstávek, při nichž jsme postupně rozšiřovali, modernizovali a fyzicky přesouvali cloudovou infrastrukturu. Odstávka proběhne od 24. do 27. března a budou při ní zastaveny všechny virtuální stroje běžící na uzlech 'dukan{1..10}.ics.muni.cz'. Hlavní změnou bude změna hypervizoru z XEN na KVM, čímž se virtualizační technologie používaná na prostředcích MetaCloudu po několika letech konečně sjednotí.

Jak poznat, že se odstávka týká právě vašich virtuálních strojů

Ve webovém rozhraní OpenNebuly si můžete zobrazit seznam všech svých virtuálních strojů (Virtual Resources → Virtual Machines). Sloupeček 'Host' obsahuje název uzlu, na němž virtuální stroj běží. Plánovaný výpadek se dotkne virtuálních strojů běžících na uzlech dukan{1..10}.ics.muni.cz. V tabulce se dá vyhledávat i s pomocí editačního okna 'Search' v horní části stránky.

Co se bude s virtuálními stroji při odstávce dít

Virtuální stroje bude třeba zastavit. Velkou pomocí nám bude, pokud své stroje zastavíte sami před skončením pracovní doby v pondělí 23. 3. Jinak začneme virtuální stroje zastavovat a odsouvat do úložiště se začátkem odstávky. Po skončení odstávky vás budeme informovat e-mailem a vy budete moci své virtuální stroje začít znovu spouštět. Jelikož na uzlech dojde ke změně hypervizoru z XEN na KVM, mohou některé stroje mít při opětném spuštění problémy. Pokud byste pozorovali v chování svých strojů cokoli neobvyklého, neváhejte se na nás obrátit. Plnou kompatibilitu stávajících strojů s KVM bohužel není možné ověřit jinak než experimentálně. S jistotou lze tvrdit pouze to, že potíže nenastanou u standardních obrazů MetaCentra, protože ty jsou na provoz s KVM připraveny. Děkujeme vám za porozumění. Po skončení tohoto výpadku již další odstávky v dohledné budoucnosti neočekáváme.

S pozdravem,
MetaCloud

 


Ivana Křenková, 10. 3. 2015

3.3.2015 10-12 hod. - Neplánovaný výpadek napájení na sále FZU v JPraze (cluster luna)

Vážení uživatelé,

dnes odpoledne bohužel došlo k neohlášenému výpadku napájení na sále FZU v Praze, v jehož důsledku je nedostupný cluster luna. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum .


Ivana Křenková, 3. 3. 2015

13.1.2015 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat + /storage/jihlava1)

Vážení uživatelé,

dnes odpoledne bohužel došlo k dalšímu neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, 13. 1. 2015

10.1.2015 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat)

Vážení uživatelé,

dnes krátce po poledni bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, 10. 1. 2015

- Potenciální problém se zápisem do paměti na clusteru zebra

Vážení uživatelé,

po přestěhování uzlů SMP clusteru zewura (nyní přejmenovaných na zebra1-12) na nový sál jsme na několika uzlech při těžkých zátěžových testech narazili na ojedinělé chyby paměti -- při specifické velmi intenzivní zátěži jedním z paměťových testů může dojít k selhání zápisu. Chyby nejsou reprodukovatelné, vyskytly se i při několikadenních testech jen velmi zřídka a považujeme za téměř vyloučené, že se mohou projevit v normálním provozu. Dodavatele jsme na toto chování upozornili a problém se jeho technická podpora snaží přesněji diagnostikovat.

Jednotlivé uzlu postupně vracíme do provozu k dispozici uživatelům; přestože nečekáme problémy, prosíme o hlášení jakéhokoliv podezřelého chování clusteru.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, 9. 12. 2014

3.12.2014 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat)

Vážení uživatelé,

dnes v noci bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, 3. 12. 2014

3. - 4.12. 2014 - Plánovaná údržba archivního úložiště v Plzni a v Brně

Vážení uživatelé hierarchických datových úložišť CESNET / CERIT-SC,

dovolujeme si Vás informovat, že hierarchické úložiště v Plzni (/storage/plzen2-archive) a v Brně (/storage/brno4-cerit-hsm/) nebudou pro uživatele dostupné od středy 3. prosince cca 8:30 do odpoledne 4. prosince 2014. Na úložišti proběhne údržba a upgrade systému. Pokud byste v tuto dobu potřebovali mít přístupná nějaká data, dejte dopředu vědět na meta@cesnet.cz. Zpřístupníme je.

Služby dalších úložišť v Jihlavě (/storage/jihlava2-archive) a Brně (/storage/brno5-archive) nebudou dotčeny. Stejně tak se výpadek netýká služby ownCloud.

Omlouváme se způsobené problémy a děkujeme za pochopení.

Ivana Křenková


Ivana Křenková, 25. 11. 2014

28.11.2014 9-13 hod. - Plánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat + /storage/jihlava1)

Vážení uživatelé,

v pátek 28. 11. 2014 dojde k plánovanému přerušení dodávky elektrické energie na sále v Jihlavě. Clustery zigur a zapat Centra CERIT-SC a diskové pole /storage/jihlava1 budou před hlášeným výpadkem vypnuty a všechny běžící procesy násilně ukončeny. Spouštění nových úloh na dotčených strojích je v tuto chvíli omezeno jen na krátké úlohy, které stihnou do výpadku doběhnout.

Výpadek se týká rovněž cloudových zdrojů umístěných v Jihlavě.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.

 



Ivana Křenková, 21. 11. 2014

31.10.2014 - Dokončení přesunu dat - brno3-cerit v plném provozu

Dnes dopoledne byl úspěšně dokončen přesun dat diskového úložiště brno3-cerit z Jihlavy -- brno3-cerit je tak navráceno do plného provozu.

Upozornění: Pokud Vám během synchronizace končily úlohy, mohlo se za určitých okolností stát, že jejich výsledky nebyly zkopírovány -- v tomto případě by tato data měla být uložena v původní (jihlavské) lokaci, aktuálně dostupné skrze cestu /auto/jihlava1-cerit/brno3/export/home/$USER (chybějící data si odsud sami zkopírujte na brno3-cerit -- po pár týdnech je z jihlavského úložiště smažeme).

S přáním úspěšných výpočtů
Tom Rebok.


Tom Rebok, 31. 10. 2014

29.-30.10.2014 - Navraceni dat zpet z Jihlavy - kratkodoby vypadek uloziste brno3-cerit

Vzhledem k jiz uskutecnene oprave diskoveho pole /storage/brno3-cerit dojde

*** ve stredu 29. rijna ***

k navraceni tohoto diskoveho pole do provozu a presunu dat z Jihlavy zpet do Brna.

Vzhledem k tomu, ze nejsme schopni tato data prenest z Jihlavy (ktera momentalne zastupuje brno3-cerit) instantne bez povsimnuti, bude nutne provozovat ne zcela konzistentni uloziste v delce 1 az 2 dnu.

Abychom minimalizovali dopad tohoto presunu na Vas, uzivatele, bude tento presun probihat nasledovne:

Upozorneni: Pokud budete v prubehu stredy/ctvrtka menit data v lokaci /storage/brno3/home/$LOGIN, mohou byt tato prepsana dokoncenim synchronizace z Jihlavy.

Bezicich uloh by se vsak vyse popsany presun nemel nijak dotknout...

Omlouvame se za pripadne komplikace a dekujeme za pochopeni.

S pozdravem Tomas Rebok,
MetaCentrum NGI.


Tom Rebok, 23. 10. 2014

4.10.2014 - Neplánovaný výpadek napájení na sále v Ostravě (GPU cluster doom)

Vážení uživatelé,

dnes bohužel došlo k opětovnému neohlášenému výpadku napájení na sále v Ostravě, v jehož důsledku byl nedostupný cluster doom a diskové pole /storage/ostrava1/. Úlohy běžící v době výpadku byly bohužel ukončeny. Stroje kontrolujeme a postupně vracíme do provozu.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum


Tom Rebok, 4. 10. 2014

1. 10. 2014 9:00 - 16:00 - Plánovaná odstávka archivního úložiště /storage/brno4-cerit-hsm/

Dovolujeme si Vás informovat, že hierarchické úložiště CERIT-SC (/storage/brno4-cerit-hsm) nebude pro uživatele dostupné dne 1. 10. 2014 v době od 9 hodin). Na úložišti proběhne významný upgrade softwaru. Vzhledem k náročnosti a rozsahu akce nelze dokončení přesně odhadnout. Po dobu odstávky nebude umožněn přístup k uloženým datům.

Za případné problémy se omlouváme a děkujeme za pochopení,

Ivana Křenková
MetaCentrum & CERIT-SC

 


Ivana Křenková, 1. 10. 2014

29.9.2014 - Neplánovaný výpadek diskového pole /storage/brno2/, frontendů a některých uzlů

Dnes v ranních hodinách došlo v důsledku poruchy hardware serveru k výpadku diskového pole /storage/brno2/, některých výpočetních strojů a frontendů. Stroje jsme byli nuceni restartovat, úlohy na nich běžící byly přerušeny. Pokud byla některá z Vašich úloh tímto výpadkem postižena, prosím, zadejte ji znovu.

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, 29. 9. 2014

26.9.2014 - Nedostupnost dat z diskového pole /storage/brno3-cerit/

V důsledku nočního výpadku el. energie na sále CERIT-SC v Brně došlo k poškození filesystému na svazku /storage/brno3-cerit. Vzhledem k rozsahu poškození svazku brno3-cerit je možné, že se nepodaří obnovit nejčerstvější data (25.9. okolo 21. hodiny), jedná se převážně o data, se kterými se v době havárie pracovalo. 

Data uživatelů (cca 208 TB dat) postupně kopírujeme provizorně do Jihlavy (/auto/jihlava1-cerit/brno3/export), vzhledem k objemu dat je předpokládaná doba kopírování odhadována na 1-2 týdny. Pokud data potřebujete rychleji, napiště na meta@cesnet.cz, jejich kopírování upřednostníme.

Jihlavské pole bude sloužit provizorně (do opravy brněnského pole) jako /home clusterů zewura, zegox a frontendu zuphux. Data budou zpřístupněna rovněž simlinkem /storage/brno3-cerit (po opravě se data vrátí znovu do Brna).

S omluvou za komplikace a s díky za pochopení,

Ivana Křenková,
MetaCentrum & CERIT-SC

Ivana Křenková, 26. 9. 2014

26.9.2014 - Neplánovaný výpadek diskového pole /storage/brno3-cerit/

Dnes v noci došlo v důsledku poruchy napájení k výpadku diskového pole /storage/brno3-cerit/. Na odstranění problému pracujeme. Data jsou v současné chvíli nedostupná, na jejich zpřístupnění pracujeme (obnova ze zálohy). V případě, že svá data potřebujete urgentně, napište na meta@cesnet.cz, odkopírujeme požadovaná data na pole do Jihlavy. 

S omluvou za komplikace a s díky za pochopení,

Ivana Křenková, MetaCentrum


Ivana Křenková, 26. 9. 2014

21.9.2014 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat + /storage/jihlava1)

Vážení uživatelé,

dnes v noci bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly již byly vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC.


Ivana Křenková, 21. 9. 2014

19.8.2014 - Neplánovaný výpadek napájení na sále v Ostravě (GPU cluster doom)

Vážení uživatelé,

dnes bohužel došlo k opětovnému neohlášenému výpadku napájení na sále v Ostravě, v jehož důsledku byl nedostupný cluster doom a diskové pole /storage/ostrava1/. Úlohy běžící v době výpadku byly bohužel ukončeny. Stroje kontrolujeme a postupně vracíme do provozu.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum


Tom Rebok, 19. 8. 2014

15. 8. 2014 14:45 - 22:00 - Neplánovaný výpadek napájení na sále v Brně, možná stálá nefunkčnost některých služeb (licenční server, portál)

Vážení uživatelé,

dnes bohužel došlo k dalšímu neplánovanému výpadku napájení, tentokrát na sále ÚVT v Brně. Důsledkem tohoto byla ochromena činnost brněnské části MetaCentra, stejně jako některé centrální služby (plánovač, licenční server, disková úložiště, ...). Úlohy běžící v době výpadku byly bohužel ukončeny.

Většina strojů a služeb by již měla být v provozu, nicméně některé napájecí okruhy se nepodařilo oživit a bude potřeba důkladnější inspekce připojených zařízení a nalezení zkratujících zdrojů -- aktuálně tak některé služby (např. licenční server či část portálu) stále nefungují.

Velmi se omlouváme za způsobené komplikace -- bohužel, v boji "vyšší moc" vs. člověk taháme za kratší konec provazu. :-(

Tom Rebok
MetaCentrum


Tom Rebok, 16. 8. 2014

19.8.2014 11:00-13:00 - Odstávka frontendu skirit.ics.muni.cz

V úterý 19. 8. 2014 od 11 hodin dojde ke dvouhodinové odstávce frontendu skirit.ics.muni.cz z důvodu reinstalace systému. Všechny běžící procesy na tomto frontendu budou ukončeny 19.8. v 11.00.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, 15. 8. 2014

15.8.2014 - Neplánovaný výpadek napájení na sále v Ostravě (GPU cluster doom)

Vážení uživatelé,

dnes bohužel došlo k neohlášenému výpadku napájení na sále v Ostravě, v jehož důsledku byl nedostupný cluster doom a diskové pole /storage/ostrava1/. Úlohy běžící v době výpadku byly bohužel ukončeny. Stroje kontrolujeme a postupně vracíme do provozu.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum


Tom Rebok, 15. 8. 2014

7.8.2014 3:50 - 9:00 - Neplánovaný výpadek napájení na sálech v Jihlavě (clustery zigur a zapat + /storage/jihlava1)

Vážení uživatelé,

dnes v noci bohužel došlo k neohlášenému výpadku napájení na sále v Jihlavě, v jehož důsledku byly nedostupné clustery zigur a zapat Centra CERIT-SC, a diskové pole /storage/jihlava1. Výpočetní uzly již byly vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Tom Rebok
MetaCentrum & CERIT-SC.


Tom Rebok, 7. 8. 2014

25.7.2014 14:00 - 14:30 - Výpadek konektivity v Plzni

Dnes kolem 14 hodiny došlo k neplánovanému výpadku konektivity na sálech Západočeské univerzity, který rovněž postihl naše plzeňské uzly. Výpadek byl zaznamenán v době mezi 14:00 -- 14:30 hod., nicméně jeho případné následky se mohly projevit i po tomto čase.

Konektivita by již měla být obnovena, nicméně v důsledku souvisejících servisních činností bohužel nemůžeme zcela vyloučit další krátkodobé výpadky.

Velmi se omlouváme za způsobené problémy.

Tomáš Rebok,
MetaCentrum & CERIT-SC.


Tom Rebok, 25. 7. 2014

23.6.2014 - Neočekávaný výpadek svazku AFS

V noci na dnešek došlo k havárii AFS serveru, která vyvolala rovněž nečekané potíže v klinstké části AFS subsystému. V důsledku těchto poruch jsou nedostupné některé svazky na AFS (nejsou dostupné některé SW moduly) a nejde se přihlásit na některé výpočetní uzly a čelní uzly postižené výše zmíněnou chybou. Na opravě pracujeme.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum & CERIT-SC

 

 


Ivana Křenková, 23. 6. 2014

30.4.2014 0:00 - 13:00 - Neočekávaný výpadek některých autentizovaných služeb

V důsledku nočních masivních síťových útoků nebyly dnes přístupné některé autentizované služby -- správa osobních údajů, RT rozhraní, autentizovaná část webu a wiki, apod. Problémy měly i některé brněnské uzly centra CERIT-SC, krátce i frontend skirit a plánovací systémy.

V tuto chvíli jsou všechny služby obnoveny. Pokud narazíte na problém, prosím reportujte.

Velmi se omlouváme za způsobené komplikace.

Ivana Křenková
MetaCentrum & CERIT-SC

 

 


Ivana Křenková, 30. 4. 2014

28.4.2014 - Neplánovaný výpadek části clusterů zigur a zapat v lokalitě Jihlava

Dnes okolo poledne došlo k neohlášenému cca hodinovému výpadku napájení na sále v Jihlavě, který postihl cca třetinu clusterů zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu (po upgrade na Debian7), úlohy běžící v době výpadku byly bohužel násilně ukončeny. Data z havarovaných výpočtů zůstala v adresářích /scratch na příslušných strojích.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC


Ivana Křenková, 28. 4. 2014

16.4.2014 16:00 - Neplánovaný výpadek diskového pole /storage/brno2/ a frontendu skirit

Dnes došlo v důsledku poruchy hardware k opetovnému zamrznutí diskového pole /storage/brno2/ a následně pak frontendu skirit. Na odstranění problému pracujeme.

S omluvou za komplikace a s díky za pochopení,

Ivana Křenková, MetaCentrum


Ivana Křenková, 16. 4. 2014

10.4.2014 - Neplánovaný výpadek diskového pole, frontendů a některých uzlů

Dnes v ranních hodinách došlo v důsledku poruchy hardware serveru k výpadku sdílených (implicitních) scratchů v clusteru mandos. Následně pak kvůli SW problému na straně klientského kódu NFS v jádře došlo během dneška k zamrznutí diskového pole /storage/brno2/, některých výpočetních strojů a frontendů. Stroje jsme byli nuceni restartovat, úlohy na nich běžící byly přerušeny. Pokud byla některá z Vašich úloh tímto výpadkem postižena, prosím, zadejte ji znovu.

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum


Ivana Křenková, 10. 4. 2014

23.3.2014 23:00 - Odstávka frontendu zuphux.cerit-sc.cz

V neděli 23. 3. 2014 od 23 hodin dojde ke krátké odstávce frontendu zuphux z důvodu reinstalace systému (upgrade na Debian 7.0). Všechny běžící procesy na tomto frontendu budou ukončeny. Stroj bude opět v provozu nejpozději v pondělí ráno.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů MetaCentra:
https://wiki.metacentrum.cz/wiki/Čelní_uzel

S omluvou za komplikace a s díky za pochopení.

Ivana Křenková,

MetaCentrum & CERIT-SC


Ivana Křenková, 19. 3. 2014

25.-26. 2. 2014 - Servisní odstávka diskového pole /storage/brno1 (/storage/home)

Díky opakovaným HW/SW problémům diskového pole /storage/brno1 (resp. /storage/home) jsme nuceni provést jeho komplexní údržbu a upgrade SW.

Tato plánovaná servisní údržba bohužel nelze provést za běhu systému; proto bude diskové pole ***ODSTAVENO*** (a znepřístupněno)

v úterý 25. února 2014 v ranních hodinách
(Předpokládaná délka odstávky je 1-2 dny.)

Míra ovlivnění běžících úloh:

Omlouváme se za způsobené obtíže. Bohužel, aktuální stav /storage/brno1 je bez výraznějšího servisního zásahu dlouhodobě neudržitelný -- tímto tak předejdeme výraznějším problémům, které by mohly nastat v budoucnu.

S díky za pochopení
Tomáš Rebok.


Tom Rebok, 20. 2. 2014

6. 1. 2014 - Výpadek elektřiny v Jihlavě

Dnes v noci došlo k neohlášenému cca hodinovému výpadku napájení na sále v Jihlavě, který postihl diskové pole a clustery zigur a zapat Centra CERIT-SC. Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit.

Ivana Křenková
MetaCentrum & CERIT-SC


Ivana Křenková, 6. 1. 2014

7. 12. 2013 6:00 - 14:00 - Rozsáhlá rekonstrukce elektřiny na FI MUNI v Brně

V sobotu 7. 12. 2013 dojde mezi 6. a 14. hodinou, v souvislosti s rekonstrukcí budovy Fakulty informatiky MU, k plánovaným rozsáhlým úpravám v trafostanici. Po dobu servisních prací bude přívod elektřiny zajišťovat diesel agregát. V krajním případě může dojít ke krátkému neplánovanému výpadku napájení na všech brněnských sálech (stroje s vlastností "brno", kromě clusteru perian). Pravděpodobnost výpadku napájení je poměrně malá, avšak ne nulová.

S omluvou,
Ivana Křenková
MetaCentrum & CERIT-SC

Ivana Křenková, 4. 12. 2013

5. 11. 2013 - Neočekávaný výpadek sálu v Jihlavě (clustery zigur a zapat)

Během údržby elektroinstalce došlo před chvílí k neohlášenému výpadku napájení na sále v Jihlavě, který postihl clustery zigur a zapat Centra CERIT-SC.
Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit...

Ivana Křenková

MetaCentrum & CERIT-SC


Ivana Křenková, 5. 11. 2013

1. 10. 2013 - Plánovaný výpadek v Brně 1. 10. 2013

Rozšíření a úpravy elektroinstalace na sále ÚVT MU, probíhající v souvislosti s přípravou zprovoznění nově pořizovaného clusteru centra CERIT-SC, si vyžádají vypnutí výpočetních uzlů umístěných v lokalitě Brno ÚVT MU (všechny stroje s vlastností "brno", kromě strojů zewura [1-8]).

V tuto chvíli již nejsou spouštěny úlohy z front delších jak 4 dny, ostatní fronty budou odstavovány postupně. Běžící úlohy budou v den odstávky násilně ukončeny, prosíme majitele dlouhých nebo interaktivních úloh o uvolnění clusterů 30. 9. 2013.

Po dobu výpadku nebude dostupný frontend skirit.ics.muni.cz.

Výpadek se netýká brněnských diskových polí, která budou provizorně připojena přes náhradní napájení.

Omlouváme se za dočasné omezení výpočetní kapacity.


Ivana Křenková, 26. 9. 2013

9. 9. 2013 9:00 - 17:00 - Plánovaná odstávka archivního úložiště /storage/plzen2-archive/

V pondělí 9. 9. 2013 od 9:00 do 17:00 bude, z důvodu aktualizace klíčových komponent systému, dočasně nedostupný svazek /storage/plzen2-archive/ provozovaný oddělením datových úložišť sdružení CESNET, z.s.p.o. Po dobu odstávky bude omezen přístup k uloženým datům.

Za případné problémy se omlouváme a děkujeme za pochopení. 


Ivana Křenková, 3. 9. 2013

13.-18. 8. 2013 - Plánovaná profylaxe na ZČU v Plzni

Tento týden probíhá v Plzni na ZČU plánovaná každoroční údržba IT systému (út-pá), mohou se objevit občasné výpadky systému umístěných v této lokalitě, dopad na uživatele se pokusíme minimalizovat.

Omlouváme se za způsobené komplikace.


Ivana Křenková, 13. 8. 2013

13. 8. 2013 0:00 - 8:00 - Plánovaná údržba HA strojů CERIT-SC

V úterý 13.8. bude od časných ranních hodin prováděna větší údržba HA strojů centra CERIT-SC, kvůli které budou pro uživatele průběžně nedostupné servery zuphux.cerit-sc.cz (frontend) a
wagap.cerit-sc.cz (Torque server). Služby budou opět uvedeny do provozu do 8 hodin.

Omlouváme se za komplikace.


Ivana Křenková, 12. 8. 2013

9.8.2013 - Neočekávaný výpadek sálu v Jihlavě (clustery zigur a zapat)

V důsledku nepříznivých meteorologických podmínek posledních dnů (a odstraňování jejich následků) jsme před chvílí bohužel opět zaznamenali neohlášený výpadek napájení na sále v Jihlavě, který postihl clustery zigur a zapat Centra CERIT-SC.

Výpočetní uzly budou postupně vráceny zpět do provozu, úlohy běžící v době výpadku byly bohužel ukončeny.

Velmi se omlouváme za způsobené komplikace -- tyto výpadky bohužel nedokážeme ovlivnit...

T. Rebok,
MetaCentrum & CERIT-SC.


Tom Rebok, 9. 8. 2013

7.8.2013 23:45 - Krátkodobý výpadek proudu v Jihlavě

V pozdních nočních hodinách došlo k částečnému výpadku napájení v serverovně CERIT-SC, který postihl 11 uzlů clusteru zigur a zapat, konkrétně uzly  zapat23 zapat98 zapat99 zapat100 zapat101 zapat111 zigur1zigur3 zigur28 zigur30 zigur31. Výpočetní uzly byly restartovány, běh úloh na postižených strojích byl bohužel ukončen.

Omlouváme se za způsobené komplikace.

 


Martin Kuba, 8. 8. 2013

29. 7. 2013 - Neplánované přerušení dodávky elektrické energie v Jihlavě

Dnes večer došlo v důsledku přerušení dodávky elektrické energie k neplánovanému výpadku clusterů a diskového pole umístěných na sále v Jihlavě.
Výpadek se týká clusterů Zigur, Zapat a diskového pole /storage/jihlava1-cerit/.
Bohužel došlo k pádu všech běžících úloh. Na znovuzprovoznění clusterů a diskového pole pracujeme.
Omlouváme se za nepříjemnosti.


Ivana Křenková, 29. 7. 2013

10. 8. 2013 7:00 - 10:00 - Plánovaná odstávka na sále v Českých Budějovicích

Dne 10. 8. 2013 7:00 - 10:00 dojde k odstávce clusterů a diskového pole umístěných na sále v Českých Budějovicích z důvodu servisních prací na trafostanici a vynuceného přerušení dodávky elektrické energie.
Odstávka se týká clusterů haldir, hildor, hermes (včetně frontendu) a diskového pole /storage/budejovice1/.

V nejbližší době bude na těchto strojích pozastaveno přijímání úloh do dlouhých front, kratší fronty budeme vypínat postupně. Ve frontách vlastníků (jcu a jcu2) budeme postupně omezovat maximální dobu běhu úloh, aby v době výpadku už žádné úlohy neběžely (dlouhotrvající výpočty si, prosíme, dočasně spouštějte  ve frontě long na jiné clustery).  Případné běžící úlohy budou v den odstávky násilně ukončeny.

S omluvou za komplikace a s díky za pochopení.


Ivana Křenková, 18. 7. 2013

29. 7. 2013 12:00 - 13:00 - Plánovaný výpadek síťové konektivity v Brně

Dne 29. 7. 2013 12:00 - 13:00 dojde, z důvodu výměny vadného switche, ke krátkému výpadku síťového připojení na sále v Brně. Po dobu výpadku nebude dostupný frontend skirit a provoz plánovacího serveru arien.ics.muni.cz bude omezen. Výpadek se nedotkne diskových polí.

 


Ivana Křenková, 18. 7. 2013

17. 7. 2013 14:00 - 17:00 - Plánovaná údržba archivního úložiště v Plzni

Vážení uživatelé,
chtěli bychom Vás informovat o možné nedostupnosti služeb datových úložišť sdružení CESNET (týká se svazku /storage/plzen2-archieve/), ke které může dojít 17.7.2013 od 14:00 do 17:00 z důvodů aktualizace klíčových komponent systému. V případě, že nedojde  k žádným neočekávaným problémům, k výpadku služeb nedojde. Za případné problémy se omlouváme a děkujeme za pochopení.

Za tým datových uložišť,  Michal Strnad CESNET z.s.p.o.


Ivana Křenková, 17. 7. 2013

18. 6. 2013 10:00 - Výpadek frontendu skirit.ics.muni.cz

V úterý 18. 6. 2013. v 10:00 dojde ke krátké odstávce frontendu skirit z důvodu přesunu na nový HW. Při této příležitosti provedeme upgrade systému na Debian 6.0. Všechny běžící procesy na tomto frontendu budou ukončeny.

Po dobu odstávky je možné alternativně využít kterýkoliv z dalších frontendů:

S omluvou za komplikace a s díky za pochopení.


Ivana Křenková, 15. 6. 2013

16. 5. 2013 - Výpadek chlazení na sále v Plzni

Dnes v podvečerních hodinách došlo v důsledku závady na chlazení k přehřívání a následnému vypnutí clusterů umístěných na sále v Plzni. Výpadek se týká clusterů Gram, Minos, Nympha, Konos a stroje Ajax a rovněž plzeňského diskového pole. Bohužel došlo k pádu všech běžících úloh. Na ostranění závady na chlazení se pracuje. Omlouváme se za nepříjemnosti.


Ivana Křenková, 16. 5. 2013

16. 5. 2013 - Výpadek diskového pole v Brně

Dnes došlo v důsledku servisního zásahu dodavatele k neplánovanému výpadku staršího brněnského diskového pole. Dočasně není dostupný /storage/brno1, /afs a SW moduly. Omlouváme se za nepříjemnosti.


Ivana Křenková, 16. 5. 2013

Pondělí 6.5.2013 10:00h - Přepojování elektřiny na sále v Plzni

V pondělí 6.5.2013 v 10:00h se začne přepojovat elektřina na sále v Plzni. Přitom bude nutné vypnout clustery Gram, Minos a cloudovy cluster Banakil. V případě nepříznivých skutečností může nastat i výpadek clusteru Nympha a diskových polí. Výpadek by se neměl dotknout clusteru Konos. Příležitost využijeme k reinstalaci clusteru Minos, zapojíme ho tedy zpět o něco později, než ostatní zdroje. Omlouváme se za nepříjemnosti.

Petr Hanousek, 3. 5. 2013

12. 4. 2013 - Výpadek clusteru/frontendu perian + upgrade systému

Vzhledem k neočekávané páteční události - požár na brněnském sále-  si Vás
dovolujeme informovat o výpadku clusteru perian a čelního uzlu
perian.ncbr.muni.cz.

Tento výpadek plánujeme využít k upgradu systému dotčených uzlů (Debian
5 -> Debian 6), přičemž uzly budou po svém upgradu (počínaje čelním
uzlem) postupně začleňovány zpět do provozu. Navrácení všech/většiny
uzlů clusteru perian pak předpokládáme nejpozději v průběhu přístího
týdne...

S omluvou za komplikace a s díky za pochopení.


Tomáš Rebok, 12. 4. 2013

11. 4. 2013 - Výpadek elektřiny na sále v Praze a reinstalace clusteru Tarkil

Dnes nastal neočekávaný výpadek elektřiny na sále v Praze, což vedlo k pádu clusteru Tarkil i čelního uzlu tarkil.cesnet.cz. Omlouváme se za přerušení běžících úloh.

Výpadku elektřiny jsme využili k tomu, abychom po obnovení její dodávky spustili plánovanou reinstalaci clusteru i čelního uzlu. Reinstalace, přesun některých služeb a případná migrace uživatelských dat z lokálních disků dotčených strojů na nové diskové pole bude trvat zhruba týden. Po zprovoznění strojů se ozveme novinkou. Mezitím můžete využít jiných čelních uzlů.

Po dobu reinstalace nebude běžně přístup k datům, uloženým na lokálních discích postižených strojů. Kdybyste přesto nějaká data nutně potřebovali, prosím ozvěte se na e-mail uživatelské podpory MetaVO meta@cesnet.cz.


Petr Hanousek, 11. 4. 2013

5. 3. 2013 - Přechod na nový systém pro správu požadavků

Dne 5. března 2013 od 9:00 do cca 12:00 bude probíhat odstávka systému pro správu požadavků (RT - rt3.cesnet.cz) a jeho převod na novou verzi. Během odstávky nebude přístupné ani webové ani mailové rozhraní systému. Maily poslané v době odstávky do systému (například na adresu meta@cesnet.cz), budou doručeny po jejím skončení. Omlouváme se proto za odpovědi opožděné o cca půl dne.


Petr Hanousek, 5. 3. 2013

22. - 25. 10. 2012 - Plánovaná odstávka v Plzni

Tento týden probíhá na ZČU v Plzni stěhování clusterů na nový sál. V pondělí dojde k vypnutí výpočetních uzlů clusterů/stroje ajax, konos, minos[20-35] a nympha. V tuto chvíli už není možné na dotčených strojích spouštět nové úlohy. Běžící úlohy budou násilně ukončeny. Stroje budeme vracet do provozu postupně.

Omlouváme se za dočasné omezení výpočetní kapacity.


Ivana Křenková, 22. 10. 2012

10.-11.10.2012 - Rekonstrukce elektroinstalace v Plzni - dodělávky

Při přejímce prací na přepojování UL011 v Plzni na energocentrum byla zjištěna zavážná vada - porucha některých podpůrných systémů (MaR - měření a regulace). K opravě je bohužel třeba dalšího vypnutí (zabití běžících úloh). Práce se uskuteční v noci ze středy na čtvrtek 10.10.2012 (21:00 - 5:00). Omlouváme se za komplikace.


Petr Hanousek, 2. 10. 2012

14.9.2012 - Zaplněný svazek /storage/brno1

Svazek /storage/brno1 je zaplněný na 100 procent. Navíc se pravděpodobně poškodil i souborový systém, takže na svazku nyní nelze pracovat s daty. Pro práci proto zatím využívejte svazky /storage/brno2 (11TB volných) a /storage/plzen1 (27TB volných). Konec opravy zatím nedovedu odhadnout.

Rád bych vás v této souvislosti požádal, abyste promazali nepotřebné soubory, které na těchto datových úložištích máte.


Petr Hanousek, 14. 9. 2012

19. - 20.9.2012 - Rekonstrukce elektroinstalace v Plzni 2. pokus

V noci z 19. na 20.9.2012 se bude přepojovat elektroinstalace na serverovně v Plzni. Stroje vypneme ve středu 19.9. odpoledne, předpokládané spuštění je ve čtvrtek 20.9. ráno. Od čtvrtka by tedy měla být konečně dostupná fronta long na dotčených clusterech.

Kromě zmíněných clusterů nebude též dostupný diskový svazek /storage/plzen1.

Omlouváme se za dočasné omezení výpočetní kapacity.


Petr Hanousek, 13. 9. 2012

29.8.2012 - Odklad rekonstrukce elektroinstalace v Plzni

Nahlášený zítřejší výpadek se nebude konat z důvodu problémů na straně dodavatele prací. O novém plánu odstávky vás budeme informovat opět tímto kanálem. Fronta long na dotčených strojích zůstane zatím vypnutá.


Petr Hanousek, 29. 8. 2012

29.8. - 30.8.2012 - Rekonstrukce elektroinstalace v Plzni

V noci z 29. na 30.8.2012 se bude přepojovat elektroinstalace na serverovně v Plzni. Stroje vypneme ve středu 29.8. odpoledne, předpokládané spuštění je ve čtvrtek 30.8. ráno. Již nyní bylo pozastaveno přijímání úloh do fronty long na těchto strojích, případné běžící úlohy budou v den odstávky násilně ukončeny.

Kromě zmíněných clusterů nebude též dostupný diskový svazek /storage/plzen1.

Omlouváme se za dočasné omezení výpočetní kapacity.


Petr Hanousek, 22. 8. 2012