Důvody prodloužení odstávky

Informace o novinkách a změnách na 4smart.cz
Zamčeno
4smart.cz
Administrátor
Příspěvky: 1373
Registrován: úte 12. říj 2010 9:16:11
Kontaktovat uživatele:

Důvody prodloužení odstávky

Příspěvek od 4smart.cz »

Dobrý den.
Chtěl bych tímto způsobem informovat uživatele 4smart.cz o důvodech, které nás vedly k prodloužení odstávky jednoho z HW strojů a současně k omezení provozu
určitého počtu VPS.

Přibližně od 22.5 se nám v logu systému začaly objevovat zprávy signalizující možné selhání disku jistého diskového pole. Po výměně vadného disku dne 23.5.
a úspěšné obnově diskového pole se tentýž den večer v logu objevily další zprávy o problémech s dalšími disky. 24.5. ráno kernel odpojil zálohovací disk z důvodu
IO chyb a postupně jěště další dva disky.

Server byl následně převeden do stavu bez běžících VPS a byly zahájena analýza problému a jeho řešení. Postupně se ukázalo, že disky opravdu vykazují problémy
a jsou tak zřejmě vadné. Co je ale zarážející je, že disky - jejich plošný spoj je zkorodovaný. Přitom naše servery provozujeme v řádně klimatizované serverovně jedné nejmenované větší společnosti v Brně.

Na vině je tak pravděpodobně výrobní chyba celé série disků Western Digital, kterou hojně používáme. Nejvíce postižený disk je ze série WD10EARS, starý nanejvýš 6 měsíců a používaný po celou dobu v tomto stroji. Dále používané disky ze série WD1003FBYX vykazovaly menší stupeň koroze plošných spojů.
Výrobce pravděpodobně neošetřil plošný spoj vhodným lakem, nebo použil k pájení kovy, které jsou náchylné k oxidaci.
plošný spoj a prokovy vadného disku WD10EARS
plošný spoj a prokovy vadného disku WD10EARS
IMAG0719.jpg (937.31 KiB) Zobrazeno 3190 x
Vadný disk vlevo, nový disk vpravo - stejná série WD10EARS
Vadný disk vlevo, nový disk vpravo - stejná série WD10EARS
IMAG0720.jpg (966.63 KiB) Zobrazeno 3190 x
Vadný disk vlevo, nový disk vpravo - stejná série WD10EARS
Vadný disk vlevo, nový disk vpravo - stejná série WD10EARS
IMAG0721.jpg (916.01 KiB) Zobrazeno 3190 x
Disky byly postupně nahrazeny jinými. V budoucnu budou tyto problémy řešeny napozadí a uživatelé pocítí nedostupnost maximálně několik minut, kdy jejich VPS převezme jiný HW stroj v případě selhání jiného.

J. Marák
Zamčeno