Stránka 1 z 1

Náhlý výpadek serveru n1.4smart.cz

Napsal: čtv 03. kvě 2012 11:58:58
od 4smart.cz
Dobrý den,

Z nějakého důvodu se nám dnes nečekaně odmlčel server n1.4smart.cz.
Na zjišťování příčiny pracujeme.

Edit: Po neúspěšném restartu problémového uzlu spouštíme VPS na záložním stroji n4.4smart.cz.

Edit: Při přesunu provozu na záložní uzel se objevil problém s uváznutými zámky u některých tabulek, databáze byla restartována.

Edit: Předběžná příčina problému je zdá se v přídavném SATA/SAS řadiči stroje n1.4smart.cz - možný HW problém.
Pokus o start VPS na n1.4smart.cz skončil výpisy ze zásobníku a chybovými hlášeními modulu mptsas.

Edit: Migrace provozu VPS na založní stroj byla úspěšně dokončena. Systémový log záložního stroje je čistý.
Vše se zdá být aktuálně bez problémů.

Pokud používáte IPv4 z neveřejného rozsahu a mapování portů, zkontrolujte si dočasné
náhradní nastavení.


J.M.

Re: Náhlý výpadek serveru n1.4smart.cz

Napsal: čtv 03. kvě 2012 12:46:33
od Daniel
Mno nevim, co jste kde pustili, probehlo uspesne nekolik hodin a me to stale nefachci.
Teda abych nekecal na chvilku se to zmatorilo (asi ten restart uzlu), a pak zase ...

http://forum.odorik.cz/viewtopic.php?f=4&t=649

Re: Náhlý výpadek serveru n1.4smart.cz

Napsal: čtv 03. kvě 2012 13:31:14
od Daniel
Tak potvrzuji 13:28 uz funguje start i stop.
Bohuzel, ale ..
Vy jste zmenily tu verejnou 77.93.202.6 (co si ji lide sdili) na 77.93.202.197. Takze to je mi platny jak mrtvymu zimnik. Ted zafungoval firewall. Navic adresa sluzeb, ktere se odkazuji na IPnu a ne na DNS, slo by se pustit do uprav DNS zaznamu, atd. atd.
Sice mam cestu jak si s tim asi poradit/to obejit, ale nestoji to za muj cas.

Re: Náhlý výpadek serveru n1.4smart.cz

Napsal: pát 04. kvě 2012 19:36:34
od xsouku04
To že v případě přesunu na záložní stroj se změní ip adresa na kterou jsou mapované přesměrované porty je fakt, který je známý. Asi by stálo za to na to výslovně upozornit na místech kde se provádí ono nastavení.
Řešení může být směrovat na doménu, kterou si pak můžete změnit bez toho aby jste to museli všem uživatelům a zařízením říkat.
Pokud máte nějaký vážnější projekt, tak příplatek 30 Kč není zase tak moc.

Napadá mne, že bychom možná mohli časem nabízet vlastní subdoménu automaticky. Třeba ve tvaru s127.4smart.cz . Možná je to ale zbytečné odhalování ostatním, takže by možná bylo lepší aby si každý volil název subdomény jaký chce, kdo dřív přejde, ten má lepší název subdomény ...

Jinak co se onoho středečního výpadku týče, kernel panic byl způsoben jakousi kombinací vadného disku ( i když ne přímo vadných sektorů ale chybné komunikace s diskem) a špatného ovladače řadiče. Předpokládám že až bude jasněji, pan Marák podá přesnější informace.

Re: Náhlý výpadek serveru n1.4smart.cz

Napsal: úte 15. kvě 2012 16:23:48
od 4smart.cz
Vyjádření k tomuto problému:

Dle výsledků šetření a dosud kladné odezvy podniknutých opatření, která byla provedena v souvislosti s řešením tohoto problému, byla příčina tohoto problému
ve vadném SSD disku Kingston SKC100S3 a současně v bugu jaderného modulu mptsas, který slouží jako ovladač pro přídavné SAS/SATA řadiče, které 4smart.cz používá.

Problémový disk vykazoval vyjímky (Exceptions) na vrstvě ATA, které se dále projevovali reinicializací celého SATA/SAS řadiče (v režii modulu mptsas) a v určitých případech tento restart vyvolal Kernel Panic a selhání celého stroje.

Obvyklým chováním v podání jiných ovladačů bývá vyřazení problémového disku ze SCSI vrstvy jádra.

Náprava:
Problémové ovladače byly po kompilaci nahrazeny poslední aktuální verzí 4.26,
která se zdá být do tohoto okamžiku stabilní a bez problémová.
Nahrazení ovladačů bylo do tohoto okamžiku provedeno na strojích
n1.4smart.cz (byl problémový)
n4.4smart.cz (dosud bezproblémový)
V průběhu zítřka bude aktualizován i stroj n2.4smart.cz (dosud bezproblémový).

J. Marák