Stránka 1 z 1

Výpadek

Napsal: čtv 28. dub 2011 11:35:24
od 4smart.cz
Dobrý den,
V sobotu ve 20:30 doslo k necekane odmlce serveru, ktera by z nasi strany nemela mit pricinu. Nedochazelo ke zmenam v modulech ani v kernelu. Nyni pracujeme na hledani podstaty a odstranovani problemu. V soucasne dobe nedoslo ke ztrate dat a jsou zachovana data vsech virtualnich serveru. Problem spociva v hlaseni kernelu:

Kód: Vybrat vše

kernel:divide error: 0000 [1] SMP.
a dale take v hlaseni:

Kód: Vybrat vše

Kernel panic - not syncing: Fatal exception
Problem nastane se spustenim casti virtualnich stroju ze samostatneho diskoveho pole. Virtualy, ktere se nachazi na jinem diskovem poli tento problem nevyvolavaji. Nicmene diskove pole je OK a filesystem na nem take, alespon se tak jevi s pomoci nastroju. Problem, pokud souvisi s diskovym polem, je zrejme v jine rovine. Soucasny stav reseni problemu je ten, ze byl od zakladu vymenen hardware a nainstalovan posledni kernel, ale ani jednim se problem nepodarilo vyresit. Vse ztezuje cisty log systemu a take to, ze nikdo pred nami podobny problem neresil. Uvedene hlasky totiz "zakrici" server do terminalu, tesne pred padem. Zatim se zda, ze jde o zcela novy bug v jadre.

Na odstranovani problemu pracujeme,
J. Marak

Re: Výpadek

Napsal: čtv 28. dub 2011 15:49:34
od 4smart.cz
Problem se podarilo dale presneji lokalizovat. S jistotou jej ma na svedomi jeden z virtualnich stroju.
Presnou pricinu se pokusim vypatrat v prubehu zitrejsiho dne. Avsak provoz ostatnich vrtualnich stroju jiz nebudu omezovat.
Od tohoto okamziku budu s problemovym VPS pracovat na jinem stroji. Uzivatele tak mohou pracovat se svymi VPS.
Aby byl nadale zachovan vnitrni stav, bude po nezbytne nutnou dobu docasne vypnuto www rozhrani 4smart.cz.
Jinak nebude provoz zatim omezen. Jakmile bude presne urcena pricina, budou zavedena takova opatreni, aby k problemu jiz v budoucnu nedoslo.
01Podle toho, jak to dosud vypada, jde o chybu v kernelu OpenVZ, ktera zetim nebyla reportovana. ale kterou lze obejit.

Re: Výpadek

Napsal: pon 02. kvě 2011 14:45:12
od 4smart.cz
Dobrý den.
Problém s nedávným pádem 4smart.cz byl vyřešen. Chyba je spojena s iptable_nat modulem. Proto nebude do okamziku opraveni teto chyby ve vsech virtualnich
strojich uzivatelu tento modul k dispozici.

Chyba byla nahlasena vyvojarum OpenVZ.
Po jejím odstranění povolíme opět natování.

J. Marák

Re: Výpadek

Napsal: úte 03. kvě 2011 13:52:27
od 4smart.cz
Vyvojari OpenVZ dnes opravili chybu, ktera zpusobila posledni pad 4smart.cz.
Problem byl v avizovanem modulu iptable_nat, konkretne slo o deleni nulou.

Pokud vas zajimaji podrobnosti, nahlednete do Bugzilly vyvojaru OpenVZ:

http://bugzilla.openvz.org/show_bug.cgi?id=1861

J. Marák

Re: Výpadek

Napsal: čtv 30. čer 2011 12:53:51
od Daniel
V souvislosti s přechodem do ostrého provozu se to nějak k cíli neposunulo ?

Díky za odpověď.

Re: Výpadek

Napsal: čtv 30. čer 2011 12:54:54
od Daniel
V souvislosti s přechodem do ostrého provozu se to nějak k cíli neposunulo ?

Díky za odpověď.

Re: Výpadek

Napsal: úte 19. črc 2011 11:09:29
od 4smart.cz
Dobrý den.

S iptable_nat to zatím vypadá tak, že ikdyž existuje patch, nebyl zřejmě začleněn do novějšího kernelu ze stable větve.
Soudím tak podle changelogu:

http://wiki.openvz.org/Download/kernel/ ... 8stab091.1

Povolení iptable_nat proto zatím nepadá v úvahu.
Našim cílem je nabídnout maximální dostupnost, ne funkce na úkor dostupnosti.

Na druhou stranu došlo k posunu ve vývoji větve RHEL 6, jenž už není testing, ale beta. Jde o jádro 2.6.32.
Do budoucna uvažujeme o nasazení této větve. Ale i zde jsou zatím chyby nemalého významu.

J. Marák