O detajlech, jak je to u T-mobile, bohužel nic nevím, mohu usuzovat jen ze všeobecně známých informací. A i kdybych něco věděl, tak jsem vázán mlčenlivostí. Osobně si myslím, že teoreticky všechno bylo uděláno dobře (takové diskové pole někdo prodává za miliony a jistě má alespoň teoreticky všechno ošetřené - aby se to lépe prodávalo), jen to jaksi nezafungovalo. Ono takové speciální diskové pole je mnohem dražší, než kdybyste stejnou diskovou kapacitu nastrkali do obyčejných počítačů s SSD disky a třikrát ji zálohovali v reálném čase. U předraženého diskového pole musí dodavatel vymyslet nějaké pohádky o tom, proč je to jeho diskové pole lepší a spolehlivější řešení. A prodat to stejné pole do více lokalit je výborný obchod. Problém může být třeba v tom, že všechny zálohy, co se ukládají v reálném čase, selhaly (nelze překlopit) a obnova ze záloh může trvat i desítky hodin, protože nejsou schopni data obnovovat postupně v pořadí podle jejich důležitosti. Nejpravděpodobnější mi přijde lidská chyba.pedrysek7 píše:No jsme zvědavý, jak to s T-Mobilem dopadne. Mám vážné obavy, že to nepoběží určitě celý víkend. Těžko říci, ale myslím si, že T-Mobile šetří peníze na špatném místě tj. na IT infrastruktuře a taky by mě zajímalo, co by se stalo, kdyby se to neobnovilo.
Byl jsem schválně na prodejně T-Mobile a pracovník říkal, že to v nejlepším případě vidí na pondělí, pokud ano, bude to zázrak.
Mám dotaz na Odorika:
1) Jak to má zajištěn Odorik, zda data běží současně třeba na 2-3 databázích najednou a zda jsou od sebe geograficky oddělené v případě třeba požáru, výbuchu apod.
2) Vůbec se v tom nevyznám, ale je možné, že v případě závady na datovém poli, kde má T-Mobile uloženy veškerá data, je možné tato data komplektně obnovit bez problémů ze zálohy a jak to dlouho může v případě T-Mobile trvat?
Je vůbec možné, že by měl T-Mobile jako obří společnost, vše pouze na jednom datovém uložišti v Hradci Králové a souběžně neběžel systém v jiné lokalitě na území ČR?
3) Zajímalo by mě, jak toto mají zařízené třeba banky typu KB, ČS, ale i menší Fio banka či Hello bank. Zda jedou současně na více databází či zda se toto může stát jako u T-Mobilu. Ztráta dat u bank v případě totálního pádu a nemožnosti obnovy, to pak musí být úplná katastrofa. To si nedovedu vůbec představit.
Hezký večer
Co se týče události jako výbuch nebo pád letadla. V praxi je mnohonásobně větší pravděpodobnost, že problém bude v něčem jiném. Např. vytopení vodou (stačí, když praskne trubka s klimatizací), nebo se poláme klimatizace, a aby se vše neuvařilo, budou nuceni téměř všemu vypnout elektřinu. Na požár bývají datacentra připravena dobře, tedy nepovažuji je příliš za pravděpodobnou, hasí se speciálním plynem, který nejspíš jen tak z ničehonic neselže a neodmítne lahev opustit. Co je ale mnohem běžnější, je překopnutý optický kabel a desítky minut, než provoz opravdu začne chodit jinudy (pokud vůbec). Nebo nějaká nekalá válka mezi různými dodavateli konektivity, co si pak dělají naschvály, aby se tím mohli vydírat (myslím, že se stalo).
Co se týče odoriku, tak v databázi v reálném čase klonujeme na několik dalších disků, co jsou sice ve stejné budově, ale ne na stejném místě a ne ve stejném patře (proti zatopení a lokálnímu požáru důležitý detail). Kdyby se něco vážného stalo, mám obavy, že bychom nebyli schopni provoz obnovit v řádech několika minut, spíše by to mohly být desítky minut, možná i hodiny. I když teoreticky by to mělo trvat jen několik minut, v praxi čekám, že se k tomu nějaké problémy nabalí. Chceme nyní přejít na klonování disku v reálném čase na jiný stroj pomocí souborového systému zfs, na který chceme přejít. (kromě součásného klonování na úrovni databáze) Tam by bylo spuštění databáze ze záložního stroje podstatně jednodušší a je pravděpodobné, že by se to opravdu podařilo v řádech minut a nějaké vedlejší komplikace by byly téměř vyloučeny. Mít stroje ve více lokalitách má smysl až tehdy, když bude u nás vše podstatnější dokonalé a lokalita bude tím nejslabším místem.