Q:
Jak společnosti maximalizují dobu provozu?
A:Udržování provozu IT služeb je samozřejmě důležité. Výrobci systémů se tomuto tématu hodně zamysleli. Některé kritické finanční počítače fungují nepřetržitě roky. Na internetu je příběh o počítači Novell Netware 3, který byl po 16 letech konečně vypnut. Při zvažování dostupnosti sítě je standardem dostupnost „Pět 9s“ nebo 99, 999%. Dosažení maximální doby bezporuchovosti je důležitým hlediskem jakékoli nabídky IT služeb.
Jak je dosaženo maximální dostupnosti? Klíčem je dobrá správa. Mezinárodní organizace pro normalizaci (ISO) vytvořila rámec pro správu sítě nazvaný FCAPS, který znamená:
- Správa poruch
- Správa konfigurace
- Vedení účetnictví
- Řízení výkonnosti
- Řízení bezpečnosti
Problémy s jednotlivými síťovými komponenty jsou pomocí tohoto modelu řešeny aktivně i reaktivně. Poruchy jsou sledovány pomocí alarmů a oznámení událostí. Shromažďují je agenti protokolů, jako je SNMP (systémový protokol pro správu sítě) nebo některá jiná proprietární řešení. Přizpůsobitelné prahové hodnoty mohou vyvolat poplachy a dokonce automaticky generovat lístky, které končí ve frontách monitorovacího personálu v datových centrech. Velké nosné sítě mohou mít samostatná oddělení, která se zabývají jádrovou, distribuční nebo přístupovou vrstvou sítě. Analýza kořenových příčin se pokouší izolovat a definovat kritické problémy po významné události.
Podobné procesy se používají pro správu systému. Poskytovatelé internetových služeb (ISP) a spravovaná hostingová střediska zaměstnávají správce systému ke sledování a správě životaschopnosti serverů, úložných systémů nebo jiných zařízení. Například jednotlivé procesy na počítačích se systémem Windows nebo Linux lze prohlížet a řídit pomocí programů pro správu grafického uživatelského rozhraní (GUI) stejným způsobem jako síťové protokoly.
Vzdálený dohled a konfigurace síťových komponent a systémů poskytují schopnost v reálném čase maximalizovat dobu provozu systému. To se týká změn konfigurace, shromažďování klíčových ukazatelů výkonu nebo implementace vylepšení zabezpečení.
Jedním ze způsobů, jak se podívat na provozuschopnost a robustnost jakéhokoli systému, je model, který IBM nazvala RAS: spolehlivost, dostupnost a servisovatelnost. Pro zajištění RAS bylo vyvinuto mnoho metod. Mezi ně patří redundance, zálohování dat, nepřerušitelný zdroj napájení (UPS), komponenty vyměnitelné za provozu a automatické aktualizace. Plánovaná změna a okna údržby nabízejí příležitosti k opravě nebo zlepšení známých problémů, aniž by to uživatele znepokojovalo.
Nakonec systémy a sítě selžou. Redundance je jedním z klíčů k odolnosti systému. To se může vztahovat na hardware, software nebo data. Osoby odpovědné za zajištění spolehlivosti v síti nebo softwarovém systému budou hledat to, co lze považovat za jediný bod selhání (SPOF). Protéká celá síť jediným vypínačem nebo kabelem? Probíhají všechny procesy na osamělém serveru? Existuje pouze jedna kopie souboru kritických dat? Bez nadbytečnosti může společnost - v okamžiku - ztratit to, co mohlo trvat roky, než se vyvinul.
Maximalizace provozuschopnosti je snahou „všeho výše“. Osvědčené postupy byly vyvinuty na základě desítek let zkušeností a spolupráce. Neustále se zavádějí nová řešení, jako jsou samoléčivé sítě, virtualizace, analytika dat a vylepšená architektura. Žádná jediná metoda neodpoví na všechny problémy, které vyvstávají ve složitých systémech. Každá společnost se pokouší co nejlépe využívat své IT zdroje co nejefektivněji během životního cyklu zařízení, které má k dispozici.