Serverausfälle verhindern und überwinden – Tipps für den Notfall

Begriffe wie 24/7, Always On, around the clock und viele andere sind in unserer heutigen Zeit gängige Begleiter. Oftmals wird gar nicht mehr darüber nachgedacht, was hinter den Kulissen alles passiert, damit alle selbstverständlichen Annehmlichkeiten des heutigen Lebens kontinuierlich verfügbar sind. Dabei sind Serverausfälle, Netzwerkprobleme und andere störende Ereignisse nicht so selten, wie es wünschenswert wäre. Vielen Ereignissen kann man durchaus proaktiv begegnen und somit beitragen, dass auch unvermeidbare Vorkommnisse nur begrenzt Schaden anrichten.

 

Softwareprobleme

 

Eine der häufigsten Ursachen, weshalb Serverdienste nicht zur Verfügung stehen, sind Softwareprobleme. Nicht immer ist Software fehlerhaft oder muss zur Begrenzung von Speicherlecks regelmäßig neu gestartet werden. Eine weitere verbreitete Ursache von Ausfällen besteht in schlecht geplanten und durchgeführten Changes, beispielsweise Änderungen einer Konfiguration oder Einspielen von Patches. Oft werden nicht alle Abhängigkeiten beim Einspielen von Patches berücksichtigt oder vor Livegang in einem Test- bzw. Staging System simuliert. Dies ist besonders bei Patches, die dringend aufgrund von Sicherheitslücken eingespielt werden müssen der Fall.

 

An dieser Stelle hilft ein diszipliniertes Patch Management. Dieses fängt damit an, dass in eine ITSM-Software (IT System Management) alle Systeme und deren Abhängigkeiten modelliert werden. Dies kann beispielsweise die Abhängigkeit von einem DHCP-Server oder Netzlaufwerk sein. Daraus ergibt sich eine Checkliste an zu prüfenden Dingen, die nach dem Einspielen eines Patches getestet werden müssten. Organisatorisch ist es sinnvoll, das Einspielen von Patches in zu planenden Wartungsfenstern vorzunehmen und zu regeln, wer Patches einspielen darf. Gegen Probleme durch nicht eingespielte Patches hilft ein Discovery-System (oft in RMM Software integriert), welches regelmäßig installierte Software ausliest und automatisierte Reports erstellt. Hier lässt sich erkennen, ob ggf. benötigte Patches fehlen.

 

Netzwerkprobleme

 

Der beste Server ist nutzlos, wenn er nicht erreicht werden kann. Fallen Teile des Netzwerks aus, so ist ein Server meist komplett von der Außenwelt abgeschnitten. Fallen Dienste aus, von denen andere Serverdienste abhängig sind, so ergeben sich Kaskadeneffekte, die lawinenartig große Teile der Infrastruktur lahmlegen können.

 

Ein umfangreicher Ausfall bei Google wurde durch einen Fehler im Authentifizierungssystem verursacht, der in Folge Youtube und Co. lahmgelegte. Ein anderer ca. 6-stündiger Ausfall bei facebook (sowie Whatsapp und Instagram) wurde durch eine fehlerhafte Konfiguration verursacht, in deren Folge die DNS-Server nicht mehr erreichbar waren. Da außerdem interne Infrastruktur wie Zugangssteuerungen und Türen zu den Rechenzentren von den gleichen Systemen abhängig waren, hat sich hier die Fehlerbehebung drastisch verzögert.

An dieser Stelle hat es sich bewährt, Systeme für interne Verwaltung und Sekundärtechnik in Rechenzentren von den produktiven Kundensystemen zu trennen.

 

Ein wichtiger Baustein hierbei ist VLAN, mithilfe derer das Netzwerk in verschiedene Segmente unterteilt werden kann, ohne dass Switches mehrfach angeschafft werden müssen. Innerhalb der VLANs müssen dann neuralgische Dinge wie DNS und Authentifizierungssysteme doppelt bzw. strikt getrennt von den Kundensystemen betrieben werden, damit im Falle eines Ausfalls nur ein Teilbereich betroffen ist.

 

Hardwareprobleme

 

Zusätzlich zu den verbreiteten Ausfallursachen, die durch die eingesetzte Software verursacht werden, kann ein Server aufgrund Problemen mit der Hardware ausfallen.

Spitzenreiter sind hier Verschleißteile wie Festplatten, SSDs und Lüfter. Weiterhin unterliegen Netzteile und Halbleiter wie RAM-Riegel Alterungsvorgängen wie Austrocknung der Elektrolytkondensatoren oder Elektronendurchschläge durch Isolierschichten. Externe Ursachen wie Ausfall der Stromversorgung oder Probleme mit der Klimatisierung können ebenfalls zum Ausfall führen.

 

Diese Thematik bietet mehrere Ansätze, die miteinander kombiniert ein hohes Maß an Ausfallsicherheit bieten. Hochwertige Server bieten Möglichkeiten, viele neuralgische Teile redundant auszulegen. Dies fängt bei zwei unabhängigen Netzteilen an, die an verschiedene Stromkreise angeschlossen werden können und endet bei im Betrieb austauschbaren Datenträgern im RAID-Verbund. USV-Anlagen, die idealerweise ebenfalls mehrfach vorhanden sind (a/b-System) sichern die Stromversorgung ab, im Bereich der Klimatisierung lässt sich meist ein kleines unabhängiges Standgerät aufstellen, welches rechtzeitig (zusätzlich) einspringt, bevor die Luft zu warm wird. All diese Parameter lassen sich monitoren, wenn die verwendeten USV-Anlagen und Klimageräte über netzwerkfähige Controller verfügen.

 

Gleiches gilt für Server: hier lässt sich meist über das integrierte Remoteboard ein Hardware Monitoring beispielsweise per SNMP aufsetzen, welches den detaillierten Status aller Hardware Elemente überwacht. Idealerweise laufen derartige Meldungen in einem zentralen Dashboard zusammen, um Fehler und deren Folgeerscheinungen schnell identifizieren zu können. Ein RMM-System hilft dabei, Meldungen aus verschiedenen Quellen zu konsolidieren. Dies ist besonders für MSP (Managed Service Provider) wichtig, die unter Umständen Kundeninfrastrukturen zu betreuen haben.

 

Der Fall der Fälle

 

Unabhängig von der Menge an proaktiv getroffenen Vorkehrungen kann ein Ausfall dennoch passieren. Hier müssen die ausgefallenen Systeme so schnell wie möglich wieder verfügbar gemacht werden. Dies gilt umso mehr, wenn kritische Infrastruktur betroffen ist, die zur Abwehr oder Behebung von Katastrophen funktionieren muss. Hier ist es hilfreich, im Rahmen des internen Managements ein ITSM-Tool oder RMM-System zu pflegen, welches gerade im Falle eines Ausfalls als erstes wieder verfügbar ist und wichtige Statusinformationen zur Verfügung stellt.

 

Unabhängig davon ist das Vorhandensein eines IT-Notfallplans wichtig, in dem das Verhalten bei Ausfall der Systeme beschrieben ist. Dieser muss allen Technikern bekannt sein und sollte zusätzlich als Hardcopy (auf Papier im „roten Ordner“) vorhanden sein. Bei einem Totalausfall aller Systeme beispielsweise nach einem langen Stromausfall oder Überhitzung würde sonst ein „Henne-Ei“-Problem entstehen. Das Wiederanfahren eines Serverraumes beginnt somit bei der Stromversorgung und Klimatisierung, geht weiter über Infrastrukturserver und endet später bei den individuellen Applikationen des Geschäftsbetriebes. Im Rahmen regelmäßiger interner Überprüfungen sollte dieser geprüft und revidiert werden, damit dessen Aktualität gewährleistet ist.

 

Hier kann es ebenfalls sinnvoll sein, wichtige Systempasswörter für lokale Zugriff in einem versiegelten Umschlag zu hinterlegen, da bei einem kompletten Kaltstart einschlägige Passwort Management Tools meist noch nicht zur Verfügung stehen. Je nach Ausrichtung der Anlage kann eine hybride Infrastruktur (d.h. lokale Server und Cloud Services) in solchen Situationen helfen, kritische Kernsysteme weiter bereitzustellen. Dies gilt ebenfalls für den Betrieb von Komponenten über einen MSP, dessen interne Infrastruktur unabhängig von den Kundensystemen ist.

 

Fazit

 

Alles, was kaputtgehen kann, wird auch irgendwann Probleme bereiten. Eine Vorbereitung hierauf erfolgt auf mehreren Ebenen, die an zentraler Stelle zusammenlaufen müssen. Hier ist ein Arbeiten im Sinne eines ITSM eine große Hilfe bei der strukturierten Erfassung der neuralgischen Punkte. In größeren Anlagen laufen die Informationen in einem RMM-System zusammen, welches verschiedenste Insellösungen konsolidiert.