Was ist Site Reliability Engineering (SRE)?

Sie haben von Site Reliability Engineering (SRE) gehört, wissen aber nicht genau, wie Sie es auf Ihre IT-Umgebung anwenden können oder ob es für Ihr Unternehmen geeignet ist? Dann sind Sie hier richtig.

Hier erfahren Sie, was SRE ist, wie es funktioniert, wie es mit DevOps zusammenhängt und welche Best-Practice-Prinzipien es gibt, von denen Sie wahrscheinlich schon einige in Ihrer eigenen Umgebung anwenden.

SRE ist eine Reihe von Grundsätzen und Praktiken, die alle darauf abzielen, Teams bei der Erstellung skalierbarer und zuverlässiger Softwaresysteme zu unterstützen. Dabei werden die bewährten Praktiken des Software-Engineerings auf die Infrastruktur und den Betrieb angewandt, wobei Software als Werkzeug zur Schaffung einer robusten Umgebung eingesetzt wird.

Als Site Reliability Engineer (SRE) haben Sie die Aufgabe, sich um Elemente des Unternehmens wie Verfügbarkeit, Zuverlässigkeit, Leistung, Effizienz und Reaktion auf Störungen zu kümmern. Um diese Elemente einer IT-Umgebung zu verwalten, nutzt SRE häufig Automatisierung, intelligentes Systemdesign und andere Softwaretechnologien, die sich auf die Belastbarkeit und Widerstandsfähigkeit von IT-Systemen und -Prozessen konzentrieren.

Viele der Aufgaben, die von SRE übernommen werden, wurden in der Vergangenheit von den Betriebsteams erledigt. Bei SRE werden sie an Mitarbeiter oder Ingenieure übergeben, die Software einsetzen, um Probleme zu lösen und IT-Systeme zu verwalten.

SRE ist mit viel Aufklärungsarbeit verbunden, da die Zuverlässigkeitsingenieure vor Ort jeden im Unternehmen dazu bringen müssen, zu einer guten Sicherheitshygiene beizutragen.

Was sind die Vorteile von SRE?

SRE ist eine großartige Möglichkeit, die IT-Verwaltung und -Kontrolle zu skalieren, denn anstatt Tausende von Rechnern manuell zu verwalten, können Sie sie mithilfe von Software und Automatisierung im Hintergrund verwalten. Sie können sehr große Systeme mit Code und Skripten verwalten und Zuverlässigkeit und Sicherheit gewährleisten, bevor Sie neue Funktionen freigeben.

Ein weiterer Vorteil ist die Standardisierung. Da SRE auf Automatisierung setzt, können IT-Mitarbeiter sicher sein, dass alle Aufgaben auf dieselbe Weise erledigt werden und nicht aufgrund subjektiver Ingenieure oder Betriebsleiter unterschiedliche Antworten erhalten. Die Zuverlässigkeit sollte sich mit der Zeit verbessern, da für alle Maschinen und Systeme dieselben Automatisierungs- und Best Practices gelten.

SRE kann oft Abteilungssilos im gesamten Unternehmen reduzieren oder beseitigen, so dass alle vom gleichen sprichwörtlichen Hymnenblatt singen können, indem dieselben Prozesse und Metriken für alle Bereiche des Unternehmens implementiert werden.

Was ist DevOps im Vergleich zu SRE?

Dies ist eine häufig gestellte Frage, da SRE und DevOps beides beliebte Methoden sind, die im gleichen Zeitraum viel Aufmerksamkeit erlangt haben. DevOps ist jedoch viel breiter angelegt als Site Reliability Engineering und hat einen stärker definierten Anwendungsbereich. DevOps zielt darauf ab, durch die schnelle und sichere Bereitstellung neuer Funktionen und Aktualisierungen einen geschäftlichen Mehrwert für das gesamte Unternehmen zu schaffen. SRE funktioniert definitiv gut in einer DevOps-Umgebung, aber sie sind nicht ein und dasselbe.

Wie DevOps hilft Ihnen SRE, Dienste schneller bereitzustellen und die Servicebereitstellung zu verbessern, indem es die Zeit für die Erstellung von Anwendungen und die Aufrechterhaltung einer IT-Umgebung mit Spitzenleistung verkürzt.

Site Reliability Engineers haben jedoch eher einen spezialisierten operativen Hintergrund und arbeiten an der Kommunikation von Werten im gesamten Unternehmen und an der Rationalisierung von Arbeitsabläufen, nicht einfach an technischen Aufgaben wie CI/CD-Pipelines, wie es ein DevOps Engineer tun könnte. Während sich ein DevOps-Ingenieur auf den Entwicklungslebenszyklus konzentriert – das Schreiben und Bereitstellen von Code -, sorgt ein SRE für ein Gleichgewicht zwischen der Erstellung und Einführung neuer Funktionen und der Zuverlässigkeit der Website insgesamt.

Was sind die wichtigsten Grundsätze und Praktiken von SRE?

SRE hat seinen Ursprung bei Google, aber der Begriff hat sich seither stark weiterentwickelt. Es gibt keine endgültige Liste von Grundsätzen, die SRE definieren, aber die folgenden vier Merkmale sind bei den meisten SRE-Teams und -Implementierungen zu finden:

Automatisierung: Eliminierung von sich wiederholenden oder manuellen Aufgaben, um dem Unternehmen mehr Zeit zu geben, mit weniger Ressourcen mehr zu erreichen. Wenn die Automatisierung diese Aufgaben hinter den Kulissen erledigen kann – SRE macht es möglich. Wenn ein Problem immer wieder von Ingenieuren bearbeitet wird, ist dies ein Bereich, der mit Hilfe von Automatisierung angegangen werden sollte.

Notwendigkeit: Definition und Messung von Zuverlässigkeitszielen und keine Überschreitung dieser Ziele. Dies geschieht in der Regel mit Service Level Agreements und Service Level Indicators und Objectives, die dem Geschäftskontext entsprechen. Eine 100%ige Zuverlässigkeit wird nicht erwartet, wenn SRE der Geschäftsansatz ist. Stattdessen werden Ausfälle erwartet, und zwar innerhalb vorher vereinbarter Grenzen und Risikotoleranz.

Intelligentes Systemdesign: SRE-Teams arbeiten an der Reduzierung von Risiken, sei es in Bezug auf Sicherheit, Latenz, Zuverlässigkeit oder Leistung. Sie entwerfen, implementieren und testen verschiedene Prozesse, die auf diese Ziele ausgerichtet sind. Laut Google können bis zu 50 % der Zeit eines SRE-Teams für den Betrieb aufgewendet werden, während der Rest auf die Entwicklung entfällt.

Beobachtbarkeit: Im Gegensatz zur statischen Überwachung ermöglicht die Beobachtbarkeit den Mitarbeitern, wertvolle Informationen in einer dynamischen Umgebung zu sammeln. Die Systeme sind so konzipiert, dass automatisch Informationen gesammelt werden, die auf Probleme hinweisen und erklären, warum sie aufgetreten sind. Anstatt dass die Mitarbeiter passiv auf einen Alarm warten, werden Protokolle, Metriken und Tracing verwendet.

Ist SRE das Richtige für Ihr Unternehmen?

Die meisten Unternehmen werden bereits einige SRE-Prinzipien implementieren, insbesondere wenn sie in den letzten Jahren Schritte unternommen haben, um von einer On-Premises-Umgebung zu einer Cloud- oder Hybrid-Umgebung zu wechseln. Wer möchte seine IT-Umgebung nicht zuverlässiger, automatisierter, skalierbarer und messbarer machen?

Wenn Sie den SRE-Ansatz verfolgen und, wie Google es definiert, “den Betrieb wie ein Softwareproblem behandeln”, benötigen Sie großartige Tools und Technologien, die die Implementierung von Best Practices ermöglichen.
Das bedeutet Automatisierung für die sich wiederholenden und manuellen Aufgaben, die einen Großteil der Zeit der Mitarbeiter in Anspruch nehmen, die Möglichkeit, klare und umsetzbare Service Level Agreements festzulegen, sowie ausführliche Ereignisprotokolle und Berichtsfunktionen.

War das hilfreich?

Stärken Sie Ihr IT-Team mit KI-gestützter IT

Nutzen Sie die Leistung der KI, um Ihre IT-Effizienz zu 10-fachen. Befreien Sie Ihr Unternehmen von den Einschränkungen der gestrigen IT-Tools.