Kann sich Ihr Unternehmen Unkosten von über 100 000 US-Dollar leisten? Das sind die durchschnittlichen Folgekosten von IT-Ausfällen – Tendenz steigend. Gemäss dem «Outage Analysis Report» des US-amerikanischen Uptime Institute haben im Jahr 2022 über 60 Prozent der befragten Unternehmen diesen Betrag bezahlt, 15 Prozent gar über eine Million US-Dollar.

Das Digitalgeschäft verzeiht keine Fehler

Heute betreiben die meisten Unternehmen mindestens Teile ihres Geschäftes in der Cloud. Das erhöht die Anforderungen an die IT-Systeme, die immer komplexer und womöglich weltweit verteilt sind. Auch prägt das Onlinegeschäft die Erwartungshaltung der Kundinnen und Kunden: wer im Wettbewerb bestehen will, muss 24/7 verfügbar sein. Deshalb setzen sich Unternehmen vermehrt mit Site Reliability Engineering (SRE) auseinander. Damit lassen sich Systeme weitgehend automatisiert betreiben und ausfallsicher gestalten.

Schneller, zuverlässiger, sicherer

Im klassischen IT-Betrieb arbeitet zum Beispiel das Incident Management die Folgen neuer Releases ab. Ist ein Problem gelöst, ist der Vorfall abgeschlossen. Diese Arbeiten erfolgen meist manuell und anhand von Checklisten. SRE standardisiert und automatisiert solche Aufgaben: Codes und Regeln lösen fehleranfällige manuelle Prozesse ab. Besonders wichtig ist SRE in Cloud-nativen Umgebungen. Denn Cloud-Lösungen sind oft technisch komplex. Veränderungen bei Infrastruktur, Applikationen oder Services begünstigen Fehler und Ausfälle. Hier bietet sich Infrastruktur als Code (IaC) an: Gezielt geschriebener Code löst manuelle Prozesse ab und erreicht so ein neues Niveau der Automatisierung. In Verbindung mit SRE macht die Cloud Unternehmen technisch und organisatorisch flexibel. Das fördert rasches Wachstum: Neue Businessanforderungen lassen sich dank SRE schneller umsetzen.

Automatisieren statt manuell eingreifen

«Site Reliability Engineering macht den Cloud-Betrieb langfristig effizient», so Laura Graf, Consultant bei Ergon . Mit SRE entsteht ein hochverfügbares System, das sich mit minimalen manuellen Eingriffen betreiben lässt. Welche Prozesse sich für eine Automatisierung eignen, hängt vom System und von den Anforderungen ab. Naheliegend sind repetitive Arbeiten. Zum Beispiel löscht ein regelbasiertes Festplatten-Monitoring rechtzeitig überflüssige Dateien. Auch Back-ups lassen sich gut automatisieren. Mit proaktiven Verteidigungsstrategien verringern Unternehmen zudem das Risiko von Sicherheitsvorfällen.

Interdisziplinäre Teams

Bei der Software-Entwicklung sind viele Parteien involviert. SRE schafft eine Brücke zwischen den beiden Zielbildern von Entwicklung und Betrieb: schnell neue Features zu entwickeln auf der einen Seite, die Software sicher und stabil zu halten auf der anderen. Der ideale IT-Betrieb ist dank SRE durch Code verwaltet, den Software-Ingenieur:innen bereits während der Entwicklung schreiben. So kommen Entwicklung und Betrieb aus einer Hand – für ein effizientes und ausfallsicheres Systemmanagement.

Klare Ziele festlegen

Eine minimale Ausfallzeit ist nicht alles. Was Nutzer:innen als zuverlässig wahrnehmen, lässt sich auf Basis der Nachfrage, des Konkurrenzangebots und des Benchmarks identifizieren. Business- und Engineering-Teams erarbeiten gemeinsam, welches Service-Level die optimale Balance zwischen Geschäftsnutzen und Kosten bringt. Das SRE-Team definiert diese Balance innerhalb von Service-Level-Agreements mit messbaren Zielen. Es legt auch fest, mit welchen Massnahmen diese erreicht werden – und reagiert schnell, wenn es nicht nach Plan läuft.

SRE stärkt Business und IT

Gemäss der Boston Consulting Group senkt SRE die IT-Ausfallzeiten in Unternehmen um 10 bis 30 Prozent. Die Leistungsfähigkeit steigt um 10 bis 15 Prozent, die Software-Entwicklung erfolgt zwei- bis fünfmal schneller als zuvor. SRE macht Unternehmen also messbar effizienter. Die gute Customer Experience trägt zudem zur langfristigen Kundenbindung bei. Auf der kulturellen Seite begünstigt der Ansatz Innovation: Mit der gemeinsamen Einsicht, dass es auch beim Betrieb um Software geht, wird Zuverlässigkeit zu einem wichtigen Feature. Vor allem auf ihrem Weg in die Cloud sollten Unternehmen darum auf SRE als wirksamen Autopiloten setzen.

Möchten Sie mehr über Site Reliability Engineering erfahren? Gerne laden wir Sie zu einer Beratung nach Mass ein und freuen uns über Ihre Kontaktaufnahme.

Den ausführlichen Artikel finden Sie hier.