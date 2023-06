Es war ein Worst-Case-Szenario. Am Donnerstag, 25. Mai 2023 kurz nach 15 Uhr gingen im Operation Control Center der Stadtzürcher Abteilung "Organisation und Informatik" (OIZ) alle Lämpli auf Rot. Kein gutes Zeichen, sämtliche Behörden waren offline

Doch es waren nicht nur die Websites der Verkehrsbetriebe, Stadtpolizei, Feuerwehr, Elektrizitätswerk, Spitäler und Verwaltungswebsites der Stadt Zürich nicht erreichbar. Auch wirklich produktiv arbeiten konnte niemand mehr – viele Mitarbeitende verabschiedeten sich in den Feierabend.

Die einen im Feierabend, die anderen im Krisenmodus

Werner Kipfer, Geschäftsleitungsmitglied beim OIZ.

Aber nicht alle konnten "Schluss machen". Für einige ging es mit der Störungsmeldung erst richtig los. Für Werner Kipfer zum Beispiel, der bei den OIZ in der Geschäftsleitung sitzt, den Bereich Workplace führt und an diesem Tag als Krisenstabsleiter eingeteilt war.

Kipfer wusste dementsprechend beim Eintreten des Krisenfalls , dass er an dem Tag übernehmen musste. "Es gibt für jeden Tag einen klaren Plan", sagt er. Personen, die als Leiter des Stabs in Frage kommen, dürften nicht gleichzeitig abwesend sein – um eben im Fall der Fälle bereit zu sein.

Um 15 Uhr gingen die roten Lämpli an

Der Vorfall am 25. Mai war ein "Major Incident", weil so viele verschiedene Stellen betroffen waren. In dieser Grössenordnung passiert das selten, zuletzt im Jahr 2017. Kipfer hat diesen grossen Ausfall damals "ausgelassen", wie er sagt. Er war schon von 2007 bis 2012 beim OIZ tätig, wechselte danach aber für 6 Jahre zu Swisscom und kehrte erst 2018, also nach dem damaligen Vorfall, zum OIZ zurück.

Operation Control Center am OIZ in Zürich.

Kipfer schildert seine "Premiere" so: "Um 15 Uhr wurde der Vorfall festgestellt, eben durch die roten Lämpli im Operation Control Center. Nachdem die ersten Troubleshooting-Massnahmen keine Besserung gebracht hatten, wurde der Krisenstab durch den Manager on Duty einberufen und traf sich der Krisenstab kurz nach 15 Uhr 30 zum ersten Mal. Unsere 'Not-Organisation' war bereits eine Viertelstunde später operativ."

Im roten Ordner ist die Sitzordnung abgeheftet

Man ist beim OIZ für solche Fälle vorbereitet. Im Büro von Werner Kipfer liegt ein roter Ordner mit allen relevanten Dokumenten, die regelmässig aktualisiert werden. Abgeheftet ist auch die Sitzordnung. Es ist also haargenau festgelegt, welche Rolle im "War Room" wo sitzt. 5 Menschen sind an diesem Donnerstag beteiligt. "Offline-Dokumente sind in solchen Fällen enorm hilfreich, wenn ich wegen Systemausfällen nicht auf digitale Dossiers zugreifen kann".

Verkompliziert werden Krisenstäbe in jeder Organisation, nicht nur beim OIZ, durch Hybrid Work. "Wir haben Ersatzrollen definiert, falls jemand im Homeoffice arbeitet und nicht schnell genug vor Ort kommen kann", sagt Kipfer. Im aktuellen Fall hätte Homeoffice aber nicht geschadet, im Gegenteil: Von dort aus hat man im Gegensatz zum OIZ arbeiten können.

Situationen wie diese werden jährlich trainiert

Kipfer schildert die Situation zwei Wochen danach ruhig und gelassen. Auch am 25. Mai sei er gefasst gewesen, erzählt er. Als er sicher gewesen sei, dass "alle relevanten Personen vor Ort waren", habe er gewusst, dass es gut komme. "Wir üben solche Situationen ein- bis zweimal pro Jahr". Vor rund 6 Monaten habe man ein absolut vergleichbares Szenario während eines halben Tages durchgespielt. "Das hilft uns enorm. So wissen alle Beteiligten, was sie zu tun haben".

Zu tun gibts Folgendes: "Als Erstes macht der Krisenstab eine Analyse der Situation. Glücklicherweise konnten wir an dem Tag rasch feststellen, was die Ursache des Problems war und konnten dementsprechend schnell einen Cyberangriff ausschliessen". Im Stundentakt, "immer Viertel ab", trifft sich der Stab zum erneuten Austausch, bis die Situation geklärt und die Kommunikation erledigt ist.

Kein menschliches Versagen, aber ein Fehler

Eine Fehlkonfiguration, verursacht durch einen Techniker, war der Grund für den Ausfall. "Menschliches Versagen" sei es nicht gewesen, aber "ein Fehler, ja, das schon". Ein klassischer Edge-Case, der zwar theoretisch möglich ist, aber bei dem man nicht damit rechnet, dass er wirklich passiert. Und doch ist es geschehen.

Schlussendlich ging der Fall glimpflich aus. Erstens, weil es tagsüber passierte. Zweitens, weil die Blaulichtorganisationen nicht betroffen waren und drittens, weil die Stadt nach gut zwei Stunden bereits wieder online war. Und doch muss die Stadt aus dem Fall lernen und sicherstellen, dass er nicht noch ein zweites Mal passiert.

Verantwortlich dafür ist der Leiter des Operation Control Centers, der einen vordefinierten Prozess zur Aufarbeitung des Vorfalls anstösst. "Dieser läuft aktuell", sagt Werner Kipfer. Das dauere länger – rund 3 bis 4 Wochen – weil alle Fachabteilungen hinzugezogen würden. Basierend auf den Ergebnissen werden entsprechende Massnahmen definiert. Verantwortlich ist nicht mehr der Krisenstab, der inzwischen wieder aufgelöst worden ist, sondern die einzelnen Abteilungen.

Krisenstab stellt sich selbst ein gutes Zeugnis aus

Was der Ausfall die Stadt Zürich gekostet hat, kann oder will Werner Kipfer nicht sagen. Das sei gar nicht möglich, weil beispielsweise kein Schaden an der Hardware entstanden sei. Der grösste Teil der Kosten sei Arbeitszeit gewesen, aber man habe das noch nicht ausgerechnet. Gefragt seien diese Kosten seitens Stadt indes schon.

Rückblickend gesehen gebe es zwar schon das eine oder andere, was besser gemacht werden könnte, bilanziert Werner Kipfer. "Grossomodo ist es aber gut und nach Drehbuch gelaufen". Entscheidend sei gewesen, dass die Organisation solche Fälle trainiert habe. "Wir sind insgesamt zufrieden".