Riesen-Störung: Post, Postfinance und Finma erklären sich

inside-it.ch weiss mehr über das IT-Setup, Redundanz und Regulatorien.
 
"Netzwerkprobleme bei der Schweizerischen Post" waren offiziell dafür verantwortlich, dass sowohl so ziemlich alle digitalen Services von Postfinance und Mutter, der Post, letzte Woche stundenlang nicht mehr liefen.
 
Wir haben nachgefragt, was konkret los war, sind doch die Aussagen von Post und Postfinance erklärungsbedürftig: Auf der einen Seite heisst es von offizieller Seite, der Grund liege in einem Netzwerkproblem und auf der anderen Seite heisst es gerüchteweise, ein Core-Server sei ausgefallen. Was ist ausgefallen und wieso führte das zu einem so langen Ausfall?
 
Post und Postfinance antworteten schriftlich und in einem gemeinsamen Statement: "Die Störung trat um zirka 10 Uhr auf. Es handelte sich um eine Fehlkonfiguration an Komponenten im Netzwerk. Diese löste gängige und nach den neusten Standards korrekt konfigurierte Software-Schutzmechanismen unserer Netzwerkkomponenten aus. Nach einer Ursachen-Wirkung-Analyse wurden die Systeme ab zirka 13 Uhr gemäss den Wiederanlaufplänen gestaffelt wieder in Betrieb genommen. Um 15.30 Uhr standen die meisten IT-Systeme wieder uneingeschränkt zur Verfügung."
 
Active-Active Disaster Recovery: Gibt's das und was lief schief?
In zeitgemässen Rechenzentren werden kritische Systeme redundant ausgelegt um High Availability zu garantieren. Selbst wenn ein ganzes Rechenzentrum ausfällt, müsste der Betrieb nahtlos weiterlaufen können, da das Backup-RZ übernimmt. Haben Post und Postfinance ein High-Availability-Setup und 'Active-Active Disaster Recovery'? Wenn ja, wieso hat das nicht funktioniert? "Die meisten Services der Post und von Postfinance werden in unseren eigenen Data Center betrieben. Diese sind geo-redundant auf zwei Standorte verteilt. Innerhalb der Data-Center-Standorte sind die Systemräume redundant zueinander ausgelegt. Die Data Center sind untereinander über Data Center Interconnection Links redundant verbunden. Der Zugang von anderen Plattformen wie Fremdnetze, Intranet und dem Postnetz ist über einen MPLS Backbone gewährleistet. Unser Netz entspricht geltenden Standards und Vorgaben und baut auf aktuellsten Technologien auf. Dabei legen wir höchste Wert auf Sicherheit und Verfügbarkeit. Die Ursache der Störung vom vergangenen Mittwoch ist noch nicht abschliessend geklärt. Daher können wir zur Zeit keine Aussage darüber tätigen, warum die Fehlersituation nicht zu einem Failover zwischen den Data Center geführt hat."
 
War das Risiko eines solchen Ausfalls bekannt, bewertet, und warum hat man es nicht ausgeschlossen? Wurde es beispielsweise als sehr unwahrscheinlich eingestuft? "Die Risiken von Virtualisierungstechnologien und menschlichen Faktoren sind bekannt und nie zu 100 Prozent ausschliessbar."
 
"Wir sind ein Konzern"
Wie kommt es, dass die betroffenen Systeme von Post und Postfinance überhaupt verknüpft sind und was spricht für dieses aktuelle Setup? "Wir sind ein Konzern. Diverse Geschäftsprozesse sprechen für dieses Setup. Zudem kann damit ein kosteneffizienter ICT-Betrieb im Konzern gewährleistet werden."
 
Wir gehen davon aus, dass es Procedures für solche Fälle gibt, inklusive Zuständigkeiten und Verantwortlichkeiten? Wurden diese eingehalten? "Ja."
 
Und was sagt die Finma?
Postfinance untersteht als Bank der Finma. Was sagt diese zu den wiederholten und teilweise längeren Ausfällen? "Die Finma steht mit der Postfinance im Kontext der IT-Unterbrüche im Rahmen ihrer Aufsichtstätigkeit in Kontakt", bestätigt ein Finma-Sprecher auf Anfrage.
 
Die Finanzmarktaufsicht ergänzt, man erwarte von Banken grundsätzlich, dass "sie den Umgang mit Störungen in IT-Systemen oder in der IT-Infrastruktur in ihrem IT-Risikomanagement-Konzept berücksichtigen und entsprechende Vorkehrungen treffen." Die Basis dafür bilde das Rundschreiben FINMA RS 2008/21.
 
Bei schwerwiegenden Geschäftsunterbrechungen, erklärt die Finma "müssen Banken über Pläne verfügen, um die Kontinuität der Tätigkeiten und die Schadensbegrenzung zu gewährleisten. So müssen sie beispielsweise Business-Recovery-Optionen für IT-Systeme oder die IT-Infrastruktur definieren. Die Umsetzung dieser Bestimmungen wird im Rahmen der Aufsichtstätigkeit überwacht."
 
"Wir investieren viel Geld und Arbeit in die IT"
Nach dieser Riesenstörung musste Postfinance-Chef Hansruedi Köng, der ein "Digital Powerhouse" avisiert, sich öffentlich entschuldigen. Glauben Post und Postfinance, dass es einen Vertrauensverlust bei Kunden und in der Politik gibt? "Das Thema Vertrauen muss differenziert betrachtet werden. Postfinance ist eine sichere, gut kapitalisierte Bank im Besitz der Schweizerischen Post. Diese wiederum ist im Besitz der Schweizerischen Eidgenossenschaft. Wir glauben nicht, dass es aufgrund von IT-Störungen einen Vertrauensverlust in die Post oder Postfinance als solide Unternehmen gibt. Hingegen ist es in der Tat so, dass häufige Störungen zu einem Vertrauensverlust bezüglich unserer digitalen Kompetenz führen könnten."
 
Verklausuliert könnte dies heissen: Beim nächsten Mal dürften Köpfe rollen. Schliesslich kostet die Digitalisierung die Unternehmen viel, das stellen Post und Postfinance klar. "Gerade mit Blick auf unsere strategische Ausrichtung, in der die Digitalisierung eine zentrale Rolle spielt, gilt es eine mögliche solche Entwicklung unbedingt zu verhindern. Entsprechend investieren wir viel Geld und Arbeit in den Unterhalt und den Ausbau unserer IT-Systeme, damit unsere digitalen Services den Kunden möglichst ununterbrochen und stabil zur Verfügung stehen. Das war in den vergangenen Monaten leider nicht immer der Fall."
 
Ist Ihre jetzige Definition eines "Netzwerks" genügend breit gefasst, um Ausfall-Risiken zu minimieren? Schliesslich sind Fälle bekannt, bei denen Bagger bei Bauarbeiten Kabel durchtrennten und so Netzwerke in die Knie zwangen und, Netzwerk-Experte und Linkedin-Network Architect, Russ White, schildert in einem Blog-Post, welche Komponenten am Rande eines Netzwerks zu grossen Störungen führen können.
 
Müsste man bei Post und Postfinance nach diesem Vorfall die Definition des Netzwerks breiter fassen? "Wir sind der Meinung, dass unsere Definition des Netzwerks genügend breit gefasst ist", antworten diese.
 
Dass Kunden, Politik und Behörden auch künftig sowieso mit grossen Ausfällen zu rechnen haben, sagt der renommierte Netzwerk-Spezialist Ivan Pepelnjak zu inside-it.ch. Er gibt Postfinance und allen andern Interessierten eine Botschaft: "Sie haben keine hoch verfügbare Lösung, bis Sie bewiesen haben, dass diese sich von Fehlern erholt hat. Testen, testen, testen … und dann noch mehr testen." (Marcel Gamma)