Globaler IT-Crash bei British Airways: Was man weiss und was nicht

Was ausfiel, warum und was seit Samstag geschah. Und wann Redundanz Probleme bereitet.
 
"Ein Problem mit der Stromversorgung", so schrieb British-Airways-Chef Alex Cruz via Twitter, sei für den globalen Crash der Fluglinien-IT verantwortlich. Von der Panne betroffen waren am Samstag Mittag das Gepäck-Management-System, sämtliche Check-in-Systeme und das Kundencenter der Fluglinie. Auch das Buchungssystem funktionierte nur eingeschränkt. Der IT-Ausfall sei global, bestätigte British Airways (BA). Die Folgen – abgesagte und verspätete Flüge, nicht auffindbares Gepäck – waren weltweit spürbar.
 
Die Informatiker konnten die Systeme wieder hochfahren, allerdings liefen diese auch heute Mittag nicht vollständig stabil, auch wenn sich der Flugverkehr normalisierte. BA meldete laut 'BBC', man sei näher am Ziel voll operationell zu sein.
 
Bis anhin hat BA eine Hacker-Attacke als "unwahrscheinlich" bezeichnet, aber nichts zu den genaueren Ursachen verlauten lassen. Die Fluglinie hat auch nicht erklärt, warum kein Failover-System hochgefahren werden konnte, beziehungsweise ob eines vorhanden wäre (wovon wir doch stark ausgehen).
 
Laut 'The Register' hat BA eine "sehr grosse IT-Infrastruktur": 500 Racks in sechs RZs an zwei Standorten in der Nähe des BA-Hauptsitzes nahe Heathrow.
 
Die Gewerkschaft GMB verknüpfte den Ausfall mit dem Outsourcing von Hunderten von Informatikstellen an Tata Consultancy Services in Indien vor rund einem Jahr. Auf die Frage von inside-it.ch, auf welchen Fakten die Aussage basiere, reagierte GMB bis anhin nicht.
 
Laut 'The Register' wurden mindestens 200 britische Applikations-Manager, die für den Betrieb verantwortlich waren, durch Informatiker in Indien ersetzt, um Kosten zu sparen.
 
BA bestreitet laut 'BBC' jeden Zusammenhang: "Wir würden die Integrität und Sicherheit unserer IT-Systeme nie riskieren", sagte die Fluglinie. Ihre Verteidigungslinie: "Heute werden IT-Services von vielen Dienstleistern rund um den Globus zur Verfügung gestellt. Dies ist weit verbreitet, auch bei der britischen Regierung."
 
Spekulationen in IT-Fachpublikationen
In den Kommentarspalten von britischen IT-Fachpublikationen wird derweil spekuliert. Einige der interessanteren Vermutungen: Im Londoner Raum habe es kurz vorher Gewitter gegeben, ein Stromausfall könne tatsächlich die Ursache sein. Was dann die Frage nach dem RZ-Betreiber aufwirft, der unbekannt ist.
 
Möglicherweise habe jemand Hardware ausgesteckt und an der betreffenden Steckdose einen Staubsauger angeschlossen (was offenbar in UK tatsächlich vorgekommen sein soll).
 
Ein weiterer Kommentator meint, dass BA von vielen unterschiedlichen Echtzeitdaten bezüglich Passagieren, Fracht, Flugzeugen, Ersatzteilen undsoweiter abhänge, die synchronisiert werden müssen. Bei einem Ausfall eines Netzwerk-Teils werde das Hochfahren mit korrupten oder verlorenen Daten schwierig, ganz abgesehen davon, dass keine aktuellen Echtzeit-Daten mehr zur Verfügung stünden. Und, nicht zu vergessen sind die vielen Legacy-Systeme.
 
Netzwerk-Experte: "Volle Redundanz verhindert keine Ausfälle"
"Resilienz kostet eben Geld", meint einer, "und ist verschwendet, bis man sie braucht". Ein anderer vermutet einen "Single Point of Failure", den Netzwerkspezialisten wie Ivan Pepelnjak fürchten.
 
Pepelnjak sagte auf Anfrage von inside-it.ch zum BA-Crash: "Es ist ganz plausibel, dass ein dumm einfacher Ausfall zu einem solch katastrophalen Ausfall kaskadieren könnte."
 
Wie man denn die Redundanz genau hinkriege, welches File-System und welche Hardware dafür am besten geeignet ist, was diese kostet und ob man zu AWS oder einem andern Cloud-Spezialisten wechseln solle … darüber kann man trefflich streiten.
 
Pepelnjak, international renommierter Netzwerk-Experte, sagt: "Volle Redundanz verhindert keine Ausfälle. Wenn es richtig gemacht wird, reduziert Redundanz die Wahrscheinlichkeit eines totalen Ausfalls. Wenn diese falsch gemacht wird, dann werden redundante Lösungen aufgrund der erhöhten Komplexität weniger robust als nicht-redundante."
 
"Es gibt vor allem ein spekulatives(!), aber plausibles, Szenario", sagt André Oppermann, akkreditierter Tier Designer beim renommierten Uptime Institute im inside-it.ch-Interview über mögliche technische Ursachen und Manager-Fehler hinter dem BA-Crash.
 
Bereits im Sommer 2016 hatte es vier Mal in kurzer Folge Probleme mit dem Check-In-System von BA gegeben. Die Fluglinie ist mit IT-Problemen nicht allein. Im Juli waren Southwest Airlines und im August Delta von je einem grossen IT-Ausfall betroffen, im Oktober waren Teile der Swiss-IT rund fünf Stunden down. (Marcel Gamma)