Routinewartung, Löschgas ausgelöst, Kettenreaktion, Azure down

Am vergangenen Freitagnachmittag konnten viele Kunden in Europa ihre Cloud-Services in Microsofts Azure-Plattform während rund sieben Stunden nicht nutzen. Durch einen Crash funktionierten Schlüsselservices wie Virtuelle Maschinen, Azure Backup, Azure Cache, Azure Monitor, Stream Analytics, HDInsight und andere nicht mehr. Betroffen waren Kunden, die an die Region North Europe, also das Rechenzentrum in Irland, angeschlossen sind.
 
Wie das Azure-Team nun erfreulich transparent beschreibt, stand eine Routinewartung des Feuerlöschsystems am Anfang der Probleme. Dabei wurde versehentlich Feuerlöschgas freigesetzt, und dies löste eine unvorhergesehene Kettenreaktion aus.
 
Nach dem Austritt des Feuerlöschgases wurde, wie das in einem echten Brandfall vorgesehen ist, sofort das Luftzirkulationssystem im betroffenen Bereich abgeschaltet. Dies soll beispielsweise verhindern, dass Sauerstoff zum Brandherd gelangt oder Rauchgase durch die Luftschächte in andere Teile eines Rechenzentrums gelangen. Allerdings wird dadurch auch die Kühlung unterbrochen.
 
Dass das Gas aus Versehen freigesetzt wurde, wurde sofort bemerkt. Nach 35 Minuten liefen laut Microsoft wieder alle Ventilatoren und die Temperaturen waren wieder auf dem normalen Betriebsniveau. Allerdings waren die Temperaturen in diversen Arealen in der Zwischenzeit so weit gestiegen, dass sich einige IT-Systeme automatisch selbst abschalteten oder neu starteten, um eine Überhitzung zu vermeiden, bis schliesslich eine grössere Storage-Einheit, eine sogenannte Storage Scale Unit, den Dienst verweigerte. Daraufhin schalteten sich auch virtuelle Maschinen, die darauf zugreifen, automatisch ab, um Datenverluste zu vermeiden.
 
Einige Server und Storage-Systeme hätten sich zudem "nicht in einer kontrollierten Weise" heruntergefahren. Dies wiederum habe die Wiederherstellung und Inbetriebnahme der betroffenen Ressourcen verzögert. Erst als die erwähnte Storage Scale Unit wieder die notwendige Zahl an funktionierenden Knoten erreichte, begann sich die Situation für die betroffenen Kunden wieder zu verbessern. (Hans Jörg Maron)