Routinewartung, Löschgas ausgelöst, Kettenreaktion, Azure down

4. Oktober 2017, 12:05
  • cloud
  • azure
image

Am vergangenen Freitagnachmittag konnten viele Kunden in Europa ihre Cloud-Services in Microsofts Azure-Plattform während rund sieben Stunden nicht nutzen.

Am vergangenen Freitagnachmittag konnten viele Kunden in Europa ihre Cloud-Services in Microsofts Azure-Plattform während rund sieben Stunden nicht nutzen. Durch einen Crash funktionierten Schlüsselservices wie Virtuelle Maschinen, Azure Backup, Azure Cache, Azure Monitor, Stream Analytics, HDInsight und andere nicht mehr. Betroffen waren Kunden, die an die Region North Europe, also das Rechenzentrum in Irland, angeschlossen sind.
Wie das Azure-Team nun erfreulich transparent beschreibt, stand eine Routinewartung des Feuerlöschsystems am Anfang der Probleme. Dabei wurde versehentlich Feuerlöschgas freigesetzt, und dies löste eine unvorhergesehene Kettenreaktion aus.
Nach dem Austritt des Feuerlöschgases wurde, wie das in einem echten Brandfall vorgesehen ist, sofort das Luftzirkulationssystem im betroffenen Bereich abgeschaltet. Dies soll beispielsweise verhindern, dass Sauerstoff zum Brandherd gelangt oder Rauchgase durch die Luftschächte in andere Teile eines Rechenzentrums gelangen. Allerdings wird dadurch auch die Kühlung unterbrochen.
Dass das Gas aus Versehen freigesetzt wurde, wurde sofort bemerkt. Nach 35 Minuten liefen laut Microsoft wieder alle Ventilatoren und die Temperaturen waren wieder auf dem normalen Betriebsniveau. Allerdings waren die Temperaturen in diversen Arealen in der Zwischenzeit so weit gestiegen, dass sich einige IT-Systeme automatisch selbst abschalteten oder neu starteten, um eine Überhitzung zu vermeiden, bis schliesslich eine grössere Storage-Einheit, eine sogenannte Storage Scale Unit, den Dienst verweigerte. Daraufhin schalteten sich auch virtuelle Maschinen, die darauf zugreifen, automatisch ab, um Datenverluste zu vermeiden.
Einige Server und Storage-Systeme hätten sich zudem "nicht in einer kontrollierten Weise" heruntergefahren. Dies wiederum habe die Wiederherstellung und Inbetriebnahme der betroffenen Ressourcen verzögert. Erst als die erwähnte Storage Scale Unit wieder die notwendige Zahl an funktionierenden Knoten erreichte, begann sich die Situation für die betroffenen Kunden wieder zu verbessern. (Hans Jörg Maron)

Loading

Mehr zum Thema

image

Zürcher Datenschützerin zum Cloudeinsatz: "Der Regierungsratsbeschluss ändert gar nichts"

Bei Dominika Blonski häufen sich seit dem Frühling Anfragen von Behörden zur Cloudnutzung. Im Gespräch sagt die Datenschützerin: "Ich weiss nicht, was die Absicht der Zürcher Regierung war."

publiziert am 30.9.2022 7
image

Der CTO von Microsoft Azure will künftig auf Rust setzen

Weil die Programmiersprache sicherer und zuverlässiger als C und C++ ist, soll sie in Zukunft vermehrt zum Einsatz kommen. Der C++-Erfinder hingegen sieht die Ablösung als "gewaltige Aufgabe".

publiziert am 28.9.2022
image

Edöb: "Vertrauen Behörden nur auf private Gutachten, können sie sich eine blutige Nase holen"

Der Eidgenössische Datenschützer kritisiert Anwaltskanzleien, die Behörden beim Einsatz von US-Cloud-Diensten Sicherheit versprechen. Im Interview schildert Adrian Lobsiger seine Sicht.

publiziert am 28.9.2022 3
image

Public Cloud: Der Bund hat Verträge mit Hyperscalern unterzeichnet

Da noch ein Gerichtsverfahren hängig ist, können die Ämter noch keine Cloud Services im Rahmen der 110 Millionen Franken schweren WTO-Beschaffung beziehen.

publiziert am 27.9.2022 1