Routinewartung, Löschgas ausgelöst, Kettenreaktion, Azure down

4. Oktober 2017 um 12:05
  • cloud
  • azure
image

Am vergangenen Freitagnachmittag konnten viele Kunden in Europa ihre Cloud-Services in Microsofts Azure-Plattform während rund sieben Stunden nicht nutzen.

Am vergangenen Freitagnachmittag konnten viele Kunden in Europa ihre Cloud-Services in Microsofts Azure-Plattform während rund sieben Stunden nicht nutzen. Durch einen Crash funktionierten Schlüsselservices wie Virtuelle Maschinen, Azure Backup, Azure Cache, Azure Monitor, Stream Analytics, HDInsight und andere nicht mehr. Betroffen waren Kunden, die an die Region North Europe, also das Rechenzentrum in Irland, angeschlossen sind.
Wie das Azure-Team nun erfreulich transparent beschreibt, stand eine Routinewartung des Feuerlöschsystems am Anfang der Probleme. Dabei wurde versehentlich Feuerlöschgas freigesetzt, und dies löste eine unvorhergesehene Kettenreaktion aus.
Nach dem Austritt des Feuerlöschgases wurde, wie das in einem echten Brandfall vorgesehen ist, sofort das Luftzirkulationssystem im betroffenen Bereich abgeschaltet. Dies soll beispielsweise verhindern, dass Sauerstoff zum Brandherd gelangt oder Rauchgase durch die Luftschächte in andere Teile eines Rechenzentrums gelangen. Allerdings wird dadurch auch die Kühlung unterbrochen.
Dass das Gas aus Versehen freigesetzt wurde, wurde sofort bemerkt. Nach 35 Minuten liefen laut Microsoft wieder alle Ventilatoren und die Temperaturen waren wieder auf dem normalen Betriebsniveau. Allerdings waren die Temperaturen in diversen Arealen in der Zwischenzeit so weit gestiegen, dass sich einige IT-Systeme automatisch selbst abschalteten oder neu starteten, um eine Überhitzung zu vermeiden, bis schliesslich eine grössere Storage-Einheit, eine sogenannte Storage Scale Unit, den Dienst verweigerte. Daraufhin schalteten sich auch virtuelle Maschinen, die darauf zugreifen, automatisch ab, um Datenverluste zu vermeiden.
Einige Server und Storage-Systeme hätten sich zudem "nicht in einer kontrollierten Weise" heruntergefahren. Dies wiederum habe die Wiederherstellung und Inbetriebnahme der betroffenen Ressourcen verzögert. Erst als die erwähnte Storage Scale Unit wieder die notwendige Zahl an funktionierenden Knoten erreichte, begann sich die Situation für die betroffenen Kunden wieder zu verbessern. (Hans Jörg Maron)

Loading

Mehr zum Thema

image

OVHcloud kauft einen deutschen Cloud-Provider

Mit der Übernahme von Gridscale treiben die Franzosen ihre geografische Expansion voran. Der IaaS- und SaaS-Anbieter hat auch RZ-Standorte in der Schweiz.

publiziert am 4.8.2023
image

AWS wächst deutlich schwächer als im Vorjahr

Amazon-CEO Andy Jassy lässt sich aber nicht beeindrucken, er hofft auf Künstliche Intelligenz. Und auch der härteste Konkurrent wuchs weniger stark.

publiziert am 4.8.2023
image

"SAP muss exorbitante Preiserhöhungen zurücknehmen"

Die SAP-Anwendergruppe kritisiert die Cloud-Drängelei und eine "180-Grad-Wende" beim ERP-Konzern. Wir haben beim Schweizer DSAG-Vorstand Jean-Claude Flury nachgefragt.

publiziert am 3.8.2023 3
image

SAP erhöht Preise für Wartung

Der ERP-Anbieter verlangt bald mehr für die Softwarewartung. Dies erhöht den Druck auf Kunden, in die Cloud zu wechseln, kritisiert die DSAG.

publiziert am 2.8.2023