Das waren die Gründe für den Ausfall von Microsofts Cloud Services

2. Oktober 2020 um 13:57
  • it-strategie
  • international
  • cloud
  • microsoft
  • channel
image

Wegen eines latenten Code-Defekts wurde ein Update direkt in die produktive Umgebung eingespielt. Microsoft nennt Details zur Störung vom 29. September.

In der Nacht auf den 29. September hat Microsoft ein Update in seine Azure Active Directory eingespielt. In der Folge kam es zu weltweiten Ausfällen von Cloud-Diensten. Wie das Unternehmen nun in einer Analyse festhält, hätte eine solche Änderung vorerst ausserhalb der produktiven Umgebung – weit ab von den Kunden – getestet werden sollen. Stattdessen sei das Service-Update aufgrund eines Fehlers direkt über alle Bereiche ausgerollt worden. Dies schreibt Microsoft in einem Beitrag auf seiner Website zur Azure Status History.
"Ein latenter Code-Defekt im SDP-System (Safe Deployment Process) des Azure AD-Backend-Dienstes führte dazu, dass dieses direkt in unserer Produktionsumgebung eingesetzt wurde, wodurch unser normaler Validierungsprozess umgangen wurde", heisst es dort. Azure Active Directory ist Microsofts cloud-basierter Identity und Access Management Service. In Folge des Problems hatten Nutzer von Microsoft 365 wie auch einige Azure-Kunden mehrere Stunden mit Störungen zu kämpfen.
Um das Problem zu beheben, wollten die Microsoft-Verantwortlichen ein automatisches Rollback initiieren. Dieses sei aber aufgrund beschädigter Metadaten nicht möglich gewesen, was ebenfalls auf den latenten Defekt zurückzuführen gewesen sei. Daraufhin habe man das Problem händisch lösen müssen. Dies habe rund 5 Stunden in Anspruch genommen, teilt Microsoft mit.
Wer bereits in seinen Diensten angemeldet gewesen sei, könne vom Problem verschont geblieben sein, da es sich um eine Störung im Access-System gehandelt habe. Auch seien vor allem australische und US-amerikanische Kunden in Mitleidenschaft gezogen worden. In Asien und Europa sei das Problem weniger aufgetreten. Die Dienste seien in Europa auch während der Störung zu 81% erreichbar gewesen, heisst es im Bericht von Microsoft.
Der latente Defekt, der das Unglück ausgelöst habe, sei mittlerweile behoben, so Microsoft. Zudem sei das existierende Rollback-System repariert worden und man würde auch häufiger Rollback-Operationen zu Testzwecken durchführen. Weitere Schutzvorkehrungen, um diese Art von Fehlern künftig zu verhindern, würden nun in Angriff genommen.

Loading

Mehr zum Thema

image

DGC Schweiz ist konkurs

Über die Schweizer Niederlassung der Deutschen Gesellschaft für Cybersicherheit wurde der Konkurs im Nachlassverfahren eröffnet.

publiziert am 25.9.2023
image

Timetoact Group (Catworkx) übernimmt Schweizer Atlassian-Partner Zuara

Das Berner Unternehmen Zuara wird Teil eines der grössten Atlassian-Spezialisten in Europa.

publiziert am 25.9.2023
image

Das waren bisher die grössten Tech-Übernahmen 2023

Mit dem Kauf von Splunk dürfte Cisco dieses Jahr den grössten Deal abschliessen. Es gab aber weitere Milliarden-Akquisitionen im Tech-Umfeld.

publiziert am 22.9.2023
image

Cisco reisst sich Splunk unter den Nagel

Mit dem Observability-Spezialisten will Cisco seine wiederkehrenden Umsätze steigern und zu einem der grössten Softwareanbieter werden. Der Deal ist 28 Milliarden Dollar schwer.

publiziert am 21.9.2023