Das waren die Gründe für den Ausfall von Microsofts Cloud Services

2. Oktober 2020 um 13:57
  • it-strategie
  • international
  • cloud
  • microsoft
  • channel
image

Wegen eines latenten Code-Defekts wurde ein Update direkt in die produktive Umgebung eingespielt. Microsoft nennt Details zur Störung vom 29. September.

In der Nacht auf den 29. September hat Microsoft ein Update in seine Azure Active Directory eingespielt. In der Folge kam es zu weltweiten Ausfällen von Cloud-Diensten. Wie das Unternehmen nun in einer Analyse festhält, hätte eine solche Änderung vorerst ausserhalb der produktiven Umgebung – weit ab von den Kunden – getestet werden sollen. Stattdessen sei das Service-Update aufgrund eines Fehlers direkt über alle Bereiche ausgerollt worden. Dies schreibt Microsoft in einem Beitrag auf seiner Website zur Azure Status History.
"Ein latenter Code-Defekt im SDP-System (Safe Deployment Process) des Azure AD-Backend-Dienstes führte dazu, dass dieses direkt in unserer Produktionsumgebung eingesetzt wurde, wodurch unser normaler Validierungsprozess umgangen wurde", heisst es dort. Azure Active Directory ist Microsofts cloud-basierter Identity und Access Management Service. In Folge des Problems hatten Nutzer von Microsoft 365 wie auch einige Azure-Kunden mehrere Stunden mit Störungen zu kämpfen.
Um das Problem zu beheben, wollten die Microsoft-Verantwortlichen ein automatisches Rollback initiieren. Dieses sei aber aufgrund beschädigter Metadaten nicht möglich gewesen, was ebenfalls auf den latenten Defekt zurückzuführen gewesen sei. Daraufhin habe man das Problem händisch lösen müssen. Dies habe rund 5 Stunden in Anspruch genommen, teilt Microsoft mit.
Wer bereits in seinen Diensten angemeldet gewesen sei, könne vom Problem verschont geblieben sein, da es sich um eine Störung im Access-System gehandelt habe. Auch seien vor allem australische und US-amerikanische Kunden in Mitleidenschaft gezogen worden. In Asien und Europa sei das Problem weniger aufgetreten. Die Dienste seien in Europa auch während der Störung zu 81% erreichbar gewesen, heisst es im Bericht von Microsoft.
Der latente Defekt, der das Unglück ausgelöst habe, sei mittlerweile behoben, so Microsoft. Zudem sei das existierende Rollback-System repariert worden und man würde auch häufiger Rollback-Operationen zu Testzwecken durchführen. Weitere Schutzvorkehrungen, um diese Art von Fehlern künftig zu verhindern, würden nun in Angriff genommen.

Loading

Mehr zum Thema

image

Nachlassende Umsätze für HP, HPE und Dell

Die drei traditionsreichen US-Hardwarehersteller können gerade nicht glänzen.

publiziert am 1.3.2024
image

Interdiscount wird Teil von Euronics International

Die Coop-Tochter verspricht sich von der Partnerschaft ein grösseres internationales Netzwerk.

publiziert am 29.2.2024 1
image

"Dann müssen wir über die Privatisierung von Swisscom reden"

Swisscom will Vodafone Italien für 8 Milliarden Euro übernehmen. Dagegen regt sich Widerstand aus der Politik.

publiziert am 29.2.2024
image

Infoguard wächst stark

Vor allem die Nachfrage nach Cyber-Defence- und Incident-Response-Services tragen zum Umsatzplus bei. Im Ausland hat Infoguard "erfolgreich Fuss gefasst".

publiziert am 29.2.2024