Microsoft erklärt Azure-Login-Probleme – und hat schon wieder welche

Am 19.November hatten Azure-Anwender in Europa, die Multifaktor-Authentisierung (MFA) einsetzen, während 14 Stunden Probleme beim Einloggen. Microsoft hat gestern auf seiner Azure-Statusseite eine detaillierte technische Erklärung zu den Problemen veröffentlicht. Das Peinliche daran: Nur wenige Stunden darauf gab es erneut Probleme für User mit Multifaktor-Authentisierung. Immerhin dauerte die zweite gestrige Störung diesmal nur zweieinhalb Stunden.
 
Letzte Woche waren Azure-Nutzer in Europa, Asien und Lateinamerika betroffen. In welchen Regionen das Problem gestern auftrat, ist aus der Statusseite nicht ersichtlich.
 
Ein Bug, ein Bug und noch ein Bug
Am 19. November, so Microsoft, führte eine Verkettung von drei unabhängigen Bugs zur Störung des MFA-Systems in den genannten Regionen. Die ersten beiden Bugs wurden durch den Rollout eines Software-Updates für die MFA-Server eingeführt, der vom 13. bis zum 16. November durchgeführt wurde.
 
Der erste Bug manifestierte sich in einer erhöhten Latenz in der Kommunikation zwischen dem MFA Frontend und Caching Services. Dies wiederum führte dazu, dass der zweite Bug "aktiv" wurde. Die erhöhte Latenz verursachte eine "Race Condition" in den Backend-Servern, einen Konfliktzustand, der diese dazu brachte, Front-end-Server-Prozesse immer wieder neu zu starten.
 
Und dies wiederum "weckte" einen dritten, anscheinend schon länger existierenden, aber bisher unentdeckten Bug in den Backend-MFA-Servern. Sie begannen, unnötigerweise immer mehr Prozesse zu starten. Diese frassen immer mehr Ressourcen, bis die Server schliesslich in die Knie gingen. Die Server führten also sozusagen einen DoS-Angriff auf sich selbst durch.
 
Zusätzlich, so räumt Microsoft ein, hätten Lücken in den Telemetriedaten und der Überwachung der MFA-Server dazu geführt, dass die Identifizierung und Behebung der Probleme länger dauerte als notwendig.
 
Für die Login-Störung von gestern hat Microsoft noch keine detaillierte Begründung. Gemäss vorläufigen Erkenntnissen habe es ein Problem bei DNS-Abfragen gegeben. Dies habe dazu geführt, dass viele Login-Versuche scheiterten, und dadurch sei dann die Backend-Infrastruktur "krank geworden". (hjm)