Am Morgen des 25. Januar 2023 konnten zahlreiche Nutzende nicht mehr auf die wichtigsten Microsoft-365-Dienste wie Teams, Outlook, Word oder Excel zugreifen. Insbesondere Applikationen und Dienste, die auf der Azure-Cloud gehostet werden,
funktionierten für einen halben Tag nicht mehr richtig. Nun hat Microsoft ein erstes "Post Incident Review" und damit auch Informationen zu den Ursachen des Ausfalls veröffentlicht.
Grund für die Panne war gemäss Microsoft eine geplante Änderung an einem WAN-Router. Dabei sollte eigentlich nur eine IP-Adresse auf dem Router verändert werden. Dies habe jedoch dazu geführt, dass statt eines Befehls an einen einzelnen Router eine Nachricht an alle Netzwerkgeräte im WAN gesendet wurde. So sei es zu einer Neukalkulation der Weiterleitungsinformationen gekommen, bei welcher die Router die Daten nicht korrekt transferieren konnten, schreibt Microsoft.
Aufgrund dieses Missgeschicks sei das WAN deswegen angehalten worden, einschliesslich aller Traffic-Engineering-Systeme zur Optimierung des Datenflusses im Netz. Wegen der Unterbrechung dieser Systeme sei es dann auf einigen Pfaden ab 09:35 Uhr zu erhöhten Paketverlusten gekommen, schreibt Microsoft. Daraufhin seien diese Systeme manuell neu gestartet worden und das WAN habe wieder optimale Betriebsbedingungen aufgewiesen. Diese Wiederherstellung sei um 12:43 Uhr abgeschlossen worden.
Um solche Ausfälle in Zukunft zu verhindern, hat Microsoft nach eigenen Angaben neu die Ausführung von hochgradig gefährlichen Befehlen auf den Routern blockiert. Dazu soll bis Ende Februar 2023 dafür gesorgt werden, dass auf den Geräten die Richtlinien für sichere Änderungen eingehalten werden. Das
vorläufige "Post Incident Review" wird jeweils innerhalb von 3 Tagen nach der Behebung des Vorfalls veröffentlicht. Der finale Bericht mit zusätzlichen Details soll dann innert 14 Tagen publiziert werden.