Wie vier kleine Datenpäckli einen grossen Carrier in die Knie zwangen

Die US-Kommunikationsbehörde FCC hat den Ausfall von CenturyLink im letzten Dezember analysiert.
 
Im letzten Dezember hatte der US-Carrier und Service-Provider CenturyLink einen nicht weniger als 37 Stunden dauernden Ausfall in einem seiner sechs grossen Glasfasernetze zu beklagen. CenturyLink ist nach eigenen Angaben der zweitgrösse Provider in den USA für Enterprise-Kunden, bietet aber auch direkt Internet-Services für Privatkunden an. Das heutige Unternehmen entstand durch den Zusammenschluss von CenturyLink mit Level 3 im Jahr 2017.
 
Die US-Kommunikationsbehörde FCC hat den Vorfall mittlerweile analysiert und einen Bericht (PDF) veröffentlicht. Laut der FCC zog der Ausfall sowohl andere Provider als auch Geschäftskunden und Privatkunden in Mitleidenschaft.
 
Spontan generierte Datenpakete
Im betroffenen Glasfasernetz von CenturyLink werden laut dem FCC-Bericht optische Switches von Infinera für die Weiterleitung von eingehenden Datenpaketen verwendet. Diese Switches können über einen proprietären "Management-Channel" auch untereinander kommunizieren, um zum Beispiel bei Netzwerkstörungen Traffic sehr schnell umleiten zu können, ohne dass es Instruktionen von aussen braucht. CenturyLink hatte diesen Management-Channel aber gar nie konfiguriert oder verwendet.
 
Trotzdem generierte am Abend des 27. Dezember ein Switching-Modul in einem Knotenpunkt in Denver vier falsch zusammengesetzte Management-Datenpakete. Der Grund dafür ist bislang weder CenturyLink noch der FCC bekannt.
 
Solche missgebildeten Datenpakete treten laut dem Bericht gar nicht selten auf. Normalerweise haben sie aber Eigenschaften, die sie klar als ungültig ausweisen, so dass sie von einem Netzwerk sofort fallen gelassen werden. Dummerweise galt dies nicht für diese vier Pakete. Sie hatten einen gültigen Header, eine gültige Prüfsumme und die korrekte Grösse für Management-Pakete von über 64 Bytes. Zudem hatten sie kein "Ablaufdatum", welches das Netzwerk hätte anweisen können, sie fallen zu lassen.
 
Kettenreaktion
Das Gerät, das sie ursprünglich erzeugte, schickte die vier Datenpakete an andere Module des Netzwerks weiter, von wo sie schliesslich, weil sie alle Kontrollen passierten, via den erwähnten Management-Channels zu weiteren Knoten gelangten. Und diese wurden von den Paketen angewiesen, sie an sämtliche anderen mit ihnen verbundenen Knoten des Netzwerks weiterzuleiten. Inklusive dem Knoten, von dem aus sie geschickt wurden. Und weil die Pakete kein Auslaufdatum hatten, wiederholten die Knoten dies immer und immer und immer wieder.
 
Was folgte war eine Mischung aus einer Kettenreaktion und einer Art unendlichem Echoeffekt. Die vier missgebildeten Pakete wurden immer wieder kopiert und weitergeleitet, vermehrten sich dabei immer mehr und überfluteten die Knoten schliesslich so sehr, dass normaler Traffic nicht mehr fliessen konnte.
 
Unerreichbare Knoten
Dummerweise bedeutete dies gleichzeitig, dass auch die CenturyLink-Techniker die Switching-Knoten nicht mehr erreichen konnten, um das Problem zu beheben.
 
Nach rund 15 Stunden konnten die Techniker trotzdem das Switching-Modul eruieren, welches das ganze ausgelöst hatte. Sein Ersatz nützte aber vorerst nichts, weil die falschen Pakete weiterhin im Netzwerk kursierten und repliziert wurden.
 
Erst nach weiteren drei Stunden gelang es, die ersten Knoten zu erreichen und sie anzuweisen, die schlechten Datenpakete zu löschen. Gegen Mittag des 28. Dezember konnten die Netzwerkadmins immerhin wieder das gesamte Netzwerk "sehen", aber erst kurz vor Mitternacht war es soweit, dass alle Knotenpunkte wieder ordnungsgemäss funktionierten.
 
Die von der FCC vorgeschlagenen Massnahmen, um ein solches Missgeschick in Zukunft zu verhindern, tönen eigentlich recht grundlegend: CenturyLink und andere Backbone-Provider, so die Kommission, sollten nicht benütze Features in ihrem Equipment nicht einfach ignorieren, sondern deaktivieren. Ausserdem müssten Admins frühzeitig alarmiert werden, wenn Memory- oder Prozessortkapazitäten an den Anschlag geraten. Und es müssten Notfall-Prozesse vorgesehen werden für den Fall, dass Netzwerkgeräte nicht mehr über normale Wege angesprochen werden können.
 
Allerdings können wir nicht beurteilen, wie schwierig es für Carrier und Provider im Einzelfall wäre, diese Empfehlungen umzusetzen. (Hans Jörg Maron)