Was bei Fastly schief lief

9. Juni 2021, 14:00
  • international
  • telco
  • störung
  • netzwerk
  • fastly
image

Der Content-Delivery-Netzwerk-Betreiber Fastly erklärt (teilweise), wieso sein Netzwerk gestern crashte, was zum Ausfall vieler bekannter Websites führte.

Gestern, am 8. Juni 2021, fielen viele bekannte Websites und Online-Services für rund eine Stunde aus. Dass davon "das halbe Internet" betroffen war, wie es vielerorts hiess, ist zwar deutlich übertrieben. Aber es waren viel besuchte Sites darunter, wie amazon.com, Hulu und Twitch, die Seiten von 'CNN', 'New York Times' 'Financial Times' und 'The Guardian' und Websites der britischen Regierung.
Kurz nach dem Auftreten der Störung wurde bekannt, dass Fastly, ein US-Betreiber eines Content Delivery Networks (CDN), daran Schuld war. Aber auch die Theorie, dass der Vorfall zeige, dass eine Störung bei einem kleinen Internet-Player sich auf grosse Teile des Internets ausbreiten kann, die eigentlich nicht von ihm abhängen, war falsch. Nicht, dass dies nicht passieren kann. Die von Century-Link verursachte Internet-Störung im letzten August hat dies gezeigt.  Der Fastly-Ausfall ist aber kein Beispiel dafür, denn betroffen waren nur Fastly-Kunden. Auch wenn der Name Fastly bei uns wenig bekannt ist, hat das Unternehmen trotzdem viele bekannte Kunden.
Ein CDN-Betreiber unterhält global Rechenzentren, in denen Webinhalte seiner Kunden zwischengespeichert werden, so dass sie schnell geladen werden können, wenn ein User sie aufruft. Der CDN-Betreiber sitzt also sozusagen zwischen dem Betreiber einer Site und den Surfern. Wenn Server eines CDN-Betreibers wie Fastly in einer bestimmten Region ausfallen, können die Leute in dieser Region deshalb die Sites seiner Kunden nicht mehr aufrufen, falls keine schnellen Umleitungen eingerichtet wurden.

Ein schlafender Bug, ein unschuldiger Kunde

Heute hat Fastly in einem Blogbeitrag erklärt, wie es zum Ausfall seines Netzwerks gekommen ist. Am 12. Mai wurde demnach durch ein Software-Update ein Bug in das Fastly-Netz eingeschleust. Der Bug hatte aber keine Auswirkungen, bis gestern ein Fastly-Kunde eine Konfigurationsänderung vornahm. Den Kunden trifft dabei keine Schuld, die Änderung war an sich korrekt. Aber die Änderung enthielt die Einstellungen, welche den Bug aus seinem "Schlafzustand" aufweckten. Kurz darauf häuften sich Fehlermeldungen in 85% des Fastly-Netzwerks.
Fastly reagierte nach eigener Aussage sehr schnell. Nach einer Minute stellte man die Störung fest, nach zehn Minuten wurden Kunden via einen Statusreport informiert. Nach 30 Minuten wurde die Konfigurationsänderung des Kunden als Auslöser identifiziert. Einige Minuten darauf konnte man mit der Wiederherstellung der Services beginnen und nach knapp zwei Stunden war die Störung vollständig behoben. Fünf Stunden später wurde dann der ursprüngliche Bug eliminiert.
Trotzdem räumte der für die Fastly-Infrastruktur verantwortliche Senior Vice President Nick Rockwell ein, dass der Fehler gar nicht erst hätte auftreten dürfen: "Auch wenn ganz besondere Umstände zum Ausfall geführt haben, hätten wir ihn vorhersehen müssen."
Darum will Fastly nun seine Prozesse und Praktiken neu analysieren. Insbesondere soll herausgefunden werden, warum der Bug nicht schon im Rahmen der Software-Tests vor dem Update gefunden wurde.

Loading

Mehr zum Thema

image

Deutsche Telekom wird T-Systems nicht los

Die Verhandlungen zum Verkauf der IT-Dienstleistungssparte sind laut einem Medienbericht gescheitert.

publiziert am 22.9.2022
image

RZ-Ausfälle kosten schnell mal mehr als 1 Million Dollar

Eine internationale Studie zeigt, dass die Betreiber auch im nachhaltigen Umgang mit Strom und Wasser noch Verbesserungs­potenzial aufweisen.

publiziert am 22.9.2022
image

Nach Angriff warnt Revolut vor Phishing-Kampagne

Bei einem Cyberangriff auf das Fintech-Unternehmen sollen sich Hacker Zugang zu zehntausenden Kundendaten verschafft haben. Revolut bestätigt den Abfluss von Daten.

publiziert am 22.9.2022
image

Abermals steht der Verkauf von DXC im Raum

Das Verkaufsgerücht ist aufgekommen, nachdem der IT-Dienstleister eine Investorenpräsentation Anfang des Monats abrupt abgebrochen hatte.

publiziert am 22.9.2022