Was bei Fastly schief lief

9. Juni 2021 um 14:00
  • international
  • telco
  • störung
  • netzwerk
  • fastly
image

Der Content-Delivery-Netzwerk-Betreiber Fastly erklärt (teilweise), wieso sein Netzwerk gestern crashte, was zum Ausfall vieler bekannter Websites führte.

Gestern, am 8. Juni 2021, fielen viele bekannte Websites und Online-Services für rund eine Stunde aus. Dass davon "das halbe Internet" betroffen war, wie es vielerorts hiess, ist zwar deutlich übertrieben. Aber es waren viel besuchte Sites darunter, wie amazon.com, Hulu und Twitch, die Seiten von 'CNN', 'New York Times' 'Financial Times' und 'The Guardian' und Websites der britischen Regierung.
Kurz nach dem Auftreten der Störung wurde bekannt, dass Fastly, ein US-Betreiber eines Content Delivery Networks (CDN), daran Schuld war. Aber auch die Theorie, dass der Vorfall zeige, dass eine Störung bei einem kleinen Internet-Player sich auf grosse Teile des Internets ausbreiten kann, die eigentlich nicht von ihm abhängen, war falsch. Nicht, dass dies nicht passieren kann. Die von Century-Link verursachte Internet-Störung im letzten August hat dies gezeigt.  Der Fastly-Ausfall ist aber kein Beispiel dafür, denn betroffen waren nur Fastly-Kunden. Auch wenn der Name Fastly bei uns wenig bekannt ist, hat das Unternehmen trotzdem viele bekannte Kunden.
Ein CDN-Betreiber unterhält global Rechenzentren, in denen Webinhalte seiner Kunden zwischengespeichert werden, so dass sie schnell geladen werden können, wenn ein User sie aufruft. Der CDN-Betreiber sitzt also sozusagen zwischen dem Betreiber einer Site und den Surfern. Wenn Server eines CDN-Betreibers wie Fastly in einer bestimmten Region ausfallen, können die Leute in dieser Region deshalb die Sites seiner Kunden nicht mehr aufrufen, falls keine schnellen Umleitungen eingerichtet wurden.

Ein schlafender Bug, ein unschuldiger Kunde

Heute hat Fastly in einem Blogbeitrag erklärt, wie es zum Ausfall seines Netzwerks gekommen ist. Am 12. Mai wurde demnach durch ein Software-Update ein Bug in das Fastly-Netz eingeschleust. Der Bug hatte aber keine Auswirkungen, bis gestern ein Fastly-Kunde eine Konfigurationsänderung vornahm. Den Kunden trifft dabei keine Schuld, die Änderung war an sich korrekt. Aber die Änderung enthielt die Einstellungen, welche den Bug aus seinem "Schlafzustand" aufweckten. Kurz darauf häuften sich Fehlermeldungen in 85% des Fastly-Netzwerks.
Fastly reagierte nach eigener Aussage sehr schnell. Nach einer Minute stellte man die Störung fest, nach zehn Minuten wurden Kunden via einen Statusreport informiert. Nach 30 Minuten wurde die Konfigurationsänderung des Kunden als Auslöser identifiziert. Einige Minuten darauf konnte man mit der Wiederherstellung der Services beginnen und nach knapp zwei Stunden war die Störung vollständig behoben. Fünf Stunden später wurde dann der ursprüngliche Bug eliminiert.
Trotzdem räumte der für die Fastly-Infrastruktur verantwortliche Senior Vice President Nick Rockwell ein, dass der Fehler gar nicht erst hätte auftreten dürfen: "Auch wenn ganz besondere Umstände zum Ausfall geführt haben, hätten wir ihn vorhersehen müssen."
Darum will Fastly nun seine Prozesse und Praktiken neu analysieren. Insbesondere soll herausgefunden werden, warum der Bug nicht schon im Rahmen der Software-Tests vor dem Update gefunden wurde.

Loading

Mehr zum Thema

image

"Dann müssen wir über die Privatisierung von Swisscom reden"

Swisscom will Vodafone Italien für 8 Milliarden Euro übernehmen. Dagegen regt sich Widerstand aus der Politik.

publiziert am 29.2.2024
image

Swisscom will Vodafone Italien für 8 Milliarden Euro übernehmen

Der Telco will das Unternehmen nach dem Abschluss der Transaktion mit seiner heutigen Tochter Fastweb fusionieren. Noch ist aber nichts unterschrieben.

publiziert am 28.2.2024 1
image

Swisscom verklagt Sunrise auf 90 Millionen Franken Schadenersatz

UPC hatte erklärt, für sein Mobile-Angebot zu Swisscom zu wechseln, was mit der Übernahme von Sunrise aber hinfällig wurde. Swisscom macht deshalb eine Vertragsverletzung geltend.

publiziert am 21.2.2024
image

Bundesrat will bei Strommangel gewisse Webseiten sperren

Es geht vor allem um Medien-Sites, die viel Traffic verursachen.

publiziert am 21.2.2024 1