Google erklärt den mehrstündigen Cloud-Ausfall

Vor einigen Tagen erlebten Google und Kunden einen mehr als vierstündigen Ausfall von einigen Internet-Diensten. Betroffen waren Google Mail, YouTube sowie Sync for Mobile, und Realtime API, aber auch G Suite und Google Cloud.
 
Zu den Opfern gehörten in der Konsequenz der Ausfälle auch die Apps von Uber und Snapchat.
 
Der Grund sei "Netzwerküberlastung", hatte Google angegeben. "In den östlichen USA herrscht weiterhin ein hohes Mass an Netzwerküberlastung, was sich auf mehrere Dienste in Google Cloud, G Suite und YouTube auswirkt", so eine Zwischenbilanz der Zuständigen. "Benutzer erhalten möglicherweise langsame Leistung oder zeitweise Fehler."
 
Im Core-Netzwerk von Google ist anscheinend einiges schief gelaufen, analysierten einige Fachmedien wie 'The Register' umgehend.
 
In einem Blogpost erklärt sich Benjamin Treynor Sloss, Vice President bei Google Cloud im Bereich "24x7". Neben der Entschuldigung und dem üblichen Bekenntnis zu Qualität nennt er auch einige Hintergründe des Ausfalls: "Die Hauptursache für die Unterbrechung am Sonntag war im Wesentlichen eine Konfigurationsänderung, die für eine kleine Anzahl von Servern in einer einzelnen Region bestimmt war. Die Konfiguration wurde fälschlicherweise auf eine grössere Anzahl von Servern in mehreren benachbarten Regionen angewendet und führte dazu, dass diese Regionen mehr als die Hälfte ihrer verfügbaren Netzwerkkapazität nicht mehr verwendeten. Der Netzwerkverkehr zu und von diesen Regionen hat dann versucht, in die verbleibende Netzwerkkapazität zu passen, dies war jedoch nicht der Fall. Das Netzwerk wurde überlastet, und unsere Netzwerksysteme haben die Verkehrsüberlastung korrekt überprüft und grösseren, weniger latenzempfindlichen Verkehr abgestellt, um kleinere latenzempfindliche Datenströme aufrecht zu erhalten." Er vergleicht dies damit, dass man dringende Pakete auch mit dem Velo durch verstopfte Strassen befördern könne.
 
In andern Worten: Die Google-Ingenieure konnten die falschen Konfigurationen aufgrund der Netzwerküberlastung nicht innert weniger Minuten beheben und mussten zu einschneidenden Mitteln greifen.
 
Sloss nennt auch Zahlen: Interessant aus Business-Sicht ist, dass laut ihm Google Cloud Storage einen Rückgang des Zugriffs um 30 Prozent verzeichnete. Rund ein Prozent der aktiven Google Mail-Nutzer hatten Probleme mit ihrem Konto und bei YouTube gab es während einer Stunde einen Rückgang der Zugriffe um 2,5 Prozent. Total waren ca. vier Stunden lang Probleme zu verzeichnen, laut 'The Register' gab es aber auch gestern Abend San-Francisco-Zeit erneut Ausfälle.
 
Google kündigt einen "fokussierten Engineering-Sprint" an, um solche Probleme künftig zu verhindern.
 
Bei einer Google Cloud-Veranstaltung im April hob Urs Hölzle, Google SVP für technische Infrastruktur, die Zuverlässigkeit des Dienstes hervor. Er wies darauf hin, dass Google Cloud im Jahr 2018 nur 208 Minuten ausfiel, verglichen mit 312 Minuten bei Amazon Web Services (AWS) und 2'033 Minuten bei Microsoft Azure, erinnert sich 'Business Insider'. Nun waren es mehr als 240 Minuten an einem Tag. Das ist ein 240 minütiger Werbespot für alle Anbieter von Cloud-Ausfall-Services und SLA-Analysten. (mag)