Github will nach Total-Ausfall umdenken

Am 21. Oktober fiel Github für 24 Stunden aus. Softwareteams rund um den Globus wurden am Sonntag und Montag durch den Ausfall blockiert, weil Entwickler die wichtige Code-Repository-Plattform nicht nutzen konnten.
 
Für ein Aufatmen sorgte ein Statusupdate von Jason Warner, Senior Vice President Technology bei GitHub, dass keine Daten verloren gegangen seien. Allerdings gab es viel Konfusion bei den Entwicklern, das zeigen diverse Kommentare. Und für Fragen sorgte, dass die Gründe für den Ausfall nicht sehr klar waren.
 
Nun schütten sich die Github-Verantwortlichen viel Asche übers Haupt ("Mit diesem Vorfall haben wir versagt und es tut uns sehr leid"), aber präsentieren auch ihre Analysen in einem recht detaillierten und illustrierten Blog-Post.
 
Bei routinemässigen Wartungsarbeiten zum Ersetzen von schadhaftem Equipment fiel die Konnektivität zwischen dem US-Ostküsten-Netzwerkhub und dem primären US-Ostküsten-Rechenzentrum aus. Die Konnektivität zwischen diesen Standorten wurde zwar innert 43 Sekunden wiederhergestellt, "aber dieser kurze Ausfall löste eine Kette von Ereignissen aus, die zu einer Verschlechterung der Dienste während 24 Stunden und 11 Minuten führte", so der Post.
 
Neben technischen Massnahmen, die man im Blog-Post nachlesen kann, anerkennt Github auch kommunikative Mängel und gelobt Besserung: "In unserem Bestreben, euch während des Vorfalls aussagekräftige Informationen zukommen zu lassen, haben wir einige öffentliche Einschätzungen zur Reparatur-Zeit vorgenommen, und zwar basierend auf der Verarbeitungsrate des Daten-Backlogs. Rückblickend berücksichtigten unsere Schätzungen nicht alle Variablen. Wir entschuldigen uns für die Verwirrung und werden uns bemühen, in Zukunft genauere Informationen zu liefern."
 
Und überhaupt, so schliesst der Blog-Post, müsse und werde man bezüglich Verlässlichkeit, Verfügbarkeit und "Chaos Engineering" umdenken. "Wir werden auch systematisch beginnen, Fehlerszenarien zu überprüfen, bevor diese Euch beeinträchtigen können".
 
Das wird der neue Github-Besitzer, Microsoft, gerne hören und sicher unterstützen. Allerdings war auch Azure nicht vor Ausfällen gefeit. (mag)