Amazon entschädigt Cloud-Kunden

15. August 2011, 13:34
  • cloud
  • amazon
  • aws
image

Ausführlicher Bericht über Ursachen des Ausfalls von Amazon-Cloud-Dienstleistungen und über die Probleme beim Wiederherstellen der Daten.

Ausführlicher Bericht über Ursachen des Ausfalls von Amazon-Cloud-Dienstleistungen und über die Probleme beim Wiederherstellen der Daten.
Warum sind Amazons Cloud-Dienstleistungen vorletzten Sonntag für viele europäische Kunden ausgefallen?.
Abschied von der Blitz-Theorie
Anders als Amazon ursprünglich geglaubt hat, hat nicht ein Blitzschlag zum Ausfall der Stromversorgung des Amazon Rechenzentrums in Dublin geführt, sondern der Ausfalls eines 110kV-Transformators in einem Unterwerk. Betroffen waren nicht nur Amazon und Microsoft, sondern auch ein RZ von BT, wie die irische Online-Zeitung siliconrepublic schreibt.
Der Ausfall eines Transformators beim Stromversorger sollte aber noch nicht zum Ausfall eines ganzen Rechenzentrums führen, denn moderne Rechenzentren werden einerseits von mehreren Unterwerken versorgt, und haben andererseits unterbrechungsfreie Stromversorgungen, die einspringen, bis Dieselgeneratoren für Strom sorgen. Probleme mit der Steuerung der Generatoren führten dazu, dass nicht alle Generatoren Strom lieferten und das Rechenzentrum - bei Amazon "Availability Zone" genannt - nicht genügend Strom erhielt.
Das führte dazu, dass Kunden aus Westeuropa, die von Amazon Rechenkapazität (EC2, Elastic Compute Cloud), Speicher (EBS, Elastic Block Store) oder Datenbank-Kapazität (RDS, Relational Database Service) beziehen, nicht mehr bedient wurden.
Kettenreaktion
Auch der Ausfall einer einzigen "Availability Zone" sollte von Amazon eigentlich überbrückt werden können, doch tauchten Probleme mit den Servern und der Software aus, die EC2 managen.
Nach etwa einer Stunde, brachte Amazon dann "einige" der Generatoren dazu, Strom zu liefern, doch hatte die Mehrheit der Netzwerkkomponenten noch immer keinen Strom. Die virtuellen Server und Speicher-Volumens hatten nun zwar Strom, aber noch keine Internet-Verbindung. Erst nach etwa drei Stunden waren die meisten der Cloud-Dienste der Kunden in dieser Availability Zone wieder verfügbar.
Da allerdings setzte sich die Kette der Probleme fort. Da sehr viele Server ausgefallen waren, hatten die noch laufenden Server zusätzliche Speicherkapazitäten gesucht, um Daten darauf zu spiegeln. Dadurch waren alle Speicherreserven im RZ voll, als die virtuellen Server und Speicher-Volumen der Kunden wieder in Betrieb gingen. Diese konnten ihre Daten dann nicht mehr spiegeln und weigerten sich deshalb, weiterhin Daten zu schreiben. Amazon musste zusätzliche Leute und weitere Server ins Rechenzentrum transportieren, um mehr Speicherkapazitäten auzubauen.
Es entstand ein weiteres Problem dadurch, dass die Amazon-Cloud nicht mehr "wusste", ob alle Daten der EC2-Instanzen richtig gespeichert worden sind, weil auch die Replikationen ausgefallen waren. Deshalb markierte das System die Volumes als "inkonsistent". In solchen Fällen macht Amazon jeweils Snapshots der virtuellen Volumes, damit der Kunde checken kann, ob die Daten alle und richtig da sind. Diese Snapshots zu machen, hat aber sehr viel Zeit verbraucht.
Und dann auch noch ein Software-Fehler
Auch beim Cloud-Datenbank-Service RDS traten logischerweise Probleme auf, da die virtuellen Datenbanken EBS-Volumen benützen. Aber auch Datenbanken, die auf mehreren "Availability Zones" gelagert sind, sind ausgefallen, wie (und warum) Amazon ausführlich erläutert.
Zudem war vor dem Ausfall des RZs auch noch ein Software-Fehler aufgetaucht, der dazu geführt hatte, dass gewisse Snapshots von Kundendaten gelöscht wurden, die noch gar nicht zur Löschung freigegeben worden waren. Noch während man bei Amazon daran arbeitete, die Auswirkungen des Fehlers zu beheben und die Kunden zu informieren, trat der Stromausfall ein und Amazon musste diese Arbeit unterbrechen. Der Software-Fehler war umso ärgerlicher, als dass die gelöschten Snapshots genau wegen des Stromunterbruchs nötig geworden wären.
Amazon entschädigt Kunden
Der Cloud-Anbieter listet in dem längeren Bericht eine Reihe von Massnahmen auf, die die Verfügbarkeit der virtuellen Server, Speicher-Volumes und Datenbanken sicherstellen sollen. Zudem verspricht Amazon eine wesentlich bessere Kommunikation bei Problemfällen.
Kunden, die Speicher oder eine Datenbank im betroffenen Rechenzentrum von Amazon betreiben, erhalten - unabhängig davon ob sie von den Ausfällen betroffen waren oder nicht - ein Gutschrift für die Benützung der Dienste für 10 Tage im gleichen Volumen, das sie bisher hatten.
Kunden, die wegen des oben kurz erwähnten Software-Bugs Daten verloren hatten, erhalten eine Gutschrift für 30 Tage. Die Gutschriften sollten automatisch in der nächsten Rechnung der Amazon Web Services enthalten sein. (Christoph Hugenschmidt)

Loading

Mehr zum Thema

image

10?! Sabrina Storck, COO SAP Schweiz

Die Chief Operating Officer von SAP Schweiz erklärt, wie sich ihre Rolle als "Innenministerin" des Unternehmens wandelt und was es mit der Halbwertszeit von Ferienfotos auf sich hat.

publiziert am 2.2.2023
image

Cloud-Provider doppeln bei Microsoft-Kritik nach

Der US-Konzern beschränke mit seinen Lizenzbestimmungen den Wettbewerb, kritisiert die Vereinigung CISPE. Eine von ihr in Auftrag gegebene Studie soll dies jetzt belegen.

publiziert am 1.2.2023
image

AWS und Elca bündeln ihre Kräfte

Der Schweizer IT-Dienstleister glaubt an eine steigende Cloud-Akzeptanz und baut sein AWS-Know-how und Angebot aus.

publiziert am 1.2.2023 1
image

SASE: weit verbreitet, aber oft unterschätzt

SASE (Secure Access Service Edge) hat sich während der Pandemie in vielen Firmen bewährt. Sie konnten damit schnell die durch Homeoffice veränderte Netzwerknutzung abfangen. Viele Unternehmen übersehen aber, dass sie damit nur einen Bruchteil der Möglichkeiten nutzen, die SASE bietet.