Wie Facebook seine Fotos "kalt" sichert

12. Mai 2015, 08:58
  • rechenzentrum
image

Billige Harddisks, die nur selten eingeschaltet werden, keine USVs, keine redundanten Stromversorgungen.

Billige Harddisks, die nur selten eingeschaltet werden, keine USVs, keine redundanten Stromversorgungen.
Facebook investiert jedes Jahr Milliarden Dollar in den Betrieb seiner riesigen Rechenzentren. Da kann schon eine kleine Effizienzsteigerung Millionen von Dollar einsparen. Der Internetriese leistet sich deshalb den Luxus, ganze Teams von Ingenieuren daran arbeiten zu lassen, teilweise alte Probleme von Grund auf neu anzuschauen und neue Lösungen zu suchen.
Eine der Errungenschaften dieser Teams ist das Konzept der "Cold Storage"-Speichersysteme und -Rechenzentren. Gegenwärtig werden täglich rund zwei Milliarden Fotos und Videos auf das soziale Netzwerk hochgeladen. Bei Facebook werden diese für den normalen Online-Zugriff auf "heissen" Servern gespeichert - je mehr auf ein bestimmtes Foto zugegriffen wird, desto mehr Kopien sind vorhanden, um den Zugriff zu beschleunigen. Das heisst gleichzeitig, dass ältere Fotos, die nicht mehr angeschaut werden, nicht mehr so sicher sind, da nur wenige Kopien gespeichert werden.
Die "Cold Storage"-Rechenzentren sind dazu da, für den Notfall Sicherungskopien sämtlicher von Usern im Laufe der Jahre auf Facebook hochgeladenen Fotos und Videos aufzubewahren. Letztes Jahr hat Facebook in den USA zwei Archivierungs-Rechenzentren, die auf der Cold-Storage-Architektur basieren, eröffnet. In einem Blogbeitrag haben zwei Facebook-Ingenieure, Krish Bandaru und Kestutis Patiejunas, letzte Woche das Prinzip dieser Speichersysteme und RZs erklärt.
Statt eine existierende Lösung wählen zu müssen, zum Beispiel riesige Tape-Bibliotheken, so Bandaru und Patiejunas, habe man bei Facebook das Glück, ganz neue Wege gehen zu können. Ausserdem konnte man sowohl die Speichersysteme als auch die Rechenzentren für ihren ganz spezifischen Zweck massschneidern.
Was die Facebook-Leute ausgetüftelt haben, sind Disk-Speichersysteme und spezifisch darauf abgestimmte Umsysteme. Eine der Besonderheiten ist, dass die Harddisks die meiste Zeit komplett abgeschaltet sind, so dass die Systeme viel weniger Strom verbrauchen als traditionelle Disk-Speicherarrays. Dies wiederum erlaubt diverse weitere Einsparungen. So wurden die Stromversorgungen, obwohl die Racks so dicht mit Harddisks vollgepackt sind wie möglich, auf weniger als ein Sechstel der Leistung ausgelegt, die Facebook bei einem normalen Rechenzentrum einplant. Damit die Stromversorgung und die Sicherungen nicht überlastet werden kann, wenn auf einmal zu viele Harddisks anspringen würden, hat Facebook die Firmware in den Drive-Controllern so abgeändert, dass pro Harddiskschublade nicht mehr als eine Festplatte gleichzeitig hochgefahren werden kann. Der niedrige Stromverbrauch erlaubte auch weitere kleine Einsparungen bei den Storage-Systemen. So wurde die Zahl der Ventilatoren pro Storage-Server und die Zahl der Stromversorgungen pro Rack reduziert, was wiederum mehr Platz für Harddisks schafft.
Insgesamt, so Bandaru und Patiejunas, können die einzelnen Racks so mit bis zu 480 4TB-Harddisks ausgerüstet werden, was eine Kapazität von zwei Petabyte ergibt. Die gesamten Rechenzentren haben eine Kapazität von rund Tausend Petabyte.
Keine USVs, keine Generatoren, billige Harddisks
Weil die Cold-Storage-Rechenzentren keine "Live"-Daten liefern müssen und darum keine absolute Dauererreichbarkeit notwendig ist, hat Facebook auch bei den Umsystemen auf einige Dinge verzichtet, die für andere RZs unerlässlich sind. Darunter befinden sich jegliche redundanten Stromversorgungen, einschliesslich USVs und Generatoren.
Ausserdem werden in den Speichersystemen keine Enterprise-Harddisks eingesetzt - Facebook kauft für diese Systeme die jeweils günstigsten Festplatten, die erhältlich sind. Diese für den Consumermarkt konzipierten Geräte weisen natürlich nicht die Verlässlichkeit von Enterprise-Harddisks auf. Um die Files trotz der höheren Ausfallrate vor Verlust zu schützen und trotzdem Platz zu sparen, haben die Ingenieure auch beim "Backup der Backups" einen eigenen Weg gewählt. Dieser beruht allerdings nicht auf einer neuen Technologie. Statt Daten zur Sicherung zu spiegeln, wird in den Cold-Storage-Systemen ein sogenannter Reed-Solomon-Algorithmus verwendet. Manche User kennen dies vielleicht vom alterwürdigen Usenet. Dort werden vor allem grosse Files durch sogenannte "par"-Dateien ergänzt, durch deren Hilfe sich verlorene oder korrumpierte Teile wiederherstellen lassen. Dabei werden die ursprünglichen Files zuerst zerstückelt, und danach wird eine bestimmte Menge an Sicherungsdaten errechnet. Mit deren Hilfe lässt sich später eine gleiche Menge an verlorenen oder korrumpierten Daten wiederherstellen.
In den Cold-Storage-Systemen verwendet Facebook gegenwärtig ein Verhältnis von 1,4. Das heisst, dass beispielsweise eine 1-GB-Datei in zehn je 100 MB grosse Teile zerstückelt und mit vier ebenfalls 100 MB grossen Sicherungsblocks ergänzt wird. Diese vierzehn Stücke werden dann auf 14 Harddisks verteilt. Nach dieser Sicherung können bis zu 4 Harddisks gleichzeitig den Geist aufgeben, ohne dass die Daten verloren sind. Dabei ist es egal, welche Harddisks ausfallen, aus 10 noch vorhandenen Datei-Stücken lässt sich immer der komplette Satz wiederherstellen.
Wieviele Sicherungsblocks notwendig sind, um eine sozusagen absolute Sicherheit zu gewähren, wird übrigens immer wieder neu berechnet und angepasst. Das, so Bandaru und Patiejunas, lässt Facebook die Freiheit, in Zukunft andere Harddisk-Modelle mit möglicherweise anderen Ausfallraten anzuschaffen.
Datenfäule
Ein weiteres Problem bei der längerfristigen Aufbewahrung von Daten auf Harddisks ist der sogenannte "Bit-Rot", beziehungsweise die "Bit-Fäule". Damit ist das Phänomen gemeint, dass Daten auch korrumpiert werden können, wenn gar nie darauf zugegriffen wird oder die Disks gar nicht laufen. Um dagegen anzugehen, wurde auf den Cold-Storage-Systemen eine Art "Anti-Entropie-Mechanismus" eingerichtet. Dafür werden die Harddisks in einem regelmässigen Turnus eingeschaltet, um die Daten mittels Checksummen auf ihre Integrität zu prüfen. Wenn ein fehlerhaftes Datenstück gefunden wird, wird es automatisch wiederhergestellt und auf einer anderen Festplatte gespeichert. Der Grund für den Fehler muss so nicht sofort festgestellt werden und die Administratoren können sich später darum kümmern. Der Zeitplan dieser Prüfung beruht ebenfalls auf der regelmässig neu errechneten Ausfallrate der billigen Festplatten. Gegenwärtig liegt er laut dem Blogeintrag bei 30 Tagen. (Hans Jörg Maron)
(Alle Fotos: Facebook)

Loading

Mehr zum Thema

image

RZ-Ausfälle kosten schnell mal mehr als 1 Million Dollar

Eine internationale Studie zeigt, dass die Betreiber auch im nachhaltigen Umgang mit Strom und Wasser noch Verbesserungs­potenzial aufweisen.

publiziert am 22.9.2022
image

2023 zieht Helvetia den eigenen RZs den Stecker

Helvetia will komplett in die Cloud. Wir haben mit CTO Achim Baumstark, Cloud-Leiter Raphael Graber und Michael Hanisch von AWS über die Migration gesprochen.

publiziert am 15.9.2022
image

Swissbit entwickelt jetzt auch SSDs für Rechenzentren

Der Schweizer Speicherhersteller spannt mit dem US-Unternehmen Burlywood zusammen und will in den RZ-Bereich vorstossen.

publiziert am 15.9.2022
image

Equinix hat wieder ausgebaut

Das ZH4 von Equinix hat weitere 850 Quadratmeter Fläche erhalten.

publiziert am 15.9.2022