Die häufigste Komponente die bei Servern zur Zeit ausfällt sind Festplatten. Und meistens sind das auch die Komponenten die am ärgerlichsten sind. Netzteile lassen sich einfach austauschen. Modul raus, neues Modul rein, fertig. Man braucht nichts neu installieren, alles läuft wieder. Motherboards sind schon schlimmer. Eventuell bootet das System nicht richtig, weil Treiber fehlen und bei einigen Computerspiel-Betriebssystemen benötigt es sogar eine „Reaktivierung“, weil sich die Hardware geändert hat. Defekte Festplatten aber sind ärgerlich (sofern kein RAID die Daten rettet).
Das System muss neu installiert werden; wenn Backups nicht regelmäßig laufen, sind auch noch Daten verloren (irgendwas ist immer futsch, weil die Backups ja nicht minütlich stattfinden) und der Arbeitsaufwand ist immens höher als nur ein Netzteil zu tauschen. Neulich erst ist einem Kunden die (nicht gespiegelt) Platte des Mailservers abgeraucht. Da ist schnell ein dreiviertel Tag um, bis ein neuer Mailserver installiert und konfiguriert ist. Selbst wenn der Datenverlust keine Rolle spielt.
Zum Glück gibt es inzwischen halbwegs brauchbare statistische Daten, um die Fehlerwahrscheinlichkeit der Platten abzuschätzen. Google hat beispielsweise einen Bericht zu Festplattenfehlern in ihren Serverfarmen veröffentlicht (Failure Trends in a Large Disk Drive Population, PDF). Die Carnegie Mellon University wiederum hat sich mit dem Begriff MTTF auseinandergesetzt (Disk failures in the real word: What does an MTTF of 1,000,000 hours mean to you, PDF). Beide Arbeiten sind auf der 5. USENIX Konferenz für File und Storage Technologien (2007) veröffentlich worden.
Die Kernaussagen sind:
- Festplatten gehen viel schneller kaputt gehen, als anhand der Datenblätter zu erwarten wäre
- es gibt keinen relevanten Unterschied zwischen SCSI und SATA
- es gibt sehr wohl relevante Unterschiede zwischen den einzelnen Herstellern (aber die besseren Hersteller werden leider nicht genannt)
- wenn eine Platte mal die ersten Macken zeigt, ist sie ruck zuck ganz kaputt
- die meisten Platten gehen entweder im ersten Jahr (early failure period) oder nach fünf Jahren (wearout period) kaputt
Und mein Fazit: bei gespiegelten Platten ist der Datenverlust (meistens, Controllerfehler mal außen vor) zu vermeiden und Backups sollte man auch ab und zu machen.