Herr K. und die hoppelnden Speicherfresser

Warum mietet man sich überhaupt einen Server mit gespiegelten Platten? Doch nicht etwas wegen der trügerischen Sicherheit zweier im Synchronschritt hoppelnder Speicherfresser? Nein, ich glaube vielmehr, man tut es, um sich selber Schmerzen zuzufügen. RAID 1 ist etwas für Masochisten.

Ein Mann, der Herrn K. lange nicht gesehen hatte,
begrüßte ihn mit den Worten:
„Sie haben sich gar nicht verändert.“
„Oh!“ sagte Herr K. und erbleichte.

Herr K. hatte sich einen Server gemietet. Natürlich mit Raid 1. Der Server lief, Tag ein, Tag aus. Dann, eines Tages – Bumm, eine Platte defekt, Server platt. Herr K. informiert den Support. Plattenwechsel, Rebuild, Error. Herr K. hüpft an die Decke. Support sagt zu Herrn K.: “Versuch selber mal”. Herr K. versucht und flucht. Remove, Rescan, Rebuild. Nix tut. Herr K. sagt Support: “Versuch du”. Support sagt: “Lies Handbuch, Seite 56”. Herr K. flucht. Remove, Rescan. Zweite Platte futsch. Herr K. durchschlägt die Decke.

Es soll nicht oft vorkommen, dass beide Platten eines RAID 1 Systems so kurz hintereinander ausfallen. Ich kenne jetzt aber jemanden, der davon persönlich betroffen war. Und deshalb ganz betroffen ist. Murphy läßt grüßen.

Ubrigens, der Begriff RAID bedeutet redundant array of independent disks, was im Deutschen so viel bedeutet wie Redundante Anordnung unabhängiger Festplatten, d.h., die Festplatten gehen unabhängig voneinander kaputt.

9 Gedanken zu „Herr K. und die hoppelnden Speicherfresser“

  1. Das passiert m.E. nach gar nicht so selten, denn viele Serveradmins sind so blöde entweder komplette Server von schlechten Herstellern zu kaufen, die dann logischer Weise Festplatten aus einer Charge enthalten (2 Stck. bestellt und eingebaut ohne auf das Datum, die SNR zu achten) oder sind selbst zu faul gezielt Festplatten verschiedener Chargen zu bestellen. Wenn es sich um baugleiche Festplatten handelt, die am gleichen Tag produziert wurden und die über Jahre im gleichen System unter etwa gleicher Belastung liefen, liegt es dann natürlich nahe, dass sie zeitgleich den Geist aufgeben. Gute Hoster würden eigentlich darauf achten, wobei RAID1 (einfache Spiegelung) natürlich auch nicht die beste Variante ist, wenn es um Datensicherheit geht.

    Antworten
  2. Es ist zwar sehr unwarscheinlich das beide Platten kurze zeit hintereinander kaputt gehen aber trotzdem irgendwie logisch … denn wenn beide Platten zur selben Zeit eingebaut und in betrieb genommen worden und es dann dazu noch die selbe Serie+Hersteller sind dann kann das durchaus passieren ;-)

    Antworten
  3. Hallo Gerald,

    das Problem ist hier sehr oft damit begründet, dass die 2 Platten im Server von Herrn K. aus der selben Kiste kommen und vermutlich noch nahe beieinanderliegende Seriennummern haben. Wenn Herr K. jetzt 2 neue Platten bekommt sollte er vllt. darauf achten.

    Antworten
  4. Die Festplatten gehen zwar unabhängig voneinander kaputt, allerdings sollte man bei der Bestückung des RAIDs darauf achten, dann man nicht zwei baugleiche Platten nimmt. Denn die haben meistens eine recht ähnliche Lebenserwartung. Also lieber eine von Hersteller x und eine von y.

    Antworten
  5. Wie Peter Soltau und andere schon geschrieben haben: gleiche Baureihe -> gleichzeitig kaputt (bei uns in einem RAID 50 mit 8 Platten, 3 der Platten innerhalb eines Monats defekt (nach 2 Jahren Betriebszeit)).
    Auch auf Backups wurde ja schon hingewiesen.

    Aber das Grundlegende Problem ist immer noch das Vertrauen in die typische n+1 Redundanz. Wenn man sauber arbeiten will, muss man eigentlich n+m Redundanz haben, d.h. 2 unabhängige UND unterschiedliche Systeme einsetzen.
    Man stelle sich vor, alle Router vom Hersteller X haben einen Softwarefehler der einen Speicherüberlauf an einem bestimmten Datum verursacht. Dann fallen die alle exakt Gleichzeitig aus, und es ist egal, ob ich 5 oder 10 von denen habe. Sie sind alle tot.
    Also brauche ich für jede kritische Verbindung 2 Router, einen vom Hersteller X und einen vom Hersteller Y. Die Kosten lassen sich einfach gegen Gewinnausfälle rechnen…

    Ansonsten kann ich nur zu nächtlichen Snapshots per RSYNC in ein anderes Rechenzentrum raten. Original auf Raid1, Backup auf Raid5 (z.B.)

    Antworten

Schreibe einen Kommentar