5 Februar 2014
Zwischenfälle im Rechenzentrum, die Reaktion der Lastbank
In unserem Austausch taucht regelmäßig eine Frage zu den Risiken einer fehlenden Prüfung bei der Abnahme eines Rechenzentrums auf. Was bringt ein Rezept konkret über Lastbänke?
Ein erstes Antwortelement liegt in einer Zahl: 90 Minuten
Dies ist die durchschnittliche jährliche Stromausfallzeit des Hauptnetzes (20.000 V Ankunft) eines Rechenzentrums. Das sind mindestens 90 Minuten Betrieb an USV und Generatoren. Durch die Lastbank kann genau sichergestellt werden, dass diese Geräte während dieser Zeit funktionieren. Darüber hinaus hatten mehrere Vorfälle und Unfälle unglückliche Folgen für die Benutzer. Tests mit Lastbänken sind eines der Mittel, um sich vor diesen Mängeln zu schützen:
- Großer Vorfall im DC2-Rechenzentrum von Iliad/Online in Vitry sur Seine : Am 4. Juli 2013 konnten die Generatoren nach einem Stromausfall bei ErdF (20.000 V) die elektrische Last der Server des Iliad-Rechenzentrums nicht wieder aufnehmen ( Tochtergesellschaft von Free). Um 12:37 Uhr informierte Online seine Benutzer, dass 3 der elektrischen Gruppen des DC2-Rechenzentrums in Vitry nach einem mechanischen Zwischenfall nicht starten konnten. Diese Unterbrechung ist mit dem Ausfall von 3 der 6 Generatoren im Rechenzentrum über einen Zeitraum von weniger als einer Stunde verbunden. Dieser Vorfall führte zu einem Stromausfall in einer der Filialen des Rechenzentrums und dazu, dass Kunden nicht mehr auf ihre Daten zugreifen konnten. Das Rechenzentrum Iliad DC2 in Vitry-sur-Seine erstreckt sich über 4500 m2 Computerräume. Mit mehr als 500 Kunden, die auf 1.600 Einschüben in Produktion gehostet werden, ist es heute eines der Referenz-Rechenzentren für viele Internetprofis. Viele Dienste und Websites waren heute Nachmittag minutenlang nicht erreichbar. Dies galt unter anderem insbesondere für LaPoste.net, Pecheur.com, DoYouBuzz, Deezer, SensCritique, CleverCloud, aber auch das JDN. (Vorfallbericht: http://forum.online.net/index.php?/topic/3332-incident-coupure-salle-103-rapport-dincident/ )
- 29. und 30. Oktober 2012: Sturm Sandy verursacht einen Stromausfall in mehreren Rechenzentren in New Jersey in den Vereinigten Staaten. Nach den Überschwemmungen wurden die Bemühungen, das Rechenzentrum zwei Tage lang mit Generatoren zu betreiben, vom CEO von Datagram als „sehr schwierig“ empfunden Alex Reppen. Tests mit einer Lastbank waren kurz zuvor durchgeführt worden und ermöglichten es, eine Unterbrechung der Stromversorgung des Rechenzentrums zu vermeiden. (Quelle: http://www.datacenterknowledge.com/archives/2012/12/17/the-year-in-downtime-top-10-outages-of-2012/ )
Es gibt viele andere Beispiele für Vorfälle, bei denen Lastbänke ihre Nützlichkeit bei der vorbeugenden Wartung gezeigt haben.