Sie sind hier: Startseite News & Störmeldungen Nachrichten Archiv Hitzebedingte Abschaltung zentraler …

Hitzebedingte Abschaltung zentraler Groß-Systeme im RZ am 2. Juli

Sommerliche Hitzetage in Freiburg wie Anfang Juli 2010 sind für das Rechenzentrum noch immer eine Herausforderung mit manchmal auch unliebsamen Folgen für Nutzer.
Hitzebedingte Abschaltung zentraler Groß-Systeme im RZ am 2. Juli

Weekly graph

Am Freitag, 2.7. hatte die Wärmebelastung im Maschinensaal des Rechenzentrums einen überaus kritischen Status erreicht.  Die Temperatur im Maschinensaal betrug über 34C, weshalb das Innenleben zahlreicher Server bereits auf über 50C, an manchen zentralen Diensten wie den Webservern sogar auf über 54C angestiegen war. Unter solchen Bedingungen ist ein physikalischer Ausfall von Komponenten vorhersehbar. Der Krach der mit höchster Umdrehungszahl laufenden Gerätelüfter unterstrich die Notwendigkeit zum Handeln.

Herr Prof. Schneider, Leiter des Universitätsrechenzentrums, musste daher wegen der Überhitzung im Maschinensaal die Abschaltung der größten Verbraucher (bzw. Hitzeproduzenten) anordnen. Davon betroffen waren primär die Rechencluster der Physik und der Biologie.

Diese Maßnahme konnte bei den Betroffenen bestenfalls auf Verständnis stoßen, führte aber auch zu berechtigten Beschwerdemails. Immerhin mussten zahlreiche Jobs mit wissenschaftlichen Auswertungen abgebrochen werden und dies traf auch zahlreiche Doktoranden und Doktorandinnen. Aufgrund der Vernetzung der Rechensysteme mit anderen in der Welt (Stichwort Cloud) ist die Abschaltung natürlich auch weltweit sichtbar geworden.

Das Ergebnis der ständigen Temperaturmessung wird im Weekly graph (s. Grafik) dokumentiert. Im hier relevanten Zeitraum ist eindrucksvoll ersichtlich, wie die Temperatur im Maschinensaal nach der Abschaltung deutlich abfiel. Der drastische Anstieg zuvor ist eine unmittelbare Folge der direkten Sonnenbestrahlung des Maschinenraums ab der Mittagszeit. Dieser scharfe Anstieg ließ nicht vermuten, dass eine Stabilisierung unmittelbar bevorstehen würde.

Welche Alternativen gab es zur Abschaltung?

  • Abschaltung anderer als die ausgewählten Maschinen: Hiervon wären betroffen die zentralen Server der Universität (Mail, Web, CMS, Datennetz, Telefonanlage) zu deren Schutz
  • Oder: Ignorieren des Hitzeproblems und "survival of the fittest machine" mit entsprechenden unkalkulierbaren Hardwareschäden

Beides sind keine realistischen Optionen.

Auch mit unkonventionellen Mitteln wurde versucht, die Abschaltung zu vermeiden. So hat die Mannschaft von Herrn Adler von der zentralen Leittechnik und des technischen Energiemanagements unentwegt versucht, die alten Kältemaschinen zu Höchstleistungen zu bringen (teilweise mit manuellem Bewässern aus Wasserschläuchen).  Das Rechenzentrum bedankt sich auch an dieser Stelle für dieses Engagement.

Das Wärmeproblem im Maschinensaal bei sommerlichen Hitzetagen beschäftigt das Rechenzentrum schon seit Jahren. Notwendige Maßnahmen sind eingeleitet. Leider konnten die Bauarbeiten zur Stabilisierung der Strom- und Kälteversorgung nicht wie ursprünglich geplant vor dem Sommer 2010 abgeschlossen werden, so dass der Sommer ohne Beeinträchtigungen hätte ablaufen können. Bisher ist erst der Beton-Rohbau fertig gestellt, in diesen Sommer wird die neue Infrastruktur definitiv nicht mehr zum Tragen kommen (die geplanten Endtermine liegen derzeit im November).

Eine zweite Maßnahme, weitere Schränke mit Großverbrauchern an das externe Kühlgerät anzuschließen, wurde auch nicht rechtzeitig realisiert. Leider hat die Montagefirma den Termin auf den 6. Juli festgelegt, so dass frühestens ab 8. Juli diese Schränke dann direkt gekühlt werden können. Wäre die Montage bereits eine Woche zuvor erfolgt, so hätten wesentlich weniger Geräte abgeschaltet werden müssen, da die Rechner in den wassergekühlten Schränken weitgehend hätten durchlaufen können.

Es besteht berechtigte Hoffnung, dass sich ab dem 8. Juli die Lage entspannt und ein stabiler Betrieb erscheint wieder möglich. Allerdings verfügt das externe Kühlgerät über keinerlei Redundanz, so dass bei dessen Ausfall eine vollständige Abschaltung aller Cluster nötig werden würde.

Das Rechenzentrum und die Universität haben geeignete Maßnahmen ergriffen, dass hoffentlich im Sommer 2011 der Betrieb nicht wieder in die Hitzefalle, die seit Jahren akut und bekannt ist, laufen kann.