Informationen zum Mailserverausfall
Am 21.3. gegen 18:30 gab es einen Ausfall des zentralen Mailservers. Leider hat die daraus folgende Störung ungewöhnlich lange bestanden. Mit dieser Information möchten wir unseren Nutzerinnen und Nutzern die Hintergründe für diesen Ausfall erläutern.
Das Mailsystem besteht prinzipiell aus zwei Komponenten, nämlich dem Mailserver an sich und einem hochperformanten Speicher für die Mails. In diesem Fall gab es einen sehr schwerwiegenden Hardwareausfall des Speichersystems. Das Speichersystem ist in sich redundant aufgebaut. Dieser Ausfall war so massiv, dass die vorhandene Redundanz nicht zum weiteren Betrieb ausgereicht hat.
Solche Vorfälle sind niemals ganz auszuschließen. Für derartige Szenarien steht daher ein Ersatzsystem bereit. Der Hardwareschaden ereignete sich unglücklicherweise genau während der Synchronisation des Hauptsystems auf das Backupsystem. Daher konnte die Umschaltung nicht automatisch erfolgen. Es musste vielmehr die Entscheidung getroffen werden, welche Massnahme als erstes erfolgen soll:
a) Wiederherstellung des Dateisystems ohne Umschalten auf das Ersatzsystem: Ziel ist es, einen konsistenten Zustand des Dateisystems zu wahren, der genau den Zustand kurz vor dem Absturz widerspiegelt. Dies hat geringere Auswirkungen auf die Nutzer und Nutzerinnen als die folgende Variante.
b) Umschalten auf das Ersatzsystem, Wiedereinspielen aller Mails seit dem letzten Backup. Auch bei dieser Option geht nichts verloren, allerdings können bereits bearbeitete Mails nochmals ausgeliefert werden.
Bei beiden Massnahmen muss der Zugriff auf das Mailsystem unterbrochen werden, um die Reperaturen zu einem erfolgreichen Abschluss zu bringen. Dem Rechenzentrum ist klar, dass während dieser Zeit die Arbeitsfähigkeit der Nutzer und Nutzerinnen eingeschränkt ist.
Zunächst wurde versucht, das Mailsystem mit Variante a), der Wiederherstellung des Dateisystems, wieder verfügbar zu machen. Das Dateisystem war allerdings so korrupt, dass diese Aktion viel Zeit in Anspruch genommen hat. Am 22.3. gegen 15 Uhr wurde klar, dass unauflösbare Inkonsistenzen zu erwarten wären. Deshalb wurde ab diesem Zeitpunkt Plan b) verfolgt. Am 23.3. nachts gegen 1 Uhr konnten die RZ-Mitarbeiter den Ersatzserver in Betrieb nehmen. Durch die hohe Anzahl an aufgelaufenen Mails steht dieser aktuell unter sehr hoher Last, wodurch die Auslieferung verzögert ist.
Dem Rechenzentrum ist bewusst, dass die Situation den Nutzerinnen und Nutzern große Unannehmlichkeiten bereitet hat. Dies ist für uns umso ärgerlicher, da das Rektorat Ende letzten Jahres Mittel für eine Renovierung des Mailsystems bewilligt hat. Die Vorbeitungen sind in vollem Gange, die ersten neuen Hardwarekomponenten werden bereits in diesen Tagen geliefert.
Nachtrag vom 30.03.2017: Aufgrund von Lieferengpässen bei schnellen Server-SSD-Speichermedien kann der Hersteller der neuen Mailserver diese erst ab Mitte April ausliefern. Die Inbetriebnahme der neuen Mailserver hat im Rechenzentrum höchste Priorität.
Ihr Rechenzentrums-Team