Print
Sehr geehrte Damen und Herren,
hiermit erhalten Sie einen Überblick zur Störung unserer Dienste vom 15.05.2018 ca. 14:30 bis 16.05.2018 ca. 23:00 Uhr.
Betroffene Dienste:
- Webhosting auf der Plattform InterWorx (Self-Service Webpanel)
- E-Mails auf der Plattform InterWorx (E-Mail-Server mail.opop.de)
- E-Mail auf der klassischen Plattform (E-Mail-Server mail.ica-net.de)
- Hosting Virtuelle Maschinen
- Einwahl ins Internet über noch nicht migrierte ADSL-Telefonanschlüsse (ISP-Gate)
Ursache:
Das Betriebssystem des betroffenen Servers befindet sich auf einem Flash-Speicher. Dieser Flash Speicher ist partiell ausgefallen, bis kein Zugriff mehr möglich war, somit konnte das Betriebssystem nicht mehr korrekt arbeiten und starten.
Hintergrund:
Der Flash Speicher auf welchem der "Virtualisierungsserver" betrieben wird, war defekt, die Dienste waren am 15.05.2018 ab ca. 14:30 Uhr nicht mehr erreichbar.
Der Austausch der defekten Komponente wurde am 15.05.2018 um 16:30 Uhr im Rechenzentrum (Berlin-Tempelhof) vorgenommen und die Prozedur zum Recovery des Systems (Plattform Citrix - XenServer) abgearbeitet. Leider befindet sich eine falsche Anweisung in der offiziellen Dokumentation, mit welcher die korrekt arbeitenden Datensysteme ebenfalls in einen Fehlerzustand versetzt wurden. Dieses Verhalten hat sich vorerst nicht bemerkbar gemacht, da wir den Fehler am Betriebssystem und dem ausgetauschten Flashspeicher vermutet haben. Die Wiederherstellung konnte somit nicht innerhalb kurzer Zeit nach Austausch der defekten Komponente abgeschlossen werden.
Die Maßnahmen vor Ort wurden gegen 20:00 Uhr abgebrochen. Die defekten Geräte wurden in Oranienburg ab 22:00 Uhr getestet. Parallel wurde mit einem Ersatzgerät der Fehler nachgestellt. Am 16.05.2018 wurde nach dem Laboraufbau gegen 06:00 Uhr sichtbar, dass die fehlerhafte Anweisung (s.o.) im Recovery-Prozess für den fehlerhaften Recoveryprozess und den anhaltenden Ausfall ursächlich ist.
Es wurde ab 06:00 Uhr an der Lösung des Problems gearbeitet, d.h. der Fragestellung wie die fehlerhafte Prozedur (Änderung des Parititionstabellentyps) rückgängig gemacht werden könnten. Gegen 12:00 Uhr (16.05.2018) wurde entschieden externe Experten einzubeziehen.
Am 16.05.2018 um 14:00 Uhr begann eine Fernwartung mit einem LVM-Experten aus Stuttgart, die defekten Datenpartitionen konnten um 15:30 Uhr in den Urzustand zurückgesetzt und in den regulären Recoveryprozess übergeben werden. Der Server wurde um 22:30 Uhr ins Rechenzentrum zurückgeliefert, die Dienste waren um 23:00 Uhr wieder vollständig erreichbar.
Zusammenfassung:
Ein Fehler in der Anleitung des Herstellers sorgte für eine Verlängerung des Recovery-Prozesses um ca. 24 Stunden, d.h. der Ausfall war schwerwiegend aber hätte am 15.05.2018 gegen 23:00 Uhr beendet sein können. Somit waren die Dienste erst am 16.05.2018 wieder vollständig erreichbar.
Änderungen:
Um Fehlerbilder wie diese zukünftig zu vermeiden, wurden einige Maßnahmen sofort ergriffen und/oder werden zukünftig umgesetzt.
Abschluss:
Wir bitten die durch den Ausfall entstandenen Unanehmlichkeiten zu entschuldigen. Es war ein schwerwiegender Ausfall, der sich nach einem nicht schwerwiegendem Fehler (Defekt Flash-Speicher) entwickelt hat.
Mit freundlichem Gruß
Sebastian Uhlig
Did you find this article useful?
Related Articles