Post-Mortem: Redunanzstörung TRO1

Transparenz ist uns wichtig. Das zeigen wir Ihnen mit unserer Beitragsserie “Aus dem Maschinenraum” in unserem Newsroom. Diese Woche kam jedoch aus Gründen kein Beitrag – Wir hatten mit LWL-Störung bei einem unserer Provider zu kämpfen.

Was ist passiert?

Am 1. Juli 2025 um exakt 8:16 Uhr schlug unser Monitoring Alarm: Ausfall der LWL am Standort TRO1. Das ist ein Prio 1 Alarm für uns, denn der Standort Troisdorf ist, logischerweise der wichtigste Standort. Wir warfen sofort einen Blick in das Core Gateway und sahen, dass um exakt 8:15 Uhr die Verbindung abgebrochen ist. Wir stürmten sofort zum ONT und stellten fest: Alles grün, aber trotzdem keine Verbindung auf der LWL. Das war merkwürdig. Also schnell den Laptop angeklemmt und losgeprüft. Die Ursache, Timeouts in der PPPoE-Connection, waren schnell gefunden. Nun hieß es: Logs einsammeln und ab zum Provider damit.

Das Warten beginnt

Während wir auf eine Reaktion unseres Providers warteten, prüften wir trotzdem alle Systeme auf unserer Seite. Hat der Schwenk auf die Backup-Leitung funktioniert? Wie sehen die Latenzen aus? Wie hoch ist der Paketverlust? Alles Parameter, die wir in den nächsten 60 Minuten dauerhaft im Auge behalten haben, um im Fehlerfall sofort reagieren zu können. Natürlich erfolgte über unsere Statusseite auch eine sofortige Information an unsere Kunden.

60 Minuten später

Licht auf der LWL! Die PPPoE kommt wieder hoch, aber die Leitung ist manuell offline genommen worden, einfach um zu verhindern, dass Instabilitäten unseren Uplink beeinträchtigen. Eine gute Entscheidung, denn wir sahen auf der Leitung weiterhin hohen Paketverlust. Und schon kam die Mail vom Provider: Gestörte Netzkomponenten im Stadtgebiet. Unschön, aber aufgrund der Hitzewelle zu erwarten. Genau darum haben wir Redundanzen. Die LWL wurde mit abnehmender Temperatur stabiler und gegen Abend konnten wir die Leitung wieder dazuschalten. Die Redundanz war wiederhergestellt, zumindest vorerst.

Donnerstagabend, der nächste Ausfall

Am Donnerstag, den 3. Juli 2025 gegen 20:52 Uhr schlug das Monitoring wieder Alarm: Ausfall der LWL, die Redundanz hat aber schon übernommen. Ein Anruf beim Provider ergab, dass die Netzkomponenten noch immer gestört sind und noch immer Probleme machen. Die Leitung wurde also zur Sicherheit von uns manuell deaktiviert. Auch hier: Gute Entscheidung, denn in der Nacht bis in den späten Vormittag des Freitags gab es weiterhin sporadische Ausfälle der Leitung. Seit Freitagnachmittag ist alles wieder Up and Running zusammen mit einer Entwarnung unseres Providers.

Lessons Learned

  • Redundanzen vorzuhalten über eine komplett andere Strecke war eine gute Entscheidung in der Netzplanung. Auch wenn die Latenzen im Falle des Falles 10ms betragen, sind wir nicht komplett offline.
  • Die Monitoring-Systeme auf kurze Intervalle zur Prüfung des Uplinks zu konfigurieren sollte beibehalten werden.
  • Der “Kurze Dienstweg” zu unserem Provider und die qualifizierte Störungsmeldung hat viel Zeit gespart.

Zusammengefasst ist diese Störung vielleicht kein klassiches Post-Mortem wert, dennoch ist uns Transparenz wichtig. Wir haben für den Fall der Fälle vorgesorgt und uns nicht auf ein Medium verlassen – Tatsächlich ist unsere Redundanz nicht mal auf Strom von Außen angewiesen.

Der fehlende “große Knall” zeigt jedoch klar: Mit TroiHost haben Sie einen starken Partner an Ihrer Seite, der risikobewusst und vorausschauend plant.

Interesse an redundanter Hosting-Infrastruktur? Kontaktieren Sie uns gerne!