Driftsudmelding: Udfald i Core netværks infrastruktur

Oprettet d.

Driftsudmelding: Udfald i Core netværks infrastruktur

Indledning:

Først og fremmest vil jeg gerne personligt beklage de incidents vi/I har oplevet henover den seneste måned. Det er utroligt frustrerende for os, ikke at leve op til den kvalitet vi gerne vil levere til vores kunder. De incidents vi har haft har været af forskellig art og yderst uheldige og desværre faldet tidsmæssigt tæt op af hinanden.

Vi brænder inderligt for det vi laver og tager det her dybt seriøst. Tøv endelig ikke, med at tage fat i os, hvis der er noget som helst du er i tvivl om, eller ønsker yderligere klarhed over.


Kort opsummering:

Onsdag nat samt Onsdag morgen, har vi haft udfald på vores core netværksinfrastruktur der driver vores storage og VMware paltforme. Som konsekvens af dette har vi i tidsrummene haft nedsat tilgængelighed til hele den virtuelle infrastruktur i vores datacenter. Nedenstående følger en mere detaljeret tidslinie, samt uddybning.

 

Uddybning:

Fejlen er lokaliseret til 4 centrale switchenheder der driver en stor del af vores VMware-platform.

Der er opstået et loop i en del af netværket, som normalvis ville være mitigeret af de indbyggede funktioner i switchene, men i stedet for at løse problemet har disse fået switchene, der forwarder trafikken til resten af netværket, til at gå i stå.

 

Den helt præcise fejlkilde undersøges stadig og samtidig er der kommunikation med switchleverandøren for at undersøge hvorfor enheden ikke agerede som planlagt

Fra afbrydelserne i nat overvågede vores teknikere netværket tæt og fejlsøgte på problematikken. Ingen af problemerne har nogen sammenhæng med det der er sket om morgenen, såvidt logs og overvågning viser os, men vi udelukker naturligvis intet endnu.


    

Oversigt over driftsproblem:
Hændelses forløb :
    

00.45 - 00.50: Kort udfald på netværksinfrastruktur ifbm. vores Shared services, herunder Webhotel, Cloud Servere, Hosted Exchange osv. *Kunder på Delt eller Dedikeret VMware infrastruktur ikke berørt.

04.48 - 04.53: Kort udfald på netværks infrastruktur ifbm. vores Shared services, herunder Webhotel, Enterprisecloud, Hosted Exchange osv. *Kunder på Delt eller Dedikeret VMware infrastruktur ikke berørt.

07.34 - 08.01: Udfald på central redundant intern netværkscore, der understøtter hele vores VMware infrastruktur. Fejlen betød at intern samt ekstern trafik mellem VMware-maskiner stoppede med at fungere. Problemet blev afhjulpet ved genstart af switch fabric.

08.30 - 08.40: Omlægning af trafikken på shared services betød afbrydelser til enkelte services i dette tidsrum.

Årsag til problemet :
    

Fejl i redundant Core netværksinfrastruktur

Hvem blev påvirket :
    

Alle kunder har været påvirket dog kun del påvirkning af Shared Services Onsdag nat.

 

Sikring mod yderligere nedbrud :

Sammen med nedbruddet i den centrale core er der allerede nogle områder vi kommer til at ændre på for at hindre samme katastrofale udfald en anden gang, men selve fejlen er vi pt. afhængige af bliver løst af leverandøren igennem en softwarepatch og vi skal have valideret den specifikke root-cause for at komme videre mod en permanent løsning.

Vi implementerer snarest de tiltag vi selv er herre over, når vi har modtaget det sidste hardware der skal benyttes til implementeringen og bruger samtidig al vores energi på at finde root-cause og få løst problematikken med leverandøren.