Downtime van gisteravond en vannacht

Om even voor tienen kwam ik thuis van een verjaardag en had ik meteen Breuls aan de lijn. FOK! lag al een tijdje plat en niets was extern bereikbaar. Gebeld met Trueserver, er waren geen storingen bekend dus gebeld met Iteejer die zich uit een meeting moest sleuren en beiden op weg naar Amsterdam waar ik even vóór en Johan even ná middernacht aankwamen.

Er werd gevreesd dat óf onze masterswitch eruit lag en onze server gewoon uit stonden, óf onze switch gewoon geen werk meer verrichtte.
De servers stonden nog gewoon aan, dus een monitor eraan gehangen en pingen. Intern pingen naar onze eigen servers ging uitstekend. Extern deed niets. De switch was dus ok, maar voor de zekerheid toch een reserveswitch geprobeerd en zelfs nog de uplink direct op de servers aangesloten. Geen verschil.
De kabels waren het ook niet aangezien er wel een verbinding op de switch werd geconstateerd en dus bellen met Trueserver.

Na enig onderzoek en het uit bed bellen van diverse mensen rees het vermoeden dat een van de coreswitches een niet-functionerende blade had, en dat dat precies degene was waar FOK! als enige aanhangt.
Na aankomst van het team van Trueserver (JP en Daniel bedankt voor de snelle service ) en het eenvoudigweg verwijderen van de stroomtoevoer naar de coreswitch met de defecte blade nam de tweede coreswitch de taak meteen over en waren we weer online.

De defecte coreswitch wordt vannacht nog vervangen en zal een downtime van hooguit een paar milli-seconden met zich meebrengen
Rond 3 uur vannacht was de boel weer online.

Hier en daar vind je op de frontpage nog een error vanwege cronjobs die vanwege de downtijd niet gedraaid hebben. Dit is niets om over te mailen of posten en kan absoluut geen kwaad anders dan dat vooralsnog de films van vandaag en het weer niet zichtbaar zijn.