Op maandag 16 november was er groot onderhoud aan de stroom-infrastructuur in het euNetworks-datacentrum, waar ook het Procurios-cluster gehost wordt. Eén van de twee power feeds werd afgesloten. Alle apparatuur is op beide feeds aangesloten, of is redundant uitgevoerd. Dit zou dus geen problemen moeten geven. Toch?
Het was wel een probleem.
Door een ingewikkelde samenloop van omstandigheden had de core router van True (onze netwerkleverancier) niet door dat één switch uit stond, waardoor ons hele cluster offline was.
Dan moeten er twee dingen gebeuren. Het probleem oplossen en onze gebruikers vertellen wat er aan de hand is.
Voor dat laatste gebruiken we de tool van status.io. Dat biedt allerlei handige features, zoals een statuspagina, automatisch een bericht op Twitter zetten en de aangemelde gebruikers een mail sturen.
Maar de allerbelangrijkste feature is dat het niet op ons eigen cluster draait.
Bij deze storing was alles binnen een kwartier weer online. Maar toch was het fijn dat we klanten actief konden informeren en bellers naar een werkende statuspagina konden verwijzen.