Friday 2 June 2023

Réseau Analyse de l'incident de vendredi 2 juin 2023

Cher client,

Nous avons subi un incident réseau vendredi 02/06, à partir de 16h00.

Un problème logiciel est apparu sur le Master de la Fabric de switches d’une de nos salles de production. Le dysfonctionnement du switch Master a entrainé la déconnexion des autres switches.

A 16h14 et grâce à la redondance de notre infrastructure réseau, nos équipes ont forcé la bascule vers le second switch Master. Toutefois, les dommages causés par le premier switch Master n’ont pas permis de rétablir la communication entre les switches.

L’incident a eu pour conséquences l’indisponibilité de tout ou partie des clusters de virtualisation de la salle et des cloud privés et mutualisé associés.

Il a pris fin le même jour à 17h35, avec pour certaines plateformes des effets de bord jusqu’à 18h30.

L’ensemble de nos équipes techniques se sont réunies le 06/06 et ont établi un post mortem dans le but d’identifier le déroulé de l’incident dans le détail et d’identifier de potentielles pistes d’amélioration. A ce jour, nous confirmons avoir remonté le bug logiciel auprès du constructeur afin que des corrections soient apportées dans les plus brefs délais.

Nous nous excusons de la gêne occasionnée et restons à votre entière disposition pour vous donner tout renseignement complémentaire aidant à la compréhension de l’incident.

Cordialement, L’équipe Hébergement