vendredi 27 septembre 2019

Cloud Public Eolas Incident Infrastructure

Nous faisons suite à l’engagement de suivi que nous avons pris samedi 21/09, alors que l’incident n’était pas encore totalement circonscrit.

L’incident est dû à une défaillance partielle d’un contrôleur d’une baie de stockage. Techniquement, les espaces de stockage de cette baie sont pilotés par deux contrôleurs. L’un des contrôleurs actifs à subit une défaillance, provoquant naturellement la bascule du trafic sur un second contrôleur. Lors de cette bascule, ce contrôleur est resté fonctionnel sur son trafic initial mais a gelé le trafic provenant du premier contrôleur. La défaillance de ce contrôleur, partielle, n’a pas pu être détectée par le système de supervision car le contrôleur continuait de répondre avec succès. Cela a rendu particulièrement difficile le diagnostic de nos équipes.

Dès que le problème a été localisé, nous avons immédiatement contacté notre fournisseur de matériel. La nuit même, nous avons travaillé conjointement avec ses équipes d’experts. Nous avons pris la de décision du redémarrage du contrôleur défectueux après nous être assuré qu’aucune donnée ne pouvait être perdue ou corrompue par l’opération. Cette opération a permis aux environnements techniques de reprendre le contrôle de leur espaces de stockage. A 4h du matin, nos équipes d’infogérance, très fortement mobilisées, ont pris le relais des équipes d’infrastructure pour superviser la réinitialisation de l’ensemble des plateformes et des services. Le rétablissement s’est poursuivi tout au long de la journée de samedi.

Les analyses se sont poursuivies toute la semaine. Le constructeur vient de nous livrer une mise à jour des firmwares du matériel qui corrige le problème très particulier que nous avons rencontré. Cette mise à jour sera déployée dès le début de la semaine prochaine. D’autres actions d’améliorations seront mises en œuvres sur les 2 ou 3 prochaines semaines, autant sur la fiabilisation de nos environnements que sur nos outils et/ou process. D’ailleurs, afin de faciliter le suivi de la disponibilité de nos services nous avons mis en ligne une application qui permet de visualiser l’état de nos services : https://status.eolas.fr/ .

Après cette phase d’amélioration, nous poursuivrons dans les prochains mois, notre plan d’investissement « EOLAS 2020 » comme nous l’avons initialement prévu. Ces investissements nous permettront de vous apporter de nouveaux services de qualités et également d’améliorer nos capacités techniques.

N'hésitez pas à contacter nos équipes si vous souhaitez plus d’informations.

L’équipe d’hébergement