Friday 20 September 2019

Cloud Public Eolas Incident d'infrastructure

Vendredi 20 septembre, à 21h15, un incident important s'est déclaré sur notre DataCenter de Mangin. Nos équipes se sont relayées toute la nuit pour diagnostiquer, puis remettre en fonctionnement l’ensemble des services impactés et limiter autant que possible les impacts de cet incident. Pendant toute la période de l'incident, aucune donnée n'a été altérée, corrompue ou dérobée.

La défaillance est venue d’une baie de stockage. La baie redondante a normalement été sollicitée pour reprendre le service. Malheureusement, pour une raison encore inconnue à cette heure, cette reprise a provoqué la défaillance de cette seconde baie. Ces deux défaillances ont également eu des impacts sur nos outils internes compliquant l’analyse de la cause première de l’incident par nos équipes de support infrastructure et ralentissant notre intervention.

Dès la nature de l’incident localisée, nous avons contacté les équipes support de notre équipementier qui a dû faire intervenir ses équipes de 3ème niveau qui ont détecté un problème « firmware » du matériel. A l’issu de nos échanges avec ce fournisseur, nous avons pris la décision de déplacer manuellement les éléments techniques dans un autre environnement.

A 4h du matin, le transfert technique des premiers environnements clients était initié, en suivant les procédures de redémarrage spécifique de chaque plateforme. A 8h, 90% des environnements étaient fonctionnels. Certaines plateformes qui nécessitent des tests et gestes particulièrement complexes sont toujours en cours de traitement dans la matinée.

Nous vous tiendrons rapidement informé des évolutions de cet incident et notamment du plan d’amélioration qui en découlera.

Nous restons à votre entière disposition et vous présentons nos excuses pour les désagréments occasionnés.

L'équipe Hébergement