Certains systèmes rencontrent des problèmes

Incidents antérieurs

vendredi 27 septembre 2019

Cloud Public Eolas Incident Infrastructure

Nous faisons suite à l’engagement de suivi que nous avons pris samedi 21/09, alors que l’incident n’était pas encore totalement circonscrit.

L’incident est dû à une défaillance partielle d’un contrôleur d’une baie de stockage. Techniquement, les espaces de stockage de cette baie sont pilotés par deux contrôleurs. L’un des contrôleurs actifs à subit une défaillance, provoquant naturellement la bascule du trafic sur un second contrôleur. Lors de cette bascule, ce contrôleur est resté fonctionnel sur son trafic initial mais a gelé le trafic provenant du premier contrôleur. La défaillance de ce contrôleur, partielle, n’a pas pu être détectée par le système de supervision car le contrôleur continuait de répondre avec succès. Cela a rendu particulièrement difficile le diagnostic de nos équipes.

Dès que le problème a été localisé, nous avons immédiatement contacté notre fournisseur de matériel. La nuit même, nous avons travaillé conjointement avec ses équipes d’experts. Nous avons pris la de décision du redémarrage du contrôleur défectueux après nous être assuré qu’aucune donnée ne pouvait être perdue ou corrompue par l’opération. Cette opération a permis aux environnements techniques de reprendre le contrôle de leur espaces de stockage. A 4h du matin, nos équipes d’infogérance, très fortement mobilisées, ont pris le relais des équipes d’infrastructure pour superviser la réinitialisation de l’ensemble des plateformes et des services. Le rétablissement s’est poursuivi tout au long de la journée de samedi.

Les analyses se sont poursuivies toute la semaine. Le constructeur vient de nous livrer une mise à jour des firmwares du matériel qui corrige le problème très particulier que nous avons rencontré. Cette mise à jour sera déployée dès le début de la semaine prochaine. D’autres actions d’améliorations seront mises en œuvres sur les 2 ou 3 prochaines semaines, autant sur la fiabilisation de nos environnements que sur nos outils et/ou process. D’ailleurs, afin de faciliter le suivi de la disponibilité de nos services nous avons mis en ligne une application qui permet de visualiser l’état de nos services : https://status.eolas.fr/ .

Après cette phase d’amélioration, nous poursuivrons dans les prochains mois, notre plan d’investissement « EOLAS 2020 » comme nous l’avons initialement prévu. Ces investissements nous permettront de vous apporter de nouveaux services de qualités et également d’améliorer nos capacités techniques.

N'hésitez pas à contacter nos équipes si vous souhaitez plus d’informations.

L’équipe d’hébergement

jeudi 26 septembre 2019

Aucun incident signalé

mercredi 25 septembre 2019

Aucun incident signalé

mardi 24 septembre 2019

Aucun incident signalé

lundi 23 septembre 2019

Aucun incident signalé

dimanche 22 septembre 2019

Aucun incident signalé

samedi 21 septembre 2019

Aucun incident signalé

vendredi 20 septembre 2019

Cloud Public Eolas Incident d'infrastructure

Vendredi 20 septembre, à 21h15, un incident important s'est déclaré sur notre DataCenter de Mangin. Nos équipes se sont relayées toute la nuit pour diagnostiquer, puis remettre en fonctionnement l’ensemble des services impactés et limiter autant que possible les impacts de cet incident. Pendant toute la période de l'incident, aucune donnée n'a été altérée, corrompue ou dérobée.

La défaillance est venue d’une baie de stockage. La baie redondante a normalement été sollicitée pour reprendre le service. Malheureusement, pour une raison encore inconnue à cette heure, cette reprise a provoqué la défaillance de cette seconde baie. Ces deux défaillances ont également eu des impacts sur nos outils internes compliquant l’analyse de la cause première de l’incident par nos équipes de support infrastructure et ralentissant notre intervention.

Dès la nature de l’incident localisée, nous avons contacté les équipes support de notre équipementier qui a dû faire intervenir ses équipes de 3ème niveau qui ont détecté un problème « firmware » du matériel. A l’issu de nos échanges avec ce fournisseur, nous avons pris la décision de déplacer manuellement les éléments techniques dans un autre environnement.

A 4h du matin, le transfert technique des premiers environnements clients était initié, en suivant les procédures de redémarrage spécifique de chaque plateforme. A 8h, 90% des environnements étaient fonctionnels. Certaines plateformes qui nécessitent des tests et gestes particulièrement complexes sont toujours en cours de traitement dans la matinée.

Nous vous tiendrons rapidement informé des évolutions de cet incident et notamment du plan d’amélioration qui en découlera.

Nous restons à votre entière disposition et vous présentons nos excuses pour les désagréments occasionnés.

L'équipe Hébergement

jeudi 19 septembre 2019

Aucun incident signalé

mercredi 18 septembre 2019

Aucun incident signalé

mardi 17 septembre 2019

Aucun incident signalé

lundi 16 septembre 2019

Aucun incident signalé

dimanche 15 septembre 2019

Aucun incident signalé

samedi 14 septembre 2019

Aucun incident signalé

vendredi 13 septembre 2019

Aucun incident signalé