Description : Nous avons rencontré un incident majeur affectant notre infrastructure de stockage cloud principale. L'incident a débuté aux alentours de 05h45 (UTC) le jeudi. Cet incident a impacté la disponibilité des services de stockage et l'accès aux données pour l'ensemble de nos utilisateurs.
Les services cloud publics et privés ont été affectés par cette interruption, ainsi que quelques services SaaS Cpanel, Odoo hébergés sur notre infrastructure. Les utilisateurs ont pu constater des interruptions temporaires ou des ralentissements dans l'accès à leurs données et services.
Cause de l'incident : L'incident a été causé par une panne matérielle critique sur un des nœuds de notre cluster de stockage, entraînant une défaillance de la réplication des données. Le mécanisme de tolérance aux pannes n'a pas fonctionné comme prévu en raison d'un bug logiciel non détecté dans le système de gestion des disques.
Actions prises : Nos équipes ont immédiatement déclenché le protocole de gestion d'incident et ont travaillé en continu pour rétablir les services. Nous avons :
Remplacé les composants matériels défectueux.
Patché le bug identifié dans le système de réplication.
Vérifié l'intégrité des données et assuré la récupération des services.
Statut actuel : Tous les services ont été restaurés et sont pleinement opérationnels. Nous continuons de surveiller étroitement la situation pour nous assurer que les services restent stables.
Mesures futures :
Amélioration des mécanismes de tolérance aux pannes et des processus de réplication.
Audits supplémentaires du système de gestion des disques.
Optimisation des temps de réponse en cas d'incident similaire.
Nous nous excusons pour les désagréments causés par cet incident et nous vous assurons que nous mettons tout en œuvre pour éviter qu'une telle situation ne se reproduise.