Une exploration approfondie de la vérification des alertes bruyantes, la définition d'Objectifs de Niveau de Service (SLO) réalisables, et le passage aux alertes basées sur les symptômes.

L'astreinte n'a pas à être un cauchemar de réveils à 3h du matin pour des avertissements sans sens. Pourtant, pour de nombreuses équipes d'ingénierie, le pager est devenu une source d'angoisse plutôt qu'un outil pour préserver la fiabilité. Ce phénomène est connu sous le nom de fatigue des alertes, et c'est l'une des principales causes d'épuisement professionnel pour les Ingénieurs en Fiabilité de Site (SREs), les professionnels DevOps et les développeurs backend.
Lorsque les ingénieurs sont bombardés d'alertes non exploitables — comme des pics temporaires de CPU, des sauvegardes de base de données bloquant des lignes, ou des interruptions réseau transitoires — deux choses dangereuses se produisent.
Dans ce guide, nous allons décomposer le vrai coût de la fatigue des alertes et fournir un cadre structuré pour auditer votre bruit, passer aux alertes basées sur les symptômes et rendre chaque alerte exploitable.

La fatigue des alertes survient lorsque le volume d'alertes dépasse la capacité d'un ingénieur à les investiguer de manière significative. Elle brise fondamentalement la boucle de rétroaction de la fiabilité du système.
Historiquement, les alertes étaient construites autour du matériel. Si un serveur atteignait 90 % de capacité disque ou 95 % de CPU, vous deviez le savoir. Dans un environnement cloud moderne et élastique, les seuils d'infrastructure sont souvent sans importance. Les groupes d'autoscaling poussent naturellement les contraintes CPU plus haut pour maximiser l'efficacité. Les alertes sur ces métriques d'utilisation génèrent des faux positifs qui entraînent les ingénieurs à acquitter et à se rendormir.
Considérez la violation de données de Target en 2013 : les systèmes de surveillance de sécurité ont signalé l'intrusion avec précision, mais les avertissements ont été ensevelis sous des milliers de faux positifs et de notifications de routine. Les alertes ont été ignorées jusqu'à ce qu'il soit trop tard. Le même phénomène de désensibilisation psychologique se produit chez les SREs concernant les temps d'arrêt des applications.
Avant de pouvoir corriger votre infrastructure d'alertes, vous devez comprendre d'où vient le bruit. Le principe de Pareto s'applique fortement ici : généralement, 80 % de votre bruit d'alertes provient d'environ 20 % de vos moniteurs.
Commencez par exporter les 30 à 90 derniers jours de données d'alertes depuis votre plateforme de gestion des incidents (p. ex., PagerDuty, Opsgenie ou VictorOps). Regroupez les alertes par source et par service.
Identifiez les Alertes Vacillantes — des moniteurs qui se déclenchent et se résolvent en moins de 3 minutes sans intervention humaine. Ce sont des candidats immédiats pour la suppression ou l'ajout d'un délai (p. ex., for: 5m dans Prometheus).
Pour les moniteurs hérités qui se déclenchent constamment mais ne résultent jamais en un ticket de triage ou un post-mortem, envisagez la stratégie supprimer et attendre. Mettez en sourdine ou supprimez l'alerte. Si personne ne se plaint qu'un système est tombé, l'alerte était inutile.
Le changement architectural le plus significatif qu'une équipe peut faire est de passer des alertes basées sur la cause aux alertes basées sur les symptômes.
Vous alertez sur l'état de l'infrastructure sous-jacente.
Vous alertez strictement quand l'expérience utilisateur se détériore réellement.
Pour s'assurer qu'une nouvelle alerte ne contribuera pas à la fatigue, faites-la passer par le test « Puis-je corriger cela maintenant ? » avant de valider le moniteur en production.
Posez ces trois questions :
Si une alerte est purement informative, elle appartient à un tableau de bord ou à un résumé Slack quotidien — jamais au pager.
Une fois que vous avez éliminé les alertes de seuil bruyantes, vous devez les remplacer par des Objectifs de Niveau de Service (SLOs).
Un SLI (Indicateur de Niveau de Service) définit le rapport mathématique des bons événements sur le total des événements. Un SLO est votre pourcentage cible (p. ex., 99,9 % des requêtes doivent réussir).
Au lieu d'alerter quand le taux d'erreur monte légèrement, vous alertez sur le Taux de Consommation de votre Budget d'Erreurs. Si votre budget d'erreurs mensuel se consume à un rythme qui l'épuisera en 4 heures, cela déclenche une notification immédiate. S'il fuit lentement et s'épuisera en 3 jours, cela crée un ticket Jira de priorité standard pour le prochain sprint.
N'envoyez jamais une alerte qui dit simplement TAUX D'ERREUR ÉLEVÉ. Incluez un contexte dense et exploitable :
Surmonter la fatigue des alertes nécessite un changement culturel, s'éloignant de la mesure de la santé des serveurs vers la mesure de la santé des utilisateurs. En auditant sans relâche les journaux d'alertes passés, en supprimant les moniteurs inutiles et en adoptant des SLOs basés sur les symptômes, les équipes d'ingénierie peuvent récupérer leur sommeil et restaurer la confiance dans le pager.
Les plateformes professionnelles de surveillance synthétique comme Heimdall peuvent être décisives dans ce changement. En exécutant des sondes externes centrées sur l'utilisateur (comme la validation HTTP et les tests de résolution DNS), Heimdall fournit exactement la télémétrie basée sur les symptômes nécessaire pour créer des alertes robustes et exploitables qui reflètent avec précision l'expérience utilisateur réelle sans le bruit des métriques d'infrastructure.
Rejoignez des milliers d'équipes qui comptent sur Heimdall pour maintenir leurs sites web et API en ligne 24h/24 et 7j/7. Commencez avec notre plan gratuit dès aujourd'hui.
Commencer la surveillance gratuitementIngénieur senior en fiabilité des systèmes (SRE) axé sur la disponibilité, la réponse aux incidents et la construction de systèmes de surveillance qui révèlent les problèmes avant que les utilisateurs ne s'en aperçoivent.