L'article commence par décrire les problèmes courants de monitoring et de gestion des incidents dans de nombreuses entreprises, où les alertes sont souvent ignorées et les tableaux de bord deviennent obsolètes ou incompréhensibles. Pour illustrer ces défis, l'auteur utilise l'exemple d'une startup fictive, Pretix, qui vend des billets pour des événements. La startup est confrontée à des problèmes de monitoring, notamment lors d'une attaque DDoS qui rend le site inaccessible. Pour résoudre ces problèmes, la startup décide de lancer un projet visant à intégrer l'intelligence artificielle dans son système de monitoring. L'objectif est d'analyser les métriques, de détecter les anomalies, de les classer par ordre d'importance et de générer des hypothèses sur les causes des pannes. Le projet utilise des modèles de prédiction de séries temporelles, comme Prophet, pour détecter les anomalies dans les métriques. Les anomalies sont ensuite classées par fréquence, permettant aux ingénieurs de se concentrer sur les problèmes les plus pertinents. Enfin, un modèle de langage est utilisé pour générer des hypothèses sur les causes des pannes, en utilisant les descriptions des métriques pour créer des prompts efficaces. Le résultat est un système de monitoring amélioré qui réduit le temps de diagnostic et simplifie la réponse aux incidents. L'article conclut que, bien que l'intégration de l'IA ne résolve pas tous les problèmes, elle peut considérablement améliorer les processus de travail des ingénieurs de fiabilité des sites (SRE) dans les petites et grandes entreprises.