À l’occasion du dernier Apér’OBS, nous avons eu le plaisir d’accueillir Pierre-Yves Gauthier, Product Manager Observabilité chez SNCF Connect, accompagné de Nicolas Besin, Architecte. Ensemble, ils nous ont partagé leur retour d’expérience sur la mise en place d’une stratégie d’observabilité globale et maîtrisée, autour de Datadog.
Un échange riche qui a permis de plonger au cœur d’un sujet clé pour toute organisation cloud-native : comment offrir une observabilité à l’état de l’art, tout en maîtrisant les coûts et en donnant de l’autonomie aux équipes ?
SNCF Connect & Tech, au service de la mobilité numérique
SNCF Connect & Tech est l’entité digitale de SNCF Voyageurs. L’équipe développe et maintient la solution SNCF Connect, mais aussi un large écosystème de services de mobilité. Aujourd’hui, le parc applicatif compte plus de 250 projets actifs.
L’entreprise aborde l’observabilité comme un produit à part entière, qui aide à comprendre le comportement des applications de manière autonome, optimisée et sécurisée. Cela signifie offrir une observabilité à l’état de l’art, au meilleur coût et dans un cadre sécurisé.
Une vision structurée autour de trois axes
La stratégie d’observabilité de SNCF Connect repose sur trois piliers :
- Unifier les outils et les processus : rationaliser pour mieux collaborer.
- Donner de l’autonomie aux équipes : rendre les projets responsables de leurs usages.
- Maîtriser les usages et les coûts : concilier performance et sobriété.
De la multiplicité à la cohérence : le choix de Datadog
Avant 2020, le paysage outillage était varié :
-
- Centreon pour l’infrastructure,
-
- Graphite pour les métriques,
-
- Elasticsearch/Kibana pour les logs,
-
- Instana, Datadog ou AWS X-Ray pour l’APM.
Avec la migration vers le cloud AWS, plusieurs scénarios ont été envisagés : lift & shift, full Datadog, full Instana ou full AWS.
Le choix s’est porté sur Datadog comme solution unique, pour sa capacité à couvrir tous les besoins d’observabilité dans un cadre homogène.
Une approche produit fondée sur le cycle “Évaluer – Agir – Mesurer”
Évaluer
Chaque nouveau projet passe par une séance d’onboarding :
- Estimation des ressources nécessaires (hosts, volumétrie de logs, APM…).
- Appui sur un historique d’usage pour des devis rapides et fiables.
- Transmission de bonnes pratiques (tagging, cardinalité, documentation, vidéos internes).
Agir
- Intégration automatique des projets avec quotas prédéfinis (prod/dev).
- Gestion via GitLab & Terraform : les équipes peuvent proposer des évolutions, validées deux fois par jour.
- Intégration AWS optimisée pour réduire les coûts CloudWatch.
- Attribution fine des rôles et droits selon les produits utilisés.
Mesurer
- Mise en place d’un tagging standardisé avec le champ costproject (hérité des pratiques FinOps AWS).
- Création d’une base de données interne Datadog pour suivre les usages et valoriser les coûts selon la grille tarifaire officielle.
- Reporting mensuel détaillé en KPUO (K€ par unité d’usage observée), par projet, avec historique et alerting automatique.
Des optimisations concrètes
Grâce à cette démarche, plusieurs optimisations ont été identifiées :
- Suppression de métriques trop lourdes causées par des tags trop discriminants.
- Tableaux de bord Power BI pour suivre les coûts par projet et période.
- Alignement complet des tags entre Datadog et AWS FinOps pour éviter les erreurs d’imputation.
Améliorations envisagées
L’équipe continue d’améliorer la granularité et l’automatisation de sa démarche :
- Descente du suivi au niveau du service.
- Intégration du Datadog Cost Management Alerting.
- Industrialisation de Vector pour filtrer les logs à la source.
- Développement d’API pour croiser coûts infra et observabilité.
Ce que l’on retient
Une présentation inspirante et très concrète qui démontre comment une grande organisation comme SNCF Connect réussit à allier observabilité, autonomie et maîtrise budgétaire.
Merci encore à Pierre-Yves et Nicolas pour leur partage d’expérience !