Blog de BE Networks

Les 5 meilleurs outils de télémétrie et d'observabilité pour soutenir les réseaux SONiC

TL;DR - Verity installe et exploite automatiquement tous les outils nécessaires pour vous donner une visibilité complète de vos réseaux SONiC.

Alors que les réseaux deviennent de plus en plus complexes et que la désagrégation continue de remodeler le paysage des centres de données, l'observabilité n'a jamais été aussi critique. SONiC (Software for Open Networking in the Cloud) s'est imposé comme un puissant NOS open-source pour les réseaux hyperscale et d'entreprise. Mais la flexibilité de SONiC s'accompagne d'un besoin d'outils robustes de télémétrie et d'observabilité. De l'inspection approfondie des paquets au streaming en temps réel, voici les 5 principaux outils que je recommande (et sur lesquels je m'appuie) lors du déploiement et de la gestion d'infrastructures basées sur SONiC.

1. gNMI/gNOI avec OpenConfig

SONiC soutient gNMI (interface de gestion de réseau gRPC)gNMI permet un flux de télémétrie structuré à l'aide de modèles OpenConfig. Il ne s'agit pas seulement d'un ancien SNMP 2.0 sur un tuyau moderne - gNMI vous permet de souscrire à des compteurs d'interface, à des sessions BGP et à des mesures de file d'attente en temps réel. Associé à gNOI pour des opérations telles que la rotation des certificats ou les mises à jour logicielles, cet ensemble d'outils est essentiel pour gérer les équipements SONiC de manière déclarative.

🔧 Pourquoi c'est important : Télémétrie haute performance sans polling. Le support natif de SONiC via les plugins gNMI permet une intégration transparente avec des lacs de données ou des plateformes comme InfluxDB et Prometheus.

2. Prometheus + Grafana

SONiC prend en charge l'exportation de la télémétrie vers Prometheus via gNMI ou même des exportateurs Prometheus natifs pour des métriques spécifiques. Prometheus récupère et stocke les données de séries temporelles, tandis que Grafana s'appuie dessus pour fournir des tableaux de bord en temps réel.

🎯 Cas d'utilisation : Vous pouvez visualiser l'occupation de la mémoire tampon, l'utilisation du processeur ou les taux de réussite des ACL par commutateur. Grafana permet de repérer facilement les anomalies, ce qui est idéal pour résoudre les problèmes de congestion ou de microréactivité.

🛠 Conseil de pro : Utilisez les fonctions de modélisation de Grafana pour créer des tableaux de bord dynamiques qui s'adaptent à une flotte de commutateurs SONiC.

3. Thanos ou VictoriaMetrics (stockage de données à long terme)

Prometheus est fantastique pour les données à court terme, mais l'extension de la télémétrie dans des environnements distribués implique de gérer le stockage à long terme et la fédération de requêtes multi-instances. C'est là que Thanos ou VictoriaMetrics entrent en jeu.

📦 Pourquoi les équipes SONiC s'en préoccupent : Lorsque vous avez besoin d'établir des corrélations entre les sauts BGP et les augmentations de trafic sur une période de 90 jours, Thanos vous offre ce backend persistant avec une évolutivité virtuellement illimitée.

4. sFlow et pmacct

SONiC supporte nativement sFlow, ce qui vous permet d'échantillonner des paquets au niveau de l'ASIC avec un impact minimal sur les performances. Des outils comme pmacct peut ingérer ces flux et fournir des analyses du trafic L2-L7.

📡 En pratique : Utile pour l'ingénierie du trafic, la planification des capacités et la surveillance de la sécurité. Combinez avec la pile ELK ou Kafka pour obtenir des informations plus approfondies.

🚀 Bonus : sFlow couplé à la télémétrie en bande (INT) du SONiC offre une visibilité à l'intérieur le tissu, et pas seulement sur le bord.

5. Analyse des journaux FRR et agrégateurs Syslog

SONiC utilise FRRouting (FRR) comme pile de routage. Bien que la télémétrie structurée soit idéale, il faut parfois se rabattre sur les journaux. Des outils comme rsyslog, Graylogou Pile élastique aide à agréger les journaux des appareils SONiC, ce qui vous permet d'obtenir des informations détaillées sur le comportement du plan de contrôle.

🧠 Pourquoi il est toujours d'actualité : Lorsque le protocole BGP se dérègle ou que le protocole LACP se comporte mal, les journaux sont souvent les premiers à en parler, en particulier lors des pannes de courant ou des transitions du plan de contrôle.

Dernières réflexions à l'intention des utilisateurs de SONiC

La télémétrie dans SONiC n'est pas seulement une case à cocher - c'est un élément fondamental du maintien de la fiabilité du service dans un réseau désagrégé et natif du nuage. Les outils ci-dessus constituent l'épine dorsale de la télémétrie dans tout déploiement SONiC sérieux. Utilisez-les en combinaison pour une visibilité maximale et un temps d'arrêt minimal.

Image de Josh Saul

Josh Saul

Vice-président du marketing produit

Josh Saul est un pionnier des solutions de réseau open source depuis plus de 25 ans. En tant qu'architecte, il a construit des réseaux centraux pour GE, Pfizer et NBC Universal. En tant qu'ingénieur chez Cisco, Josh a conseillé des clients dans le secteur financier du Fortune 100 et a évangélisé les nouvelles technologies auprès des clients. Plus récemment, Josh a dirigé des équipes de marketing et de produits chez VMware (racheté par Broadcom), Cumulus Networks (racheté par Nvidia) et Apstra (racheté par Juniper).

fr_FR
Nous contacter
Nous aimons beaucoup parler des réseaux !