Las 5 mejores herramientas de telemetría y observabilidad para redes SONiC
TL;DR - Verity instala y opera automáticamente todas las herramientas necesarias para ofrecerle una visibilidad completa de sus redes SONiC
A medida que las redes crecen en complejidad y la desagregación sigue remodelando el panorama de los centros de datos, la observabilidad nunca ha sido más crítica. SONiC (Software for Open Networking in the Cloud) ha surgido como un potente NOS de código abierto para redes de hiperescala y empresariales por igual. Pero la flexibilidad de SONiC conlleva la necesidad de herramientas sólidas de telemetría y observabilidad. Desde la inspección profunda de paquetes hasta el streaming en tiempo real, estas son las 5 herramientas principales que recomiendo (y en las que confío) a la hora de desplegar y gestionar infraestructuras basadas en SONiC.
1. gNMI/gNOI con OpenConfig
SONiC es compatible con gNMI (interfaz de gestión de red gRPC)que permite la transmisión de telemetría estructurada mediante modelos OpenConfig. No se trata sólo de SNMP 2.0 heredado sobre una tubería moderna: gNMI permite suscribirse a contadores de interfaz, sesiones BGP y métricas de cola en tiempo real. Junto con gNOI para operaciones como la rotación de certificados o las actualizaciones de software, este conjunto de herramientas es esencial para gestionar los dispositivos SONiC de forma declarativa.
🔧 Por qué es importante: Telemetría de alto rendimiento sin sondeo. La compatibilidad nativa con SONiC a través de plugins gNMI permite una integración perfecta con lagos de datos o plataformas como InfluxDB y Prometheus.
2. Prometheus + Grafana
SONiC admite la exportación de telemetría a Prometheus a través de gNMI o incluso exportadores nativos de Prometheus para métricas específicas. Prometheus extrae y almacena datos de series temporales, mientras que Grafana se sitúa encima para ofrecer paneles de control en tiempo real.
🎯 Caso práctico: Puede visualizar la ocupación del búfer, el uso de la CPU o los índices de aciertos de ACL por conmutador. Grafana facilita la detección de anomalías, lo que resulta ideal para solucionar problemas de congestión o microrráfagas.
🛠 Consejo profesional: Utilice las funciones de plantillas de Grafana para crear cuadros de mando dinámicos que se adapten a una flota de conmutadores SONiC.
3. Thanos o VictoriaMetrics (almacenamiento de métricas a largo plazo)
Aunque Prometheus es fantástico para los datos a corto plazo, escalar la telemetría en entornos distribuidos significa gestionar el almacenamiento a largo plazo y la federación de consultas multiinstancia. Ahí es donde entran en juego Thanos o VictoriaMetrics.
📦 Por qué se preocupan los equipos SONiC: Cuando necesite correlacionar los flaps de BGP con los picos de tráfico durante un periodo de 90 días, Thanos le ofrece ese backend persistente con una escalabilidad prácticamente ilimitada.
4. sFlow y pmacct
SONiC admite sFlow de forma nativa, lo que permite muestrear paquetes a nivel de ASIC con un impacto mínimo en el rendimiento. Herramientas como pmacct puede ingerir estos flujos, proporcionando análisis de tráfico L2-L7.
📡 En la práctica: Útil para la ingeniería de tráfico, la planificación de la capacidad y la supervisión de la seguridad. Combínalo con la pila ELK o Kafka para obtener información más detallada.
🚀 Bonificación: sFlow junto con la telemetría en banda (INT) de SONiC proporciona visibilidad en la tela, no sólo en el borde.
5. FRR Log Parsing y agregadores Syslog
SONiC utiliza FRRouting (FRR) como pila de enrutamiento. Aunque la telemetría estructurada es ideal, a veces es necesario recurrir a los registros. Herramientas como rsyslog, Graylogo Pila elástica ayudan a agregar los registros de los dispositivos SONiC, proporcionándole información detallada sobre el comportamiento del plano de control.
🧠 Por qué sigue siendo relevante: Cuando BGP se desvía o LACP se comporta mal, los registros suelen ser los primeros en contarlo, especialmente durante las caídas de tensión o las transiciones del plano de control.
Reflexiones finales para los usuarios de SONiC
La telemetría en SONiC no es sólo una casilla de verificación: es una parte fundamental para mantener la fiabilidad del servicio en una red desagregada y nativa de la nube. Las herramientas anteriores forman la columna vertebral de telemetría de cualquier despliegue serio de SONiC. Utilícelas combinadas para obtener la máxima visibilidad y el mínimo tiempo de inactividad.
Josh Saul
VP de Marketing de Producto
Josh Saul has pioneered open source network solutions for more than 25 years. As an architect, he built core networks for GE, Pfizer and NBC Universal. As an engineer at Cisco, Josh advised customers in the Fortune 100 financial sector and evangelized new technologies to customers. More recently, Josh led marketing and product teams at VMware (acquired by Broadcom), Cumulus Networks (acquired by NVIDIA), and Apstra (acquired by Juniper).