更好的 IX 网络质量监测

主要观点:

  • 介绍了在大型互联网交换(IX)中,由于需要扩展带宽或避免生成环路等原因,常使用叠加网络,这给监控服务质量带来了复杂性。
  • 阐述了现有监控解决方案的不足,如 Automattic 的 Pingo 需基于策略路由,TWAMP 较复杂等。
  • 分享了为 LONdon Access Point(LONAP)设计的能检测每流高延迟和丢包的系统 ixp-xping,包括硬件选择、工作原理、警报和图表展示等。
  • 提及 Go 程序的垃圾回收对测量网络延迟的影响及应对方法,以及 Linux ARP 行为的注意事项。
  • 提供了 ixp-xping 的代码地址和 LONAP 的公共指标查看地址,欢迎交流合作。

关键信息:

  • 大型 IX LAN 常使用叠加网络,导致监控复杂。
  • ixp-xping 用便宜的 HPE 服务器,每个 PoP 一台,连接各交换机。
  • 程序通过发送 UDP“ping”包计算往返时间和丢包率。
  • 数据以 prometheus 指标形式导出,可用于警报和 Grafana 查看。
  • 注意 Go 程序的垃圾回收和 Linux ARP 行为。
  • 代码地址为[https://github.com/lonap/ixp-...],公共指标地址为[https://fabric-metrics.lonap....]。

重要细节:

  • 客户关心的 PoP 间连接在客户设备中以魔法方式相连。
  • ixp-xping 默认在每个 NIC 上分配 16 个 UDP 端口,每 250ms 发送一次包。
  • 可通过 prometheus 警报系统检测丢包,用 Grafana 查看延迟。
  • 调整 Linux 内核 sysctl 可解决 ARP 相关问题。
  • 作者有 10 多年 Go 语言经验,拒绝提供 C/C++或 Rust 代码。
阅读 13
0 条评论