更好的 IX 网络质量监测 - SegmentFault 思否

更好的 IX 网络质量监测

发布于 2025-07-24

主要观点：

介绍了在大型互联网交换（IX）中，由于需要扩展带宽或避免生成环路等原因，常使用叠加网络，这给监控服务质量带来了复杂性。
阐述了现有监控解决方案的不足，如 Automattic 的 Pingo 需基于策略路由，TWAMP 较复杂等。
分享了为 LONdon Access Point（LONAP）设计的能检测每流高延迟和丢包的系统 ixp-xping，包括硬件选择、工作原理、警报和图表展示等。
提及 Go 程序的垃圾回收对测量网络延迟的影响及应对方法，以及 Linux ARP 行为的注意事项。
提供了 ixp-xping 的代码地址和 LONAP 的公共指标查看地址，欢迎交流合作。

关键信息：

大型 IX LAN 常使用叠加网络，导致监控复杂。
ixp-xping 用便宜的 HPE 服务器，每个 PoP 一台，连接各交换机。
程序通过发送 UDP“ping”包计算往返时间和丢包率。
数据以 prometheus 指标形式导出，可用于警报和 Grafana 查看。
注意 Go 程序的垃圾回收和 Linux ARP 行为。
代码地址为[https://github.com/lonap/ixp-...]，公共指标地址为[https://fabric-metrics.lonap....]。

重要细节：

客户关心的 PoP 间连接在客户设备中以魔法方式相连。
ixp-xping 默认在每个 NIC 上分配 16 个 UDP 端口，每 250ms 发送一次包。
可通过 prometheus 警报系统检测丢包，用 Grafana 查看延迟。
调整 Linux 内核 sysctl 可解决 ARP 相关问题。
作者有 10 多年 Go 语言经验，拒绝提供 C/C++或 Rust 代码。

Better IX network quality monitoring

https://blog.benjojo.co.uk/post/ixp-xping-better-ix-monitoring

阅读 52

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。