主要观点:
- 介绍了在大型互联网交换(IX)中,由于需要扩展带宽或避免生成环路等原因,常使用叠加网络,这给监控服务质量带来了复杂性。
- 阐述了现有监控解决方案的不足,如 Automattic 的 Pingo 需基于策略路由,TWAMP 较复杂等。
- 分享了为 LONdon Access Point(LONAP)设计的能检测每流高延迟和丢包的系统 ixp-xping,包括硬件选择、工作原理、警报和图表展示等。
- 提及 Go 程序的垃圾回收对测量网络延迟的影响及应对方法,以及 Linux ARP 行为的注意事项。
- 提供了 ixp-xping 的代码地址和 LONAP 的公共指标查看地址,欢迎交流合作。
关键信息:
- 大型 IX LAN 常使用叠加网络,导致监控复杂。
- ixp-xping 用便宜的 HPE 服务器,每个 PoP 一台,连接各交换机。
- 程序通过发送 UDP“ping”包计算往返时间和丢包率。
- 数据以 prometheus 指标形式导出,可用于警报和 Grafana 查看。
- 注意 Go 程序的垃圾回收和 Linux ARP 行为。
- 代码地址为[https://github.com/lonap/ixp-...],公共指标地址为[https://fabric-metrics.lonap....]。
重要细节:
- 客户关心的 PoP 间连接在客户设备中以魔法方式相连。
- ixp-xping 默认在每个 NIC 上分配 16 个 UDP 端口,每 250ms 发送一次包。
- 可通过 prometheus 警报系统检测丢包,用 Grafana 查看延迟。
- 调整 Linux 内核 sysctl 可解决 ARP 相关问题。
- 作者有 10 多年 Go 语言经验,拒绝提供 C/C++或 Rust 代码。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。