验尸 - 影响 OpenStreetMap.org 的网络中断

这是一份关于 OpenStreetMap 网络中断事件的报告,包含以下主要内容:

  • 主要信息:2024 年 12 月 15 日 03:53 至 18 日 00:29,OpenStreetMap 遭遇网络中断,主要网站和 API 离线,15 日 11:31 启用只读备份,17 日 12:21 恢复地图编辑,18 日 00:29 HE.net 恢复服务。
  • 关键事件:12 月 15 日 HE.net 阿姆斯特丹路由设备故障导致网络中断,监控工具立即检测并报告,随后与 HE.net 沟通但未获确切恢复时间,15 日 11:31 启用只读备份,16 日准备应急全故障转移程序但决定等待阿姆斯特丹连接恢复,17 日 12:21 通过新的 Equinix 互联网链路恢复部分功能,18 日 00:29 HE.net 服务恢复。
  • 影响范围:主网站和 API 离线,只读备份期间无法编辑,OAuth 服务故障导致登录受限,部分阿姆斯特丹主机服务不可用,瓦片渲染和 Nominatim 地理编码服务容量降低。
  • 根本原因:HE.net 阿姆斯特丹路由设备故障为单点故障,缺乏备用 ISP,设备更换延迟,无法完全切换到备用站点。
  • 解决和缓解措施:部署都柏林只读备份实例,17 日启用新的 Equinix ISP 链路,计划过渡到多 ISP 架构,改善带外连接。
  • 经验教训:重视单点故障和冗余,确保带外访问可靠,做好备份和故障转移准备,与供应商沟通并增强监控,改进 OpenStreetMap 认证。
  • 后续行动:调查备用 ISP 选项,增强监控套件,制定正式的故障转移测试计划,审查 ISP SLA,改善带外访问,记录中断通信程序,研究只读数据库时的认证问题。
  • 结论:强调网络冗余和供应商可靠性的重要性,通过采取一系列措施加强 OpenStreetMap.org 抵御类似中断的能力。
  • 致谢:感谢 Equinix 团队、运营团队及其他提供支持和帮助的人员。报告由 Grant Slater 于 2025 年 2 月 15 日准备。
阅读 9
0 条评论