Prezi 从 Prometheus 迁移到 VictoriaMetrics 的总结
主要观点
Prezi 的工程团队近期分享了他们从基于 Prometheus 的监控系统迁移到 VictoriaMetrics 的经验,重点在于成本优化、性能提升和架构简化。此次迁移使成本降低了约 30%,并将复杂查询的完成时间从 30 秒以上缩短至 3-7 秒。
背景
- 原有系统问题:截至 2024 年,Prezi 的 Prometheus 系统已过时且成本高昂,运行在一个需要大量资源维护的内部平台上。
- 目标:现代化指标收集和存储系统,减少复杂性,过渡到 Kubernetes,并降低运营成本。
挑战
- 高资源需求:系统规模庞大(500 万活跃序列)。
- 管理复杂性:需要管理多个实例以支持仪表板和告警。
- 依赖遗留基础设施:增加了维护难度。
解决方案探索
- 评估选项:考虑了托管和自托管解决方案。
- 选择 VictoriaMetrics:因其简单性、成本效益和性能优势而被选中。
VictoriaMetrics 的优势
- 存储方式:使用块存储而非对象存储(如 AWS S3),成本更低且性能更优。
- 性能提升:查询时间显著缩短,存储、内存和 CPU 使用率大幅下降。
架构调整
- 初期部署:在多个 AWS 可用区(AZ)部署集群版本以确保持续可用性,但成本增加。
- 优化方案:改为在两个不同 AZ 部署两个独立的 VictoriaMetrics Single 实例,引入负载均衡器以实现故障转移冗余。
进一步优化
- 长期存储:部署另一个 VictoriaMetrics Single 实例,定制保留设置以避免额外成本。
- 配置管理:采用 VictoriaMetrics Kubernetes Operator,简化配置管理。
- 非 Kubernetes 工作负载:部署额外的静态配置代理。
- Grafana 整合:使用 Grafana Private Data Connect 整合自托管指标与 Grafana Cloud。
社区讨论
- Hacker News:讨论了云计算中高跨区数据传输成本的权衡。
- Reddit:讨论了监控系统设计的权衡,特别是远程写入系统的延迟和依赖性。
迁移结果
- 成本与性能:成本降低 30%,查询时间显著缩短。
- 可访问性:通过 Kubernetes 原生工具更容易访问指标。
- 可扩展性与可靠性:新系统更好地支持未来增长,提高了可扩展性和可靠性。
结论
Prezi 的迁移案例展示了通过选择合适的技术和优化架构,可以在降低成本的同时显著提升系统性能和可维护性。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。