Prezi从Prometheus到VictoriaMetrics的旅程

发布于 2025-02-11

Prezi 从 Prometheus 迁移到 VictoriaMetrics 的总结

主要观点

Prezi 的工程团队近期分享了他们从基于 Prometheus 的监控系统迁移到 VictoriaMetrics 的经验，重点在于成本优化、性能提升和架构简化。此次迁移使成本降低了约 30%，并将复杂查询的完成时间从 30 秒以上缩短至 3-7 秒。

背景

原有系统问题：截至 2024 年，Prezi 的 Prometheus 系统已过时且成本高昂，运行在一个需要大量资源维护的内部平台上。
目标：现代化指标收集和存储系统，减少复杂性，过渡到 Kubernetes，并降低运营成本。

挑战

高资源需求：系统规模庞大（500 万活跃序列）。
管理复杂性：需要管理多个实例以支持仪表板和告警。
依赖遗留基础设施：增加了维护难度。

解决方案探索

评估选项：考虑了托管和自托管解决方案。
选择 VictoriaMetrics：因其简单性、成本效益和性能优势而被选中。

VictoriaMetrics 的优势

存储方式：使用块存储而非对象存储（如 AWS S3），成本更低且性能更优。
性能提升：查询时间显著缩短，存储、内存和 CPU 使用率大幅下降。

架构调整

初期部署：在多个 AWS 可用区（AZ）部署集群版本以确保持续可用性，但成本增加。
优化方案：改为在两个不同 AZ 部署两个独立的 VictoriaMetrics Single 实例，引入负载均衡器以实现故障转移冗余。

进一步优化

长期存储：部署另一个 VictoriaMetrics Single 实例，定制保留设置以避免额外成本。
配置管理：采用 VictoriaMetrics Kubernetes Operator，简化配置管理。
非 Kubernetes 工作负载：部署额外的静态配置代理。
Grafana 整合：使用 Grafana Private Data Connect 整合自托管指标与 Grafana Cloud。

社区讨论

Hacker News：讨论了云计算中高跨区数据传输成本的权衡。
Reddit：讨论了监控系统设计的权衡，特别是远程写入系统的延迟和依赖性。

迁移结果

成本与性能：成本降低 30%，查询时间显著缩短。
可访问性：通过 Kubernetes 原生工具更容易访问指标。
可扩展性与可靠性：新系统更好地支持未来增长，提高了可扩展性和可靠性。

结论

Prezi 的迁移案例展示了通过选择合适的技术和优化架构，可以在降低成本的同时显著提升系统性能和可维护性。

Prezi's Journey from Prometheus to VictoriaMetrics

https://www.infoq.com/news/2025/02/prezi-prometheus-victoriametrics/

阅读 48

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。