Prezi从Prometheus到VictoriaMetrics的旅程

Prezi 从 Prometheus 迁移到 VictoriaMetrics 的总结

主要观点

Prezi 的工程团队近期分享了他们从基于 Prometheus 的监控系统迁移到 VictoriaMetrics 的经验,重点在于成本优化、性能提升和架构简化。此次迁移使成本降低了约 30%,并将复杂查询的完成时间从 30 秒以上缩短至 3-7 秒。

背景

  • 原有系统问题:截至 2024 年,Prezi 的 Prometheus 系统已过时且成本高昂,运行在一个需要大量资源维护的内部平台上。
  • 目标:现代化指标收集和存储系统,减少复杂性,过渡到 Kubernetes,并降低运营成本。

挑战

  • 高资源需求:系统规模庞大(500 万活跃序列)。
  • 管理复杂性:需要管理多个实例以支持仪表板和告警。
  • 依赖遗留基础设施:增加了维护难度。

解决方案探索

  • 评估选项:考虑了托管和自托管解决方案。
  • 选择 VictoriaMetrics:因其简单性、成本效益和性能优势而被选中。

VictoriaMetrics 的优势

  • 存储方式:使用块存储而非对象存储(如 AWS S3),成本更低且性能更优。
  • 性能提升:查询时间显著缩短,存储、内存和 CPU 使用率大幅下降。

架构调整

  • 初期部署:在多个 AWS 可用区(AZ)部署集群版本以确保持续可用性,但成本增加。
  • 优化方案:改为在两个不同 AZ 部署两个独立的 VictoriaMetrics Single 实例,引入负载均衡器以实现故障转移冗余。

进一步优化

  • 长期存储:部署另一个 VictoriaMetrics Single 实例,定制保留设置以避免额外成本。
  • 配置管理:采用 VictoriaMetrics Kubernetes Operator,简化配置管理。
  • 非 Kubernetes 工作负载:部署额外的静态配置代理。
  • Grafana 整合:使用 Grafana Private Data Connect 整合自托管指标与 Grafana Cloud。

社区讨论

  • Hacker News:讨论了云计算中高跨区数据传输成本的权衡。
  • Reddit:讨论了监控系统设计的权衡,特别是远程写入系统的延迟和依赖性。

迁移结果

  • 成本与性能:成本降低 30%,查询时间显著缩短。
  • 可访问性:通过 Kubernetes 原生工具更容易访问指标。
  • 可扩展性与可靠性:新系统更好地支持未来增长,提高了可扩展性和可靠性。

结论

Prezi 的迁移案例展示了通过选择合适的技术和优化架构,可以在降低成本的同时显著提升系统性能和可维护性。

阅读 6 (UV 6)
0 条评论