关于Nagios适用性的讨论

关于Nagios的辩论总结

在最近的伦敦DevOps聚会上,Andy Sykes发起了一场关于是否应该用更好的解决方案取代Nagios的辩论。Nagios是一款知名的监控和告警服务应用。

Andy Sykes的观点

优点:

  • Nagios具有简单的插件模型、概念简单且可靠。

缺点:

  1. 扩展性差:不支持任何形式的集群。
  2. 配置复杂:Nagios服务器和客户端之间存在大量重复配置。
  3. 缺乏API:系统集成和自定义仪表板创建困难。
  4. 不适合云环境:在弹性云环境中,需要手动告知主服务器新客户端的存在。

建议的替代方案:

  • 监控:Sensu
  • 图表:Graphite
  • 告警:Flapjack
  • 异常检测和用户界面:目前没有满意的解决方案。

Laurie Denness的反驳

Laurie Denness代表Etsy公司,解释了为什么他们将继续使用Nagios。

扩展性优化:

  • Etsy在主要数据中心有10,000个检查,所有检查都处于活动状态,通常在2-3分钟的检查间隔内,部分在30秒内。
  • 启用了use_large_installation_tweaks标志以减少延迟。
  • 禁用了HP和Dell服务器上的CPU动态缩放设置,因为Nagios与这些服务器的电源管理算法不兼容。
  • 使用两个数据中心时,每个数据中心都有一个Nagios实例,并使用Nagdash聚合状态和报告。

配置自动化:

  • 认为手动处理Nagios配置文件可能是错误的做法,可以通过自动化简化配置。
  • 使用第三方项目nagios-api,通过REST-like JSON接口自动化Nagios。

Unix哲学:

  • 认为Nagios符合Unix哲学,即“许多小部分,每个应用程序做一件特定的事情,通过管道连接”。
  • Nagios拥有强大的生态系统,这是一个显著优势。

Theo Schlossnagle的评论

Theo Schlossnagle支持“Nagios不足”的观点:

  • 认为从操作角度来看,需要从系统中读取遥测数据并提供深入的行为洞察,这需要对收集的数据进行分析。
  • Nagios及其类似产品无法满足这种需求。

总结

这场辩论围绕Nagios的优缺点展开,Andy Sykes认为Nagios在扩展性、配置复杂性和云环境适应性方面存在显著问题,并提出了替代方案。而Laurie Denness则认为通过优化和自动化,Nagios仍然是一个有效的工具,并强调了其生态系统的重要性。Theo Schlossnagle则从数据分析的角度指出Nagios的局限性。

阅读 12
0 条评论