关于Nagios的辩论总结
在最近的伦敦DevOps聚会上,Andy Sykes发起了一场关于是否应该用更好的解决方案取代Nagios的辩论。Nagios是一款知名的监控和告警服务应用。
Andy Sykes的观点
优点:
- Nagios具有简单的插件模型、概念简单且可靠。
缺点:
- 扩展性差:不支持任何形式的集群。
- 配置复杂:Nagios服务器和客户端之间存在大量重复配置。
- 缺乏API:系统集成和自定义仪表板创建困难。
- 不适合云环境:在弹性云环境中,需要手动告知主服务器新客户端的存在。
建议的替代方案:
- 监控:Sensu
- 图表:Graphite
- 告警:Flapjack
- 异常检测和用户界面:目前没有满意的解决方案。
Laurie Denness的反驳
Laurie Denness代表Etsy公司,解释了为什么他们将继续使用Nagios。
扩展性优化:
- Etsy在主要数据中心有10,000个检查,所有检查都处于活动状态,通常在2-3分钟的检查间隔内,部分在30秒内。
- 启用了
use_large_installation_tweaks
标志以减少延迟。 - 禁用了HP和Dell服务器上的CPU动态缩放设置,因为Nagios与这些服务器的电源管理算法不兼容。
- 使用两个数据中心时,每个数据中心都有一个Nagios实例,并使用Nagdash聚合状态和报告。
配置自动化:
- 认为手动处理Nagios配置文件可能是错误的做法,可以通过自动化简化配置。
- 使用第三方项目
nagios-api
,通过REST-like JSON接口自动化Nagios。
Unix哲学:
- 认为Nagios符合Unix哲学,即“许多小部分,每个应用程序做一件特定的事情,通过管道连接”。
- Nagios拥有强大的生态系统,这是一个显著优势。
Theo Schlossnagle的评论
Theo Schlossnagle支持“Nagios不足”的观点:
- 认为从操作角度来看,需要从系统中读取遥测数据并提供深入的行为洞察,这需要对收集的数据进行分析。
- Nagios及其类似产品无法满足这种需求。
总结
这场辩论围绕Nagios的优缺点展开,Andy Sykes认为Nagios在扩展性、配置复杂性和云环境适应性方面存在显著问题,并提出了替代方案。而Laurie Denness则认为通过优化和自动化,Nagios仍然是一个有效的工具,并强调了其生态系统的重要性。Theo Schlossnagle则从数据分析的角度指出Nagios的局限性。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。