2016运维团队所需解决方案的5个关键因素

现在 SaaS 的发展势头已经无法抵挡，只要持有企业信用卡，任何人都可以顺利部署 SaaS 工具，并借助 API，在短短几分钟内连接其他重要应用。并且开发者掌握了许多自动化快捷处理方式——比如说 Application Insight 应用部署和 Mobile Insight 移动应用测试——这极大地节省了推出新应用程序的时间。然而，很多管理应用程序和基础设施的旧方法以及无法跟上 SaaS 发展的步伐。

因此，企业转而采用各种专业监管工具——比如 Nagios 、 Zabbix 、 Solarwinds 和 AWS CloudWatch —— 旨在获取对堆栈不同层次的深刻认识。遗憾的是，这些工具难以实现交互的工作方式。各种监管工具的告警便层出不穷，数量之大，几乎让你分不清信号和噪音。

如何在噪音中准确寻获信号？

对于运维团队来说，只是单纯的获取告警其实是远远不够的，因为我们得到了太多的告警。事实上，源源不断的告警只会培养运维团队无视告警的能力（无法否认这是事实！）。当噪音很大时，你容易将不常见的信号也当成噪音。这可不是好事。

因此，运维团队需要智能的整体解决方案和可操作数据的解决方案，这样不仅能自动处理超出人工可处理范围的任务，还能在收到可操作告警后知道该如何处理。

2016运维团队所需解决方案的5个关键因素

为实现以上功能，结合告警平台的已上线的功能，以国外的 BigPanda 和国内的 OneAlert 为例，整合了运维团队需要的解决方案应该包括的 5 个关键因素：

时间。运维团队需要掌握实时动态。比起容易过时的快照，运维团队需要轻松地掌握实时动态。但是，快照的优势在于能够让你比较今天和昨天甚至是前一周的数据，OneAlert 最多可提供 1 年的存储数据服务。
告警等级。如果你识别不了哪一个告警是最重要的，你就不知道轻重缓急。一般分为严重、警告、提醒三个等级。
告警类型。针对告警目标和内容的关联度及事后影响，了解告警发出的真正原因，从而确定告警类型。
自动化和集成。当我们无法解决告警的时候（可能是不擅长处理该类问题，还可能是没有时间处理！），我们可以在集成的工单系统中提交工单，对一些简单的可自动化处理的问题，可以直接自动化处理，如重启服务器等。OneAlert 非常重视相关模块的开发。
剖析大蓝图。今天的 IT 基础设施并不存在任何孤岛。一个应用的告警是其他应用出现问题的信号。运维团队需要了解每一个 IT 难题怎样串联在一起，又是如何相互影响的。剖析大蓝图必不可少。

综合以上 5 个因素，可以总结出提高运维团队维稳效率的 2 个关键因素：时间洞察力和补救时间。

二者之中，时间洞察力更为重要，这个过程耗时越长，企业宕机时间的成本就越高，生产力损失就越大。你有足够的信心去洞察吗？你知道如何才能解决问题吗？原有的监控工具忽略了补救时间的重要性。但是，请记住，如果我们无法衡量它，我们就无法改善它。因此，不断改进是运维团队紧跟时代步伐的唯一方式。

OneAlert 是北京蓝海讯通科技有限公司旗下产品，中国首个 SaaS 模式的云告警平台，集成国内外主流监控/支撑系统，实现一个平台上集中处理所有IT事件，提升IT可靠性。想了解更多信息，请访问 OneAlert 官网。

本文转自 OneAPM 官方博客

2016运维团队所需解决方案的5个关键因素

如何在噪音中准确寻获信号？

OneAPM蓝海讯通

引用和评论

Cloud Alert 实现告警智能降噪，成功规避告警风暴

夜莺监控巨大革新：抽象出通知规则，增强告警通知的灵活性

夜莺监控 v8.0 新版通知规则 | 对接钉钉告警

夜莺监控 v8.0 新版通知规则 | 对接企微告警

观测云多步拨测最佳实践

夜莺监控 v8.0 新版通知规则 | 对接飞书告警

夜莺监控新版，中心端连不通的时序库也可以告警了