随着互联网行业的高速发展,企业 IT 应用环境日趋复杂。几分钟的故障就会严重到用户体验,那么如何有效降低IT故障带来的影响呢?权威数据表明,86%的企业认为建立有效的监控系统和告警系统、提升 IT 的可见性是最佳的方式。

9月1日,国内第一个 SaaS 模式的云告警平台 OneAlert 宣布上线,该平台集成了国内外多种主流的监控和支撑系统,实现一个平台上集中处理所有 IT 事件,从真正意义上提升了 IT 可靠性。OneAlert 是国内应用性能管理领军企业 OneAPM 旗下的产品。

OneAlert:告警通知必达

研发背景

其实,在 IT 运维支撑工作中,大多同学都使用了 Zabbix、Nagios 等开源监控工具或者是其他监控工具,他们经常面临着如何配置提醒通知的问题。

  • 邮件通知,各工具配置都比较复杂,自建的邮件服务器还可能不太靠谱,而且邮件通知太慢了,主要是邮件客户端的接收延迟。

  • 短信通知,复杂度太高,对接运营商短信网关,或者是使用短信猫方式,都需要开发配合。使用短信猫还面临在机房里面信号极其不稳定的问题。

  • 其他??想想而已~

OneAlert 是如何解决该问题的呢?在这之前,我们先说一个典故:

典故

1815年6月18日的滑铁卢战役,是拿破仑和威灵顿两国军队之间的生死交锋,一旦英国取胜,英国公债必然迅猛增长。拿破仑军队在傍晚时分败局已定,罗斯柴尔德法国家族收到现场情报反馈后,第一时间将法军战败的消息抄写6份,6位信使同时从不同路线发送至英国,英国的罗斯柴尔德掌权人内森第一时间获知,比威灵顿将军信使还要早好几个小时。内森先大幅抛售英国公债,造成市场极度恐慌,之后内森悄悄低吸。当第二天滑铁卢大捷消息发布后,伦敦证券交易所,英国公债一路飙升,罗斯柴尔德一举赚进2.3亿英镑(相当于现在500亿美元)!

OneAlert 解决方案

该典故与监控与告警通知场景如此相似:

  • 多渠道:6位信使不同路线。能不能使用更多的渠道,解决邮件或者短信单个路径不靠谱的问题?

  • 及时:告警事件消息通知要及时,否则还不如等终端用户投诉电话。

  • 通知到位:如果典故里面的消息仅通知到罗斯柴尔德英国家族的门卫同学,那么结果可想而知。同样道理,如果当时负责运维支撑的同学A在睡觉,而没有其他同学收到通知,前面的工作都白费了。

OneAlert 是如何解决该问题的呢?下表列出了几个关键点:

图表

OneAlert 优势

从上表看出,OneAlert 通过6个渠道(6个信使)通过多个运营商/服务商(不同线路)通知到位(升级)。OneAlert 在多个方面进行了优化:

OneAlert:国内第一个 SaaS 模式的云告警平台

  • 部署简单:传统的 Zabbix 或者 Nagios 等监控工具需要复杂配置,而 OneAlert 仅需要5-10分钟即可以完成配置。

  • 更易用:微信已成为我们日常生活和工作标配,OneAlert 让告警事件在拇指尖就可以完成确认处理;优化的新版 APP 也将即将发布。

  • 更可靠:OneAlert 采用不同的运营商和服务商进行信息推送,总有一种渠道通知到位,避免自建邮件服务器或短信猫的单一链路故障问题。

  • 分层通知模式:个人可以设置几种渠道的通知方法,如告警发生后即刻微信/邮件/APP 通知,1分钟后告警无响应,则电话通知。基本上哪怕是大半夜在睡觉,也可以叫醒。如果手机停机?没问题,自动升级提醒其他同学,直到有人响应告警为止。

  • 集成多数主流的监控工具:目前已经支持国内外主流10多种工具告警接入,包括阿里云、腾讯云、VMWare 等云平台,以及 OneAPM、监控宝、Solarwinds、Zabbix、Nagios 等监控工具,而且新的工具还在不断补充中。

多渠道通知

通知到位

作为国内首家云告警平台,OneAlert 与传统的监控方式相比,更便捷、更可靠、更可信赖。据了解,OneAlert 不仅提供事件处理生命周期管理,还提供事件解决后的分析回顾功能,发现事件的趋势,最终帮助企业建立以数据指标驱动的团队文化,预防和持续优化。

我们相信,在「互联网 +」的大潮下,OneAlert 将与运营支撑同学一起,让 IT 业务更稳健可靠,帮助企业有效降低 IT 故障,保证良好的用户体验。

本文系 OneAPM 工程师编译整理。想阅读更多技术文章,请访问 OneAPM 官方博客


OneAPM蓝海讯通
11.4k 声望510 粉丝

Software makes the world run. OneAPM makes the software run.