statsd on steroid

2016-05-15
阅读 4 分钟
3.4k
上报数据者直接是结果的受益者,并对其负责:因为上报数据的人直接是对最终的图表和监控负责的,他有最大的动机去选取合适的指标来帮助自己理解被监控的代码。这种模式可以避免“玩日志”的那帮人和那些平台出现。处理数据的人如果不负责被监控的业务,而上报数据的人不直接决定最终的图表,那么两方都做不好。

监控告警的同行们

2015-06-15
阅读 4 分钟
7k
signalfx (Metrics + Streaming Analytics + Interaction = Monitoring Evolved) [链接]

算法在ops中的应用场景

2015-04-21
阅读 2 分钟
3.4k
告警系统的误警和漏警如何计算?在线上运行的告警设置必然是会受到骚扰频次的限制。门限设得过高就可能会漏警。但是如果每天执行一次告警质量的检查算法,然后给出一堆疑似的漏警和误警,然后结合人工辅助可以更快地发现漏警和误警的情况。

不要小瞧了监控这件事

2014-11-06
阅读 2 分钟
490
这个世界上开源和收费的监控系统实在是太多了,而不是太少了。无论是传统的nagios,ganglia,还是所谓的云监控系统。它们的工作方式其实都差不多,安装一个agent,上报数据,然后花花绿绿的图表就显示在web界面上了。无论这些系统如何包装,前端写得多么漂亮,一看截图十有八九图例是“cpu1”,“cpu2”。cpu使用率,内存,...

使用算法检测异常 - 问题描述

2014-10-19
阅读 6 分钟
9.9k
背景 任何一个产生环境的IT系统如果要长久下去,必须对其进行监控告警。常见的实现分为三个部分 采集目标系统的指标,并上报到中央服务器 对指标按时间窗口进行统计,并存储成为曲线 对曲线进行异常检测,在必要的时候告警通知运维人员 在过去,对于第1、2两点我们已经积累非常多的文章和工具来谈论如何来实施一个“监控...