如何提前感知并预防告警的发生,实现告警治理的主动化?

新手上路,请多包涵

最近在做告警治理工作;但是如何在告警发生之前提前感知告警?

增加了一些容量巡检

阅读 2k
3 个回答

降低预警值,本来占用达到80告警,现在75就告警🤭

这是一个在有些场景下矛盾的问题. 对于事后告警的场景, 不告警根本不可能感知到问题. 你的问题应该可以明细成两种场景.
1:对于事后告警, 如何无限逼近事发时间点告警;
2:对于崩溃的型的问题场景, 如何设定合理的阈值, 做到有效告警.

对于1场景, 根据业务情况, 调整阈值和采样以及告警的周期. 做好各类告警函数(量/成功率/各类指标的同时间的同比)
对于2场景, 正确识别需要提前预警的场景, 根据经验不断调整阈值

你的问题没有理清,我大概想的到,你本质上是想规避一些应用对容量或资源的异常上涨导致的问题?
那么假设确实是这个问题,你们需要关注的有以下几个点:

  1. 你们有没有办法获取到他们本次上线投产对容量或资源的需求有什么变动?
  2. 你们有没有办法记录并获取他们历史的容量或资源的变化情况?

如果上面两个问题你们能解决,是不是对于你的问题就迎刃而解了?

推荐问题
logo
项目管理
子站问答
访问
宣传栏