头图

4月21日,博睿数据ONE有引力2023春季产品发布会圆满落幕,Bonree ONE 2023春季正式版正式发布,带来更轻、更强、更智能的一体化智能可观测平台。
图片

自适应AI,让Bonree ONE更智能

本文作者

博睿数据AI产品经理 马倩
全文共1835字,阅读大约需10分钟。

在企业业务最前沿的终端用户侧,实时监控端上应用产生的海量级业务请求、CDN请求、第三方请求,即时发现从端上应用到后台服务之间的响应缓慢、DNS解析失败、TCP建连失败、HTTP404等性能问题,并根据实际数据迅速甄别其问题根源是运营商网络抖动等外部环境原因,还是自身后台服务异常等内部原因,从而有效降低问题定位时间,缩短整体排障修复周期,有力保障业务服务达到SLA要求的延时、可用性等标准,帮助企业建立更灵敏、更精准、更智能的运维工作体系。

平台采集各形态数据进入数据中台,经过汇聚、落盘、加工,暴露 API 提供给上层 AI 中台和产品使用,AI 中台利用开箱即用算法和 DIY 算法赋能运维产品,达成98%+的智能告警收敛率,同时自适应AI系统使用实时反馈动态学习和调整,随客户需求应用到各业务场景中。
图片

告警收敛 - 98%+的智能告警收敛率

在完成数据接入、标准化之后,将自动开启事件降噪,把多源数据归流于具有相同数据特征集的告警中。通过对海量杂乱事件降噪成告警,识别出告警与告警之间的关联性,自定义创建相应的收敛规则,根据相应的收敛规则以及智能AI时序收敛规则,进一步将告警收敛成故障。最终实现对海量异常事件的归并处理,形成故障,避免告警风暴,已达成98%+的智能告警收敛率,极大程度降低整体运维成本。

用户价值
1.解决告警风暴:面对复杂繁复的告警信息,可以自定义创建多个告警收敛规则,通过收敛规则,压缩告警,生成故障,避免告警风暴。
2.告警漏报:在传统运维体系中,往往采用固定阈值的检测方式进行告警,无法自动适应数据特征变化,导致告警误报、漏报。

Bonree ONE提供智能异常检测的能力,通过智能化的算法,生成指标的动态基线,自适应数据特征变化,同时提供告警标签收敛、AI收敛,减少告警的漏报率。

难点:如何准确收敛?

在数据接入后,面对海量杂乱事件,通过引入自研的AI算法,灵活的告警策略设置,实现对告警指标的多维度异常判定,及时、准确的发现监控对象、业务等的异常,已经很大程度上压缩告警,并减少告警的漏报。那么在此基础上,我们如何更准确收敛?

思考告警收敛有3种方式:根因收敛、标签收敛、AI收敛(包括相似收敛、时域收敛)。
1、根因收敛:根因收敛中,我们认为相同根因的应该收敛到一块,收敛的本质是相关性分析。当有一个新的问题事件生成时,开始创建问题树,同时在拓扑关系中定位到此问题事件所属的实体关系,再有新的问题事件进入时,根据以上规则判断,符合根因收敛相关性即可收敛到此问题树中。如下图:
图片
2、标签收敛:对标签进行相同、AI相似筛选,如果切换为“相同”,根据相同标签收敛告警 ;如果切换为“AI相似”,需要在右侧输入框内仅支持输入0-100的整数。占位符提示:请输入0-100的整数,当相似度高于当前设置百分比时,则进行收敛。如下图:
图片
3、AI收敛(相似收敛、时域收敛)相似收敛:分词相似度达到一定值(可配置),收敛为一个问题。
图片
时域收敛:时间的相关性(时间上的相交和包含关系),且事件相关字段有重合。
图片
以上3种方法,我们建议优先使用根因收敛。根因收敛不仅提供了AI算法策略,还可以通过根因定位还原问题发生的详细信息,全面详尽的现场还原,是提高故障处理效率的关键。

根因分析 -自适应AI落地实践之根因深度分析

基于故障发生的时间、故障类型和故障主体,通过服务、应用和静态拓扑及调用链关系数据,搜索并定位到故障源或者故障传递链的根节点,故障源往往是具体的物理(虚拟)主机、服务及基础性能,如cpu、内存、网络、磁盘等。自适应AI系统使用实时反馈动态学习和调整,针对不断变化的环境做出响应,不断添加训练数据形成训练模型,并形成通用化的场景业务支持以及个性化功能定制,将根因深度分析全面落地实践。
图片

用户价值
1.提升排障效率:Bonree ONE可以自动计算出故障相关的影响范围,自动关联出相关的指标、日志、调用链、事件、用户会话、业务等。当用户发现某一指标异常或某一笔业务调用链路异常时,可以进一步追踪细查相关的记录明细从而定位问题,提升排障效率。
2.现场还原,赋能复盘:通过根因分析定位到故障后,可查看故障回放,现场还原故障发生的信息,赋能复盘。全面详尽的现场还原,是提高故障处理效率的关键。

难点
如何提升根因定位准确性?提升根因定位准确性要从算法准确性提升及多维分析出发,通过调参、分类等提升准确度,丰富算法逻辑,多维分析不同类别问题的可能根因。

思考
1.吞吐类问题,平均每分钟的总请求次数,越靠近入口的,越有可能是根因。
2.缓慢、错误类问题,深度越深,越是根因。找到实体入口后,根据层级判断,同时时间发生越早的越有可能是根因。
3.瞬时事件(重启、熔断、配置变更)相比较于持续事件,是根因的概率更大,因此要考虑瞬时事件的可能性排序大于持续事件。根因定位的具体规则如下:
图片
ONE平台提供根因问题回放,现场还原问题发生的信息,如下图:
图片

深度分析
深度分析是在根因分析的基础上进一步拆解下探,从而直接给出可行动的具体原因。

  1. 对根因结果进一步做多维度分析,根据问题类别找出引发问题的局部维度。
  2. 在局部的维度基础上进一步下探,找出实际引发问题的代码、事件(如:探针熔断、配置更改等)的具体信息。
    图片

博睿数据
1 声望3 粉丝

博睿数据(股票代码688229)是国内IT运维监控和可观测性的领导者,中国APM应用性能监控市场份额第一,1000+头部客户的信赖与选择,申请免费试用:[链接]