头图

随着信息化、数字化、智能化的加码,企业对人工智能、大数据等技术应用呈现出明显兴趣,海笔研究对国内中型规模企业调研表明,在2020年,54.1%的企业选择购买人工智能类应用,41.9%的企业选择购买大数据及BI类应用,各类产品软件的应用大幅提升了企业信息系统复杂度,以及运维管理难度。

业务发展催生服务需求

从系统管理者角度出发,信息系统从“单机Excel表格”到“集中式单系统”再到“微服务、云架构”等,应用系统流程越来越复杂,从前端业务到IT底层之间的通道链路模糊。当前端业务出现异常时,问题定位与排查处理困难,如果不采用系统的方法进行信息系统管理,信息系统与服务能力的关系将越来越远。

为解决上述故障排查处置困难等问题,智能运维(AIOps)相关研究在学术界持续升温。与人工智能、大数据、区块链等技术体系不同,智能运维并不是一项“全新”技术,而是在运维场景基础上,与智能技术的一种应用和融合,因此,剥离开场景,单谈“智能运维”不具有实际意义。

AI算法赋能运维创新变革

运维创新变革的核心在于探索人工智能等新兴技术如何转化、服务、适配运维行业的发展,AI算法正是通过赋能各类运维场景中的指标/日志/追踪/告警,给运维行业带来了新的解决问题思路。

一元场景中:时序数据类相关智能算法,赋能指标计算,可以挖掘指标异常检测、容量预测、健康度检测等场景,实现指标场景智能化。自然语言处理、分类聚类等智能算法于日志场景中,可以挖掘日志解析、日志实体识别、日志分类等场景,实现日志场景智能化。应用图算法等智能算法赋能于调用链场景中,可以挖掘路径曝光、调用链优化管理等场景,实现追踪场景智能化。

转化场景中:自然语言处理算法中的命名实体识别技术,赋能于日志模式的识别过程中,可以精准、高效识别日志中的指标信息,实现从日志到指标的转化场景智能化。知识图谱、概率图模型等智能算法可以在一次调用周期中挖掘指标信息,应用于调用链分析、过程挖掘等场景中,实现从追踪到指标的转化场景智能化。同时,由于指标、日志、追踪均可以产生告警,实体识别、语义识别等技术可以对同一事件下不同观测(指标、日志、追踪)的告警进行告警智能压缩、告警智能抑制,实现从指标、日志、追踪到告警的转化场景智能化。

二元场景中:系统故障往往会影响指标数据并沿着调用链进行传播,因此应用图模型(随机游走、概率图模型)等技术可以有效进行基于指标的根因定位,实现指标和追踪场景的智能化。此外,当指标发生异常时,日志往往能够更清晰地展现异常发生时的系统状态,实现指标异常分析。同时,通过识别日志模式,将模式变化情况使用时间序列异常检测相关算法进行检测,实现指标和日志场景的智能化。以及当系统发生故障时,分析系统调用链上的节点的日志模式、内容变化情况往往能够有效进行基于日志的根因定位,实现追踪和日志场景的智能化。

云智慧AIOps算法应用实践

云智慧认为,在运维场景智能化过程中,应当坚持“以数据为基础、场景为导向、算法为支撑”的建设思路。要从智能技术中完整梳理出针对运维场景的各类算法,并在算法的评价上应坚持以真实的业务数据表现为标准。

image.png

以金融机构定时处理批量数据业务所需耗时预测场景举例,需以整体业务及与子业务历史处理时长数据作为训练数据,运用深度学习模型分别对整体及子业务处理时长进行建模,对当下处理时间进行预测,为金融机构估计定时处理批量数据耗时及动态资源调配提供有效决策依据。

面向未来,云智慧CTO张博表示,算法虽作为智能运维的核心底层技术,但并不存在无场景、无数据而仅靠算法就能够解决的问题,如果有,那么这是一套“魔法”而不是一套“算法”。“无场景,不智能”,云智慧将继续秉承该算法体系理念不断耕耘,与各行业客户、从业者、研究者共享智慧、智能技术带来的创新成果。


云智慧技术社区
70 声望17 粉丝

我们秉承Make Digital Online的使命,致力于通过先进的产品技术,为企业数字化转型和提升IT运营效率持续赋能。