开篇

近日,由阿里云计算平台大数据基础工程技术团队主导,与浙江大学合作的论文《Cluster-Wide Task Slowdown Detection in Cloud System》被数据挖掘领域顶会ACM SIGKDD2024接收。论文从新的视角分析云计算平台集群健康状态,实现了基于神经网络的集群作业整体变慢异常定向检测,与SOTA异常检测算法相比平均提升F1 score 5.3%。

背景

面向集群整体作业分布的变慢检测是时序异常检测的一个分支。目前,异常检测可分为有监督异常检测和无监督异常检测。其中有监督异常检测依赖于大量人工标记工作,因而在许多实际场景下难以运用。无监督异常检测则可以克服这个缺点,但面临训练集污染的问题,即训练集中不仅有正常数据,还包括无标记的异常数据。近年来,重构类无监督时序异常检测方法取得了显著的成就,其发展趋势从以RNN变种为backbone的模型,如OmniAnomaly【1】, MSCRED【2】等,逐渐演变到以transformer变种为backbone的模型,如AnomalyTransformer【3】, DCdetector【4】, TranAD【5】等。虽然基于transformer变种的异常检测模型,较之之前的模型取得了明显进步,但我们发现attention机制在处理复合周期信息时,常常会忽略振幅较低的周期性信息。而集群作业整体执行时间分布是一个具有复合周期性的时间序列。因此,本方法在此基础上进一步提出了撇脂注意力机制,提升注意力机制对复合周期信息的处理能力。

挑战

在集群整体作业分布变慢检测中,存在下述三个问题。首先,集群整体作业分布集合了多种作业的执行时间表现,不同作业可能有不同周期,同一作业也会表现出日周期、周周期、月周期复合的情况,而目前attention机制为基础的异常检测神经网络无法准确的重构复合周期序列中振幅较低的周期信息。其次,在实际生产环境下,难以保证训练数据总是只包含正常数据,而无异常数据。因此,使用无监督学习算法时,有污染的数据集会让模型整体效果变差。最后,现有的无监督异常检测算法假设异常是所有偏离正常分布的时刻都为异常。但在集群整体作业分布变慢检测的工作中,我们只关注变慢的异常。

破局

image.png
为提升attention机制处理复合周期性信息的能力,我们首先理论分析标准注意力机制注意力权重分配特征,发现标准注意力机制总是把注意力权重分配给高振幅的周期信号,而忽略低振幅的周期信号。因此,我们提出撇脂周期法,迭代地从原有信号中重构出高振幅的周期信号,使用原有信号减去本轮迭代重构信号,将余下的部分作为下一轮迭代的输入信号。

为解决训练数据集污染的问题,我们提出Picky Loss,它自适应地为训练集中的正常数据分配更高的权重,降低异常数据权重。其原理在于attention机制中,正常数据能与其余数据建立广泛且相对均匀的注意力关联,而异常数据仅能与自己周围数据建立较强的注意力关联。因此,我们使用高斯曲线,过滤每个数据周围的注意力权重,而计算其余权重的和。这个和越大说明当前数据为正常数据的可能性越大,应该赋予更高的权重。和越小说明当前数据为异常的可能性越大,因此应该赋予较低的权重。

为解决定向检测集群分布变慢的问题,我们设计了Neural OT模块,单向抑制集群作业总体分布变慢的时间片的重构,而通过其余情况下时间片的重构。令变慢时间片重构误差大于其余时间片。

应用

目前对应算法已经在阿里云云原生大数据计算服务MaxCompute集群异常监控场景中进行灰度。可以有效地帮助运维人员对集群运行健康状况进行评估,提前发现可能的风险隐患。

论文信息

●论文名字:Cluster-Wide Task Slowdown Detection in Cloud System

●论文作者:Feiyi Chen, Yingying Zhang, Lunting Fan, Yuxuan Liang, Guansong Pang, Qingsong Wen, Shuiguang Deng

●论文pdf链接:https://arxiv.org/abs/2408.04236

●部分参考文献:

【1】Su Y, Zhao Y, Niu C, et al. Robust anomaly detection for multivariate time series through stochastic recurrent neural network[C]//Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining. 2019: 2828-2837.

【2】Zhang C, Song D, Chen Y, et al. A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data[C]//Proceedings of the AAAI conference on artificial intelligence. 2019, 33(01): 1409-1416.

【3】Xu J, Wu H, Wang J, et al. Anomaly transformer: Time series anomaly detection with association discrepancy[J]. arXiv preprint arXiv:2110.02642, 2021.

【4】Yang Y, Zhang C, Zhou T, et al. Dcdetector: Dual attention contrastive representation learning for time series anomaly detection[C]//Proceedings of the 29th ACM SIGKDD Conference on Knowledge Discovery and Data Mining. 2023: 3033-3045.

【5】Tuli S, Casale G, Jennings N R. Tranad: Deep transformer networks for anomaly detection in multivariate time series data[J]. arXiv preprint arXiv:2201.07284, 2022.


阿里云大数据AI
4 声望7 粉丝

分享阿里云计算平台的大数据和AI方向的技术创新、实战案例、经验总结。