问题描述
我们都知道在线上异常排查时依赖异常监控,会上报一些问题。
但是我们排查手段有时候会比较繁琐,如何将这些手段固化下来?或者让程序去智能分析,自己做归因?
问题出现的环境背景及自己尝试过哪些方法
举个栗子:一天,我们发现 FMP P90 下降(3000ms => 6000ms),然后我们发现了某个页面劣化很严重。根据异常处理方案,我们分了几步
排查近期变更
- 通过上线单记录,发现频繁上线(5天内,一天一次上线)
- 通过MR发现上线功能不涉及劣化页面。
- 综合考虑不进行回滚
- 手动提取特征
- 使用特征进行验证
- 无法复现,寻求业务,是否存在同类特征问题
- 发现问题,协调解决。
在这个流程中,因为我方数据不够,导致无法验证问题。且分析中存在很多条件需要手动分析。
相关代码
无
你期待的结果是什么?实际看到的错误信息又是什么?
期望可以得到一个分析方法或者相关资料
本文参与了SegmentFault 思否面试闯关挑战赛,欢迎正在阅读的你也加入。