• 你是否遇到过怎么也解决不了的工单?花了几个小时在搜索引擎上查找,逐字逐句地阅读 Stack Overflow(IT 问答网站)上的问题,还会不时地因为沮丧一头栽倒在桌子上。三个小时之后,解决问题已经变成了关乎自尊的事情。去他妈的工作效率!在这种情况下,一个有效的事件管理流程才能让你保持理智。

  • 不要误会——我理解那种希望能够独立解决问题的渴望。我常常因为狂妄、羞愧,或者只是不想打扰别人而陷入这种情况。我对解决问题有一种不正常的执着,但是如果关乎到项目的正常进展,我发现按照事先约定的流程来处理会让大家都好过一点儿。

问题排序

  • 有些问题是真的问题,有些则不是。而即便是问题,也不一定是任务关键型问题。当你收到一个问题通知时,首先确定它属于堆栈的哪个部分。把它与你和团队负责的其他程序错误、日常事务进行排序。制定一份详细的影响报告,然后带着报告去请教相关的项目经理,从而帮助你作出决定。

问题重现

  • 能够重现的程序问题是可以解决的。如果一个问题经过排序后位居任务列表首位,下一步就是通过编译来重现该问题。用户是在不经意间触发了程序崩溃吗?那可能是内存或存储故障。一定不要忘了,你需要做的只是了解如何重现该问题,而不是修复它——还没到那一步。一旦你掌握了如何重现此问题,或了解到这个问题无法轻易重现,这个问题就可以解决了。

问题升级

  • 一旦能够重现这个问题,下一步就是判断谁是解决该问题的专家,然后转交问题(提示:这个专家可能是你自己)。根据问题性质的不同,判断由谁来解决问题可能会比较有难度,不过有一条有效的经验法则,就是去找最近一次负责该部分特性的人。无论你把这个问题升级转交给谁,一定要附上一份完整详细的报告,列出你目前为止了解的所有信息。他们会因此对你心存感激。

问题调查

  • 好了,一个问题经过一系列流程,被转交给你来解决。接下来你需要调查这个问题。在这一步,你需要按照承接问题重现步骤,收集日志,询问其他相关专家,识别可能存在的问题,并测试你的解决方案。打上泡沫,拧干,然后重复,直到你完全了解问题到底是什么,以及问题产生的原因。

问题修复

  • 到这一步,你已经明白问题是什么,如何重现,以及引发问题的根本原因。你已经识别了问题的根源,找出了解决方案,并且通过了测试。表面上来看,接下来只需部署该解决方案就好了,但是你不能就此止步。问题解决,程序运行稳定之后,你应该通知所有相关人员,该问题已经解决。同时,你还应该把解决方案的细节发送给相关领域的专家,如有必要,还应该进行事后分析,以确保所有成员都了解问题细节以及解决过程。

确保行动正确执行的有效事件管理依赖于一个既定的流程和有效的沟通。实际需要采取的步骤也许在不同项目中有所变化,但是那些解决问题效率最高的团队往往都具备高效沟通的能力,以及事先准备好的行动计划。

OneAlert 是北京蓝海讯通科技有限公司旗下产品,是国内首个 SaaS 模式的云告警平台,集成国内外主流监控/支撑系统,实现一个平台上集中处理所有 IT 事件,提升 IT 可靠性。想了解更多信息,请访问 OneAlert 官网 ,欢迎免费注册体验 。

原文地址:https://www.pagerduty.com/blog/smart-act...

本文转自 OneAPM 官方博客


OneAPM蓝海讯通
11.4k 声望510 粉丝

Software makes the world run. OneAPM makes the software run.