在事件响应期间,如何消除焦虑、降低平均修复时间并保持在预算内

主要观点:作者 1992 年开始从事技术工作,常遇“用更少做更多”情况,在云现代化项目中因削减成本减少服务级日志,导致后续出现问题时无法快速定位根因,强调精益不应意味着资源匮乏,而应保留关键工具,如日志,零成本全摄取模式能在事故发生时按需分析,机器辅助分类工具可帮助快速定位信息,“用更少做更多”哲学需配合正确工具。
关键信息:

  • 作为后端架构师时,为降低成本削减服务级日志,后遇问题需此日志却无法获取。
  • 内部测试良好但生产时出现未预料边缘情况,因缺乏详细日志和足够可观测性无法调查。
  • 行业基准中精英团队平均恢复时间在一小时内,但低保真信号无助于根本解决问题,需高保真信号如结构化日志。
  • Sumo Logic 的零成本全摄取模式及机器辅助分类工具可帮助快速定位信息、降低焦虑。
    重要细节:
  • 给出示例日志格式及查询语句,如// Sample (but not the real) log line removed during our cost-cutting等。
  • 阐述零成本全摄取模式的优势,如团队可按需分析,预算人员和团队都满意等。
  • 说明机器辅助分类工具的工作原理,如聚类日志、检测异常等。
阅读 244
0 条评论