主要观点:应跟踪生产错误,但错误跟踪仪表盘可能因充斥垃圾而难以使用;工程师定期参与错误跟踪能将原始数据转化为有意义的信息,否则噪音会占主导;积累大量无意义的错误积压(slag)会导致绝望和放弃错误跟踪;通过排除行为可创造增量价值,如排除死锁等行为能直接增加系统可靠性、便于故障排查等。
关键信息:
- 3 年后错误跟踪仪表盘糟糕,常规参与错误跟踪能转化数据,不参与则噪音主导。
- 积累大量 slag 后才意识到问题,调查 top10 错误发现多数非问题。
- 排除行为可创造增量价值,如列出要排除的行为类,修复底层错误,创建监控防止回归。
- 排除行为能增加可靠性、便于排查,如排除死锁可避免意外故障模式,排除 OOM 可避免相关问题。
- 可选择排除多种行为类,如死锁、OOM 等,也可做例外并记录理由,排除行为后系统更稳定。
重要细节: - 列举了系统生产中的各种错误类型,如网络超时、JSON 解析错误等。
- 说明排除行为的具体步骤,包括列出要排除的错误、修复底层 bug、创建监控。
- 强调排除行为后系统的好处,如增加可靠性、便于排查等,且会让人对排除行为上瘾。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。