捕获和增强原生系统的可观测性来发现错误

2018-11-23
阅读 4 分钟
1.4k
在对 TiDB 进行 Chaos 实践的时候,我一直在思考如何更好的发现 TiDB 整个系统的故障。最开始,我们参考的就是 Chaos Engineering 里面的方式,观察系统的稳定状态,注入一个错误,然后看 metrics 上面有啥异常,这样等实际环境中出现类似的 metrics,我们就知道发现了什么故障。