【故障定位系列】Web应用接口级故障如何定位

摘要

常见的针对Web应用的故障定位方案，大多只能定位到服务级别，然而很多情况下我们需要知道对应的应用接口的情况，才能更有效的解决问题。如何才能实现更加细化的接口级别的根因定位？本文以某个电商业务为例，来解答这个问题。

某一日，某电商业务系统中几十个服务同时出现告警，如下所示

经过几十分钟的排查，最终确定了如下故障结论

如何确定是自身、访问组件、访问下游服务的问题？

如何才能更好的界定呢？

答案是：客户端响应时间和服务端响应时间的基准对比

当服务整体响应时间突增时，如何定位到具体哪个接口呢？

答案是：指标下钻算法

目前主要有几个实现：Adtributor、iDice、HotSpot、Squeeze

当接口响应时间突增，如何继续往下定位呢？

答案是：接口耗时分解

耗时分解功能可以让你清晰地看到DB访问请求出现耗时突增（上图中右侧下方），点击该请求可以继续下钻分析。

RootTalk Sandbox是一个故障演练和定位的系统，可以进行上述故障场景的复现。目前开放注册，可自主演练体验几十种故障场景。

如上图，对拓扑图中的service-g::k8s服务的所有实例的CallDB接口注入某个SQL出现耗时突增的故障。

这里面的几个要素，会在下一步故障定位中被定位到。

定界到服务：

定位到接口：

上面给出的定位信息，完整给出了前面说的4个要素：

定位粒度很细、很全面。

验证1如下：

验证2如下：

验证3如下：

更多信息请关注 RootTalk故障定位专场公众号，关注之后可点击扫码进群