YashanDB|执行计划突然变差?小心统计信息时间戳不一致!

某局点在使用 YashanDB 时，出现了 CPU 长时间 100% 的情况，业务受影响严重。经过分析发现，根源是某些 SQL 执行计划发生变化，背后竟是统计信息中的 analyze time 不一致惹的祸!

一、问题现象

系统负载飙升，数据库 CPU 占用持续 100%;

检查发现多个 SQL 性能异常，其中一个简单的“单行绑定 + 排序”语句变得非常慢;

执行计划发生变化，选用了性能较差的索引路径。

二、风险与影响

SQL 执行时间异常，影响正常业务响应;

操作系统负载升高，可能引发数据库或服务宕机;

计划选择错误，严重时可能导致全表扫描等高开销操作。

三、问题影响版本

经确认，该问题出现在 YashanDB 22.2.10.100 版本中。

四、问题根本原因分析

进一步分析后发现，问题的关键在于：

hist_head$ 表中列的analyze time早于 tab$ 表中的analyze time

这会导致优化器在调用 estColEqualOrNotParam 方法时：

尝试加载列统计信息;

由于 colStats = null，无法使用真实选择性;

系统自动使用默认 selectivity 值(0.04)进行估算;

实际上该列选择性极好，仅为 0.00003;

导致估算结果失真，从而选用了错误的索引。

示意图

五、处理方式与规避建议

在现网中，客户通过将错误索引设为 invisible，成功规避了错误执行计划。

推荐做法：

使用 alter index xxx invisible; 隐藏问题索引;

或者刷新列统计信息，确保 hist_head$ 与 tab$ 中时间一致;

日常维护中关注统计信息更新时间，避免残留旧数据干扰优化器判断。

六、问题排查与处理过程回顾

观察到 SQL 执行计划中，sub_account_id 的选择性非常低(实际数据分布极稀疏);

表数据量 6000 万，distinct 约 200 万，选择性应接近 0.00003;

但优化器使用默认 0.04.误判过滤效果，导致执行计划“跑偏”;

正确的执行计划 rows 估算值更接近实际数据分布，性能显著提升。

七、知识点补充

hist_head$：存放列的通用统计信息;

histgrm$：用于存放列的直方图数据(分布式信息);

优化器判断执行路径时优先参考这些表中的统计信息;

时间戳不一致，会导致优化器忽略某些信息，使用默认值。

八、总结建议

建议在收集统计信息时全表统一分析，避免局部更新留下时间戳差异;

运维过程中定期核查 tab$ 与 hist_head$ 中 analyze time 是否对齐;

如发现执行计划“突然变差”，可从统计信息完整性优先排查。

YashanDB|执行计划突然变差?小心统计信息时间戳不一致!

数据库砖家

引用和评论

YashanDB|YAS-02605：不是 Master 节点无法执行恢复?共享集群下的角色限制

做到真正0丢失、0重复：Apache SeaTunnel 实现万亿级数据一致性全解密

在 Kubernetes 上用 KubeBlocks + Dify 快速构建生产级 AIGC 应用

数据库的下一场革命：S3 延迟已降至原先的 10%，云数据库架构该进化了

Ape-DTS：开源 DTS 工具，助力自建 MySQL、PostgreSQL 迁移上云

好用的开源埋点方案-ClkLog埋点用户分析系统

Devin 发布 DeepWiki，2 星的项目直接装出万星的气场