使用 Doris JOIN 策略优化缓慢的数据查询

在数据分析领域，“慢查询”就像挥之不去的职场头痛问题。近期不少数据分析师抱怨查询运行数小时无结果，作者的朋友也在为大型表的 JOIN 性能苦恼。作为数据库优化专家，作者分享了 Doris 中 JOIN 操作的优化方法。

JOIN 性能优化始于选择正确的 JOIN 策略：数据分析师小张在处理大规模数据分析任务时，使用常规 JOIN 方法导致查询速度极慢，向 Doris 专家老李求助，老李指出 JOIN 性能关键在于选择正确策略，Doris 支持多种 JOIN 实现。
JOIN 的本质：在分布式数据库中，JOIN 操作看似简单实则复杂，需协调分布式环境中的数据流和计算，如解决如何将待连接数据合并的核心问题，涉及数据重分布策略。
Doris 的 JOIN 武器库：Doris 采用 Hash Join 和 Nest Loop Join 两种物理实现，Hash Join 像 swift 剑，能快速完成等值 JOIN 操作；Nest Loop Join 像基础技能，适用于所有 JOIN 场景。
JOIN 世界中的四种数据分布策略：
- Broadcast Join：像霸道 CEO，将右表数据复制到每个计算节点，简单粗暴，适用于右表数据量小的情况，但不适用某些类型的 Hash Join，网络开销与节点数和右表数据量有关。
- Partition Shuffle：采用双向分布策略，基于 JOIN 键对两张表进行哈希和分布，网络开销等于两表数据量之和，适用于两表数据量相似的场景，仅支持 Hash Join。
- Bucket Shuffle：利用表的分桶特征，仅重分布右表数据，网络开销仅为右表数据量，当左表已按 JOIN 键分桶时效率高。
- Colocate Join：是终极优化，数据预分布，JOIN 时无需数据移动，零网络开销和最佳性能，但要求严格。
Colocate Join 示例：通过具体 SQL 示例展示了 Colocate Join 的优势，从 Explain 执行计划结果可看出数据在聚合后无需移动即可直接进行 Hash Join 操作。
JOIN 决策路径：根据实际情况灵活选择 JOIN 策略，如大表与小表用 Broadcast Join，类似大小表用 Partition Shuffle，左表适当分桶用 Bucket Shuffle，同组表用 Colocate Join，非等值 JOIN 用 Nest Loop Join，并给出了一套 JOIN 优化提示，如提前规划数据分布、利用分区裁剪、设计分桶策略、配置并行度和内存、密切监控资源使用等，以此提高 JOIN 性能。