没有内存？没问题。DuckDB 中的外部聚合

发布于 2025-07-27

主要观点：自 0.9.0 版本起，DuckDB 的全并行聚合哈希表可在内存不足时高效处理更多组的聚合。
关键信息：

多数分组聚合查询输出行数少，但某些如按客户统计订单的查询会导致内存消耗大增。
DuckDB 的缓冲区管理器管理所有内存，能更好地选择何时将临时数据写入存储，避免传统数据库系统中内存碎片化和无效引用问题。
外部聚合通过线程局部预聚合和分区聚合两阶段完成，数据采用特殊页面布局可轻松写入存储，且通过分区等方式降低内存需求。
在 H2O.ai 数据库类 ops 基准测试中，DuckDB 在不同硬件环境下都能完成多种聚合查询，虽在内存较小的笔记本上运行时间较长，但仍快于 Spark。
重要细节：
传统数据库系统将持久数据和临时数据分开管理，而 DuckDB 统一管理，缓冲区管理器根据工作负载优化内存使用。
对于临时数据中的指针问题，DuckDB 创建专门的行主页面布局，通过元数据重新计算指针避免序列化/反序列化。
聚合过程中使用 morsel 驱动并行ism，线程局部哈希表分区并在需要时将数据写入存储，通过过分区等方式解决内存不足问题。
在 H2O.ai 基准测试中，使用特定查询和文件，展示了 DuckDB 在不同硬件环境下的性能表现，如在内存仅 16GB 的笔记本上可完成 50GB 的聚合查询。

阅读 102