基准测试报告：忒修斯引擎 | 伏尔甘数据 - SegmentFault 思否

基准测试报告：忒修斯引擎 | 伏尔甘数据

发布于 2025-07-27

主要观点：

介绍了 Theseus 和 Spark-RAPIDS 在不同数据规模（10TB、30TB、100TB）下的基准测试结果，包括成本、运行时间等方面的比较。
强调了 Theseus 作为加速器原生系统在处理大规模数据时的优势，如能以更低成本处理更多数据。
提及不同类型的查询（如重连接、重排序、重聚合）在 GPU 辅助下的性能表现差异。
指出数据处理行业的趋势，如 OLAP 引擎因开放标准而趋同，以及提出适合不同数据规模的分布策略。

关键信息：

Theseus 基准测试定期更新，最新结果涵盖 10TB、30TB、100TB 数据规模。
100TB 数据规模下，10 节点的 Theseus 处理成本低于 Spark，能更高效处理数据。
10TB 数据规模时，GPU 能以更少成本实现更多性能，Spark 存在成本效益递减和技术瓶颈。
30TB 数据规模需考虑扩容，比较不同系统在不同节点配置下的性能和成本。
不同类型查询在 GPU 辅助下表现不同，如重连接等操作对系统性能有较大影响。
提出构建可组合数据系统的分布策略，不同数据规模适用不同工具。

重要细节：

介绍了各种相关项目和标准，如 Ibis、Substrait、SQLGlot、Arrow、ADBC 等。
给出了 22 个从 TPC-H 导出的查询的描述和分类。
以图表形式展示了不同节点配置下 30TB 数据的运行时间和总成本。

Benchmarking Report: Theseus Engine | Voltron Data

https://voltrondata.com/benchmarks/theseus

阅读 132

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。