对 Haskell 数据框与 Python 数据框进行基准测试

发布于 2025-07-27

主要观点：作者在 Haskell 中进行了一年左右的 DataFrame 实现工作，重点在人体工程学，不可避免地出现了性能问题，决定建立性能基线。通过采用 C++ DataFrame 实现的小基准测试，测试了不同规模数据下 Haskell、Polars 和 Pandas 的性能，结果显示性能与 Polars 相当且比 Pandas 快 2 倍，简单扫描时性能较好，在比较groupBy操作时也有类似趋势，后续会更新基准测试并关注性能提升方向如并行性、向量化/硬件优化等。
关键信息：使用 Haskell 的 Criterion 库生成基准测试统计，测试了n为 100M、150M 和 300M 时的性能，Polars 和 Pandas 在某些规模下因内存不足只有两个数据点，后续会更新复杂操作的基准测试及关注性能提升项目。
重要细节：基准测试生成包含随机数的三列 DataFrame 并进行统计和过滤操作，主要测试底层数组实现，Python 实现有单独进程开销，使用了加利福尼亚住房数据集进行groupBy操作测试等。

阅读 193