主要观点:作者在 Haskell 中进行了一年左右的 DataFrame 实现工作,重点在人体工程学,不可避免地出现了性能问题,决定建立性能基线。通过采用 C++ DataFrame 实现的小基准测试,测试了不同规模数据下 Haskell、Polars 和 Pandas 的性能,结果显示性能与 Polars 相当且比 Pandas 快 2 倍,简单扫描时性能较好,在比较groupBy
操作时也有类似趋势,后续会更新基准测试并关注性能提升方向如并行性、向量化/硬件优化等。
关键信息:使用 Haskell 的 Criterion 库生成基准测试统计,测试了n
为 100M、150M 和 300M 时的性能,Polars 和 Pandas 在某些规模下因内存不足只有两个数据点,后续会更新复杂操作的基准测试及关注性能提升项目。
重要细节:基准测试生成包含随机数的三列 DataFrame 并进行统计和过滤操作,主要测试底层数组实现,Python 实现有单独进程开销,使用了加利福尼亚住房数据集进行groupBy
操作测试等。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。