主要观点:柱式存储是现代数据分析系统的核心组件,许多数据库管理系统支持开源存储格式如 Parquet 和 ORC 以促进跨平台数据共享,但这些格式是十多年前为 Hadoop 生态系统开发的,硬件和工作负载环境已发生变化。
关键信息:
- 深入研究了最广泛采用的开源柱式存储格式 Parquet 和 ORC 的内部。
- 设计了基准来测试不同工作负载配置下格式的性能和空间效率。
- 指出了在处理常见机器学习工作负载和使用 GPU 解码时格式设计的低效之处。
重要细节: - 提交历史有三个版本,分别于 2023 年 4 月 11 日、9 月 25 日和 11 月 7 日提交,文件大小分别为 860KB、1499KB 和 1496KB。
- 有 15 页内容,已纠正错别字并添加了缺失的图注,学科为数据库(cs.DB),引用为arXiv:2304.05028及arXiv:2304.05028v3,可通过https://doi.org/10.48550/ArXiv.2304.05028获取。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。