对列式存储格式的实证评估

主要观点:柱式存储是现代数据分析系统的核心组件,许多数据库管理系统支持开源存储格式如 Parquet 和 ORC 以促进跨平台数据共享,但这些格式是十多年前为 Hadoop 生态系统开发的,硬件和工作负载环境已发生变化。
关键信息

  • 深入研究了最广泛采用的开源柱式存储格式 Parquet 和 ORC 的内部。
  • 设计了基准来测试不同工作负载配置下格式的性能和空间效率。
  • 指出了在处理常见机器学习工作负载和使用 GPU 解码时格式设计的低效之处。
    重要细节
  • 提交历史有三个版本,分别于 2023 年 4 月 11 日、9 月 25 日和 11 月 7 日提交,文件大小分别为 860KB、1499KB 和 1496KB。
  • 有 15 页内容,已纠正错别字并添加了缺失的图注,学科为数据库(cs.DB),引用为arXiv:2304.05028arXiv:2304.05028v3,可通过https://doi.org/10.48550/ArXiv.2304.05028获取。
阅读 6
0 条评论