如果我们就是不解压它会怎样?

主要观点:

  • 所有柱状文件格式支持投影下推,多数柱状文件格式支持谓词下推,Vortex 独特之处在于支持全计算下推。
  • Vortex 中多数计算函数是“标量”的,非标量计算函数如sum等也可受益于下推。
  • 介绍了常量编码、字典编码、ALP 编码等压缩方式下标量计算的下推实现。
  • 考虑 Vortex 使用级联分层压缩,如在l_discount列中展示了不同压缩方式的结构及性能提升。
  • 利用 SIMD 指令可使代码运行更高效,Vortex 能通过层级压缩和 SIMD 实现显著性能提升。
  • Vortex 目前未在 u8 空间运行比较操作,但架构上易于添加,且正努力优化以提升性能。

关键信息:

  • 柱状文件格式的下推特性:投影下推和谓词下推。
  • Vortex 的计算下推优势:支持全计算下推,多种压缩方式下的标量计算下推。
  • 不同压缩编码方式:常量编码、字典编码、ALP 编码。
  • 分层压缩及 SIMD 加速:FastLanes BitPacking 与 SIMD 结合的性能提升。

重要细节:

  • 示例代码展示了在不同编码方式下的标量计算函数实现,如add函数。
  • 对 ALP 编码的详细介绍及与比较操作的结合。
  • 提及 Vortex 命令行对l_discount列结构的描述。
  • 关于性能提升的基准测试数据,如与 Parquet 对比及不同整数类型下的性能差异。
阅读 7
0 条评论