逻辑数据类型与物理数据类型

主要观点:Spiral 致力于为 AI 时代构建数据仓库,推出开源文件格式 Vortex,它是一种可扩展的先进列式文件格式,支持在磁盘、内存和网络上共享数据布局,能进行压缩数据计算,有级联轻量级压缩方案等特点,早期基准测试表明其压缩比与 Parquet 相当,写入吞吐量快 1 - 2 倍,扫描快 2 - 3 倍,随机访问快 200 倍。Vortex 有逻辑和物理类型,逻辑类型包括整数、浮点数等,物理编码包括多种形式的字符串编码等,可组合以优化压缩比和性能,目前项目仍处于初期,欢迎开源社区提供反馈和提问。

关键信息

  • Vortex 是开源文件格式,具有多种特性和优势。
  • 与 Arrow 对比,Arrow 是用于通信和共享数据的格式,不是存储格式,Vortex 是原生支持压缩数据的文件格式和内存表示。
  • 现代计算引擎有自定义内部表示,Arrow 的 DataFusion 计算引擎即将支持,而 Vortex 在存储层分离逻辑和物理类型,能以最佳格式将数据返回给计算引擎,减少转换开销。
  • Vortex 的逻辑类型和物理编码丰富多样,可组合优化。
  • Vortex 项目处于初期,欢迎反馈和提问,公司在纽约和伦敦招聘。

重要细节

  • Vortex 的 TLDR 包括可扩展、先进列式、共享数据布局、压缩数据计算机制、级联轻量级压缩方案、可扩展压缩编解码器、可配置文件布局、向前兼容等。
  • Arrow 有物理类型系统,每种数组类型在内存中的布局有严格规范,如 StringArray 用连续字符串数据缓冲区和偏移量缓冲区表示,存在 32 位偏移量限制。
  • 现代计算引擎有自定义内部表示,可对部分解压数组进行计算,许多计算引擎实现了自己的 Parquet 读取器。
  • Vortex 的逻辑类型有整数、浮点数、布尔、UTF - 8、二进制、结构体、列表、扩展类型等,物理编码包括多种形式的字符串编码、常量、块编码、稀疏编码、字节布尔等,以及多种压缩编码。
阅读 4
0 条评论