GitHub - vortex-data/vortex: 一种可扩展的、最先进的列式文件格式。以前在 @spiraldb,现在是 Linux 基金会项目。

主要观点:Vortex 是下一代列式文件格式和工具包,用于高性能数据处理,具有快速性能、可扩展架构、开源治理和多种集成等特点。
关键信息

  • 性能方面:随机访问读取快 200 倍,扫描快 2 - 10 倍,写入快 2 - 10 倍,压缩比相似,支持宽表零拷贝/零解析元数据。
  • 架构方面:仿照 Apache DataFusion 可扩展方法,有可插拔编码系统等,与 Apache Arrow 零拷贝兼容。
  • 开源治理:是 Linux 基金会项目,Apache - 2.0 许可。
  • 集成方面:与 Arrow、DataFusion 等多种工具集成,Apache Iceberg 即将加入。
  • 安装方式:Rust Crate 用 cargo add vortex,Python 包用 uv add vortex - data,命令行 UI 用 vx browse <file>。
  • 性能优化:建议使用 MiMalloc。
    重要细节
  • 开发状态:库 API 版本间可能变化,但文件格式稳定,0.36.0 及以后版本保持文件格式向后兼容。
  • 项目信息:包括许可证为 Apache License Version 2.0,治理模式在 CONTRIBUTING.md 和 Technical Charter 中,贡献指南在 CONTRIBUTING.md,报告漏洞发邮件至 vuln - mailto:report@vortex.dev,商标政策等在 lfprojects.org。
  • 致谢:受益于学术和开源社区的工作,如 BtrBlocks 等研究,在研究中的 Anyblox 框架,以及受 Apache Arrow 等开源项目启发。
阅读 19
0 条评论