主要观点:Vortex 是下一代列式文件格式和工具包,用于高性能数据处理,具有快速性能、可扩展架构、开源治理和多种集成等特点。
关键信息:
- 性能方面:随机访问读取快 200 倍,扫描快 2 - 10 倍,写入快 2 - 10 倍,压缩比相似,支持宽表零拷贝/零解析元数据。
- 架构方面:仿照 Apache DataFusion 可扩展方法,有可插拔编码系统等,与 Apache Arrow 零拷贝兼容。
- 开源治理:是 Linux 基金会项目,Apache - 2.0 许可。
- 集成方面:与 Arrow、DataFusion 等多种工具集成,Apache Iceberg 即将加入。
- 安装方式:Rust Crate 用 cargo add vortex,Python 包用 uv add vortex - data,命令行 UI 用 vx browse <file>。
- 性能优化:建议使用 MiMalloc。
重要细节: - 开发状态:库 API 版本间可能变化,但文件格式稳定,0.36.0 及以后版本保持文件格式向后兼容。
- 项目信息:包括许可证为 Apache License Version 2.0,治理模式在 CONTRIBUTING.md 和 Technical Charter 中,贡献指南在 CONTRIBUTING.md,报告漏洞发邮件至 vuln - mailto:report@vortex.dev,商标政策等在 lfprojects.org。
- 致谢:受益于学术和开源社区的工作,如 BtrBlocks 等研究,在研究中的 Anyblox 框架,以及受 Apache Arrow 等开源项目启发。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。