主要观点:介绍了名为 smallpond 的轻量级数据处理框架及其相关信息。
关键信息:
- 基于 DuckDB 和 3FS 构建。
- 具有高性能、可扩展处理 PB 级数据集、操作简单无长运行服务等特点。
- 支持 Python 3.8 到 3.12,可通过 pip 安装。
- 提供快速启动示例,包括下载数据、初始化会话、加载数据、处理数据和保存结果等操作。
- 有详细的文档,包括入门指南和 API 参考。
- 在 GraySort 基准测试中表现良好,能在 30 分钟 14 秒内处理 110.5TiB 数据,平均吞吐量为 3.66TiB/min。
- 开发时可通过 pip 安装[dev]进行单元测试,安装[docs]构建文档。
- 项目采用 MIT 许可证。
重要细节: - CI 表示持续集成状态。
- PyPI 可用于安装 smallpond。
- Docs 为文档链接。
- License 指向许可证文件。
- 在快速启动示例中,详细说明了下载数据、使用 smallpond 进行数据处理的步骤及代码。
- 开发部分说明了安装相关依赖进行单元测试和构建文档的操作。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。