GitHub - deepseek-ai/smallpond: 一个基于 DuckDB 和 3FS 构建的轻量级数据处理框架。

主要观点:介绍了名为 smallpond 的轻量级数据处理框架及其相关信息。
关键信息

  • 基于 DuckDB 和 3FS 构建。
  • 具有高性能、可扩展处理 PB 级数据集、操作简单无长运行服务等特点。
  • 支持 Python 3.8 到 3.12,可通过 pip 安装。
  • 提供快速启动示例,包括下载数据、初始化会话、加载数据、处理数据和保存结果等操作。
  • 有详细的文档,包括入门指南和 API 参考。
  • 在 GraySort 基准测试中表现良好,能在 30 分钟 14 秒内处理 110.5TiB 数据,平均吞吐量为 3.66TiB/min。
  • 开发时可通过 pip 安装[dev]进行单元测试,安装[docs]构建文档。
  • 项目采用 MIT 许可证。
    重要细节
  • CI 表示持续集成状态。
  • PyPI 可用于安装 smallpond。
  • Docs 为文档链接。
  • License 指向许可证文件。
  • 在快速启动示例中,详细说明了下载数据、使用 smallpond 进行数据处理的步骤及代码。
  • 开发部分说明了安装相关依赖进行单元测试和构建文档的操作。
阅读 12
0 条评论