头图

随着业务的飞速发展, 依托创新数据处理技术来为众多企业提供云原生湖仓解决方案的 Databend,面临着用户日益增长的复杂数据处理需求,从 2023 年起便开始探索将大模型能力引入湖仓,对算力和 API 稳定性提出了近乎苛刻的要求,青云科技旗下基石智算CoresHub 提供 DeepSeek 稳定的 API 调用,为 Databend 的能力创新筑牢了坚实基础。

业务创新拥抱 DeepSeek

Databend 是一款基于 Rust 语言,开源的新一代云原生数据湖仓,围绕着大规模数据提供实时分析、复杂查询以及数据湖仓的高效管理,处理的数据类型丰富多样,涵盖了结构化、半结构化和非结构化数据,数据量动辄以 PB 级别计算,需要对海量的实时数据进行快速处理,为企业提供即时的决策支持。

Databend 通过 SQL 调用模式,将自身的数据处理能力与 DeepSeek 强大的自然语言处理和数据理解能力相结合,帮助用户高效处理数据,挖掘数据价值。目前已经在内部质量保证系统、AI 函数服务、非结构化数据处理等国内场景中,成功以青云提供的 DeepSeek 服务替换海外的 OpenAI 服务,在数据处理与分析、智能查询与交互优化、自动化与智能化工作流等方面受益,减少人工分析的时间和工作量。

  • 内部质量保障系统

为确保企业用户在升级过程中受到的影响最小化,Databend 基于 DeepSeek 的 SQL 模式生成了一套冒烟测试(Smoke Test)集合。测试数据生成引擎的核心技术依赖于 DeepSeek 的强大数据处理能力,能够根据 SQL 模式生成更接近用户真实业务场景的数据分布,尤其是容易触发边界问题的测试数据。该方式不仅提高了测试覆盖率,还能更有效地发现潜在系统风险,为企业用户提供更加可靠的质量保障。

  • AI 函数服务

Databend 为用户提供了一系列 AI 函数(AI Functions)服务实现数据的 ETL,用户可以直接在 SQL 中调用函数,利用 AI 能力从数据中挖掘更大价值。此前,Databend 全球服务均基于 OpenAI 的 API 支撑。但由于其仅支持海外用户场景,在 DeepSeek-V3 发布后,Databend 将国内场景替换为 DeepSeek,以更好满足国内用户需求。

  • 非结构化数据处理

Databend 的很多用户在实际业务场景中,常常需要从非结构化数据中提取实体信息并转化为结构化数据,挖掘其数据价值。Databend 利用 Deepseek 的数据处理与分析能力,可以更高效地提取数据信息,并以 JSON 格式输出。以下是一个通过 DeepSeek V3 实现的示例: 输入: “请发送邮件至 mailto:hi@example.com 与我联系,或访问我们在北京市中关村大街 123 号的办公室。” 输出

{
  "邮箱": "hi@example.com",
  "地址": "北京市中关村大街 123 号"
}

DeepSeek-V3 作为一个通用 NLP 模型,适用于广泛的应用场景,能够高效处理各种文本生成、摘要和对话任务,671B 满血版本能提供更强大的功能和更准确的结果,真正为 Databend 业务创新提供有效支持。

基石智算CoresHub 通过 AI 算力云提供的 DeepSeek- V3 671B 模型服务,不仅提供了兼容 OpenAI 接口规范的使用方式,而且支持 API 调用、一键云端部署和私有化部署方式。用户仅需创建 API 密钥,即可通过 AI 应用或第三方客户端完成对特定模型的调用访问。

API 稳定是数据交互的生命线

目前,Databend 在游戏、社交、金融、广告、电商等多个行业领域中的企业级生产环境得到应用,每天处理超过 1 亿次查询,管理超过 800PB 的分析数据,某些核心生产业务单表超过 PB 级。一旦 API 出现故障或不稳定,就会影响 Databend 的对内对外服务。特别是在对外服务中,无法为用户提供 AI 函数,将影响用户的业务连续性。因此,保证 API 服务的稳定可靠,对 Databend 尤为重要。

青云科技扎根企业级市场十余年,深刻理解 Databend 对于 API 稳定的需求。基石智算CoresHub AI 底层采用分布式架构,能够有效避免单点故障,并通过动态流量调整,保障 API 始终以最优性能运行。基石智算CoresHub 监控系统会对对API 关键性能指标进行实时跟踪,一旦监测到异常,专业运维团队就会及时响应。更重要的是,根据用户反馈和业务发展需求,基石智算CoresHub 会持续改进 API 的功能和服务质量。

此次 Databend 与青云科技的密切合作创新,必将为双方的深度协作与业务拓展奠定坚实基础,共同引领数据处理行业迈向新的高度。

关于 Databend

Databend 是一款开源、弹性、低成本,基于对象存储也可以做实时分析的新式湖仓。期待您的关注,一起探索云原生数仓解决方案,打造新一代开源 Data Cloud。

👨‍💻‍ Databend Cloud:https://databend.cn

📖 Databend 文档:https://docs.databend.com

💻 Wechat:Databend

✨ GitHub:https://github.com/databendlabs/databend


databend
20 声望10 粉丝

Databend 旨在成为一个 开源、弹性、可靠 的无服务器数仓,查询快如闪电,与 弹性、简单、低成本 的云服务有机结合。数据云的构建,从未如此简单!