NVIDIA NIM 现已登陆 Hugging Face,提供推理即服务

Hugging Face 推出基于 NVIDIA DGX Cloud 的推理即服务

Hugging Face 宣布推出基于 NVIDIA NIM 微服务的推理即服务(Inference-as-a-Service)功能。该服务旨在为开发者提供便捷访问 NVIDIA 加速推理的能力,支持热门 AI 模型的快速部署。

主要功能与服务特点

  1. 支持的模型:开发者可以快速部署领先的大型语言模型,如 Llama 3 系列和 Mistral AI 模型,这些模型通过 NVIDIA NIM 微服务在 NVIDIA DGX Cloud 上进行优化。
  2. 平台优势:NVIDIA DGX Cloud 专为生成式 AI 构建,提供可扩展的 GPU 资源,支持从原型到生产的 AI 开发全过程。
  3. 易用性:开发者可以轻松访问 Hugging Face Hub 上的开源 AI 模型,并在生产环境中部署。
  4. 计费方式:服务按请求的计算时间计费,使用 NVIDIA H100 Tensor Core GPU。

使用条件

  • 用户需要拥有 Enterprise Hub 组织访问权限和细粒度令牌进行身份验证。
  • 支持的生成式 AI 模型的 NVIDIA NIM 终端可以在 Hugging Face Hub 的模型页面上找到。

当前支持与未来扩展

  • 支持的 API:目前仅支持 chat.completions.createmodels.list API。
  • 未来计划:Hugging Face 正在扩展 API 支持并增加更多模型。

技术合作

  • Hugging Face 正在与 NVIDIA 合作,将 NVIDIA TensorRT-LLM 库集成到 Hugging Face 的文本生成推理(TGI)框架中,以提升 AI 推理性能和可访问性。
  • 除了推理即服务,Hugging Face 还提供 DGX Cloud 上的 AI 训练服务。

业界反响

  • Hugging Face CEO Clem Delangue 表示,Hugging Face 正在成为 AI 计算的网关。
  • Kaggle Master Rohan Paul 指出,该服务允许使用开放模型与 NVIDIA DGX Cloud 的加速计算平台进行推理服务,并且代码与 OpenAI API 完全兼容。

其他相关发布

  • 在 SIGGRAPH 大会上,NVIDIA 还推出了针对 OpenUSD 框架的生成式 AI 模型和 NIM 微服务,加速开发者构建高精度虚拟世界的能力。

总结

Hugging Face 与 NVIDIA 合作推出的推理即服务,为开发者提供了快速部署和优化 AI 模型的能力,进一步推动了生成式 AI 的应用和发展。

阅读 21
0 条评论