Hugging Face 推出基于 NVIDIA DGX Cloud 的推理即服务
Hugging Face 宣布推出基于 NVIDIA NIM 微服务的推理即服务(Inference-as-a-Service)功能。该服务旨在为开发者提供便捷访问 NVIDIA 加速推理的能力,支持热门 AI 模型的快速部署。
主要功能与服务特点
- 支持的模型:开发者可以快速部署领先的大型语言模型,如 Llama 3 系列和 Mistral AI 模型,这些模型通过 NVIDIA NIM 微服务在 NVIDIA DGX Cloud 上进行优化。
- 平台优势:NVIDIA DGX Cloud 专为生成式 AI 构建,提供可扩展的 GPU 资源,支持从原型到生产的 AI 开发全过程。
- 易用性:开发者可以轻松访问 Hugging Face Hub 上的开源 AI 模型,并在生产环境中部署。
- 计费方式:服务按请求的计算时间计费,使用 NVIDIA H100 Tensor Core GPU。
使用条件
- 用户需要拥有 Enterprise Hub 组织访问权限和细粒度令牌进行身份验证。
- 支持的生成式 AI 模型的 NVIDIA NIM 终端可以在 Hugging Face Hub 的模型页面上找到。
当前支持与未来扩展
- 支持的 API:目前仅支持
chat.completions.create和models.listAPI。 - 未来计划:Hugging Face 正在扩展 API 支持并增加更多模型。
技术合作
- Hugging Face 正在与 NVIDIA 合作,将 NVIDIA TensorRT-LLM 库集成到 Hugging Face 的文本生成推理(TGI)框架中,以提升 AI 推理性能和可访问性。
- 除了推理即服务,Hugging Face 还提供 DGX Cloud 上的 AI 训练服务。
业界反响
- Hugging Face CEO Clem Delangue 表示,Hugging Face 正在成为 AI 计算的网关。
- Kaggle Master Rohan Paul 指出,该服务允许使用开放模型与 NVIDIA DGX Cloud 的加速计算平台进行推理服务,并且代码与 OpenAI API 完全兼容。
其他相关发布
- 在 SIGGRAPH 大会上,NVIDIA 还推出了针对 OpenUSD 框架的生成式 AI 模型和 NIM 微服务,加速开发者构建高精度虚拟世界的能力。
总结
Hugging Face 与 NVIDIA 合作推出的推理即服务,为开发者提供了快速部署和优化 AI 模型的能力,进一步推动了生成式 AI 的应用和发展。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。