谷歌云运行现在为 AI 和批量处理提供无服务器 GPU

发布于 6 月 9 日

主要观点：Google Cloud 宣布 Cloud Run 支持 NVIDIA GPU 全面可用，旨在为多种 GPU 加速用例提供强大且成本高效的环境，特别是在 AI 推理和批量处理方面。
关键信息：

开发者青睐 Cloud Run 的简单、灵活和可扩展性，添加 GPU 支持后将核心优势扩展至 GPU 资源。
具备按秒计费、自动缩至零、快速启动和扩展、全流支持等特性。
NVIDIA 主管称服务器less GPU 加速是重大进步，Cloud Run 上的 NVIDIA L4 GPU 支持对所有用户开放且无需配额请求。
Cloud Run with GPU 支持已就绪，有区域冗余，可关闭区域冗余以降低价格。
此发布引发开发者社区关于竞争影响的讨论，有人认为 AWS 应早有此服务，也有人担心缺乏硬计费限制和价格竞争力。
Google 还宣布在 Cloud Run jobs 上可用 GPU（处于私有预览），支持全球，有多个区域，开发者可利用相关文档等开始构建。
重要细节：
按秒计费，仅按消耗的 GPU 资源计费，减少浪费。
不活跃时自动缩至零，消除空闲成本，对 sporadic 或 unpredictable 工作负载有益。
GPU 和驱动实例可在 5 秒内启动，快速响应需求。
内置 HTTP 和 WebSocket 流支持，可用于实时 LLM 响应等交互应用。
在 Hacker News 线程中，有人指出其他提供商如 Runpod.io 对类似 GPU 实例定价更有竞争力。
Cloud Run jobs 上的 GPU 解锁了批量处理和异步任务的新用例。

阅读 341