5 月 23 日 - 24 日,备受瞩目的 AICon 全球人工智能开发与应用大会・上海站(2025)在上海圆满举行。此次大会由极客邦科技旗下 InfoQ 中国主办,吸引了超 1000+ 位 AI 开发者、技术专家及相关从业者参会,现场交流氛围热烈。
AICon 大会作为 AI 领域的重要交流平台,汇聚了来自快手、华为、阿里云、腾讯云、蚂蚁集团等海内外企业与高校的 60 多位专家,共同探讨大模型架构创新、多模态应用、AI Agent 构建等多个热门方向的深度议题,推动 AI 技术从理论研究向实际应用的加速转化。
GMI Cloud 资深架构师 Frank Lee 受邀参加《企业全球化发展的策略路径》主题分论坛,并进行了主题为《GMI Cloud 全球化高性能分布式推理服务构建实践》的分享。以下为 Frank 的演讲精华整理:
AI 应用市场增长与出海现状
全球 AI 应用在过去一年呈现出爆发式增长态势,总访问量从 36 亿攀升至 76 亿,实现翻倍增长,与此同时,收入和下载量也同步显著上涨。这一增长趋势延续至今,春节后因 Deepseek 出圈带动 AI 渗透率大幅提升,家中长辈也纷纷加入使用行列,推动 AI 应用自去年起加速爆发。作为 GPU 云服务商,从今年起,我们收到的推理和应用客户需求激增,而训练部分需求则相对减少。
将目光聚焦于中国 AI 出海情况,国内规模以上 AI 产品数量超 300 个,其中出海 AI 产品约 156 个,截止 4 月数据为月活跃超 5 万的应用。出海产品从去年同期 35 个左右增长至 156 个,涨幅超 300%,且近两三个月以每月 10 - 20 个速度递增,海外 AI 推理算力需求持续攀升,稳定供应成为 2025 年的重点任务。从头部 APP 数据看,中国出海 AI 应用用户遍布全球,下载量和收入地区分布存在差异,例如印度下载量较大,北美、日本付费占比高,成为出海热门区域。同时,AI 应用常出现突然爆火现象,因流量突增导致服务能力,尤其是算力服务跟不上,影响用户体验和留存。
在 AI 应用全球化增长趋势下,构建及时稳定的推理服务面临诸多挑战:
- 出海应用覆盖区域广泛,推理服务需全球多区域覆盖,以满足不同地区的用户需求;
- 用户规模增长迅速,要构建具备自动扩容能力的推理服务,以应对突发流量,确保服务的稳定性和可用性;
- 在有限的资源条件下,优化推理服务性能,提升 SLO 水平,为用户提供更直观、流畅的体验。
GMI Cloud 推理服务实践与解决方案
针对目前AI应用企业面对挑战,GMI Cloud 基于过往积累的推理服务实践经验。今年,GMI Cloud 为众多推理需求客户打造了推理平台 Inference Engine,该平台构建在 GMI Cloud 云平台上,能够提供快速部署、稳定服务及性能优化,且逐步产品化服务海外用户。
在自动扩缩容方面,GMI Cloud 在 PD 分离架构下实现了 P 负载均衡,基于负载水平调度到低负载 worker,相对容易实现,主要是无状态的负载感知和均衡。对于较为复杂的 Dworker 负载均衡,GMI Cloud 通过 prompt hash 或 input token ID 前缀匹配计算得分,结合 GPU 负载和队列长度综合匹配合适 worker。针对多轮对话场景,采用基于 session ID 的粘性调度,确保同一对话在同一个 Decode worker 上处理,避免上下文缺失。
在扩容策略上,GMI Cloud 采用线性条件扩容方法,综合 GPU负载、SLA 水平、首次延迟、整体吞吐以及用户请求队列长度等指标触发扩容或缩容,同时研究基于集群数据和未来流量预测的非线性方法,以提高资源利用率和扩容决策的准确性。
在冷启动加速方面,GMI Cloud 利用高速文件存储与 RDMA 技术快速加载模型,提前进行 Runtime 初始化优化,包括模型执行图的预编译、KV Aware的预分配以及通信结构复用操作,实现分钟级副本扩容。
GMI Cloud 还实现了多集群、跨地区自动扩容,与 CDN 厂商合作实现本地用户访问本地集群,基于收集推理负载数据进行单集群负载均衡和扩容编排,满足多区域客户需求。例如在北美和东南亚,实现整体多集群的负载均衡和自动扩容。
在 PD 分离技术应用方面,GMICloud 根据场景定制 PD 分离或融合。如 Agent 类应用中,用于意图识别和工具调用的模型,input 长度短且调用频次低,适合 PD 融合;长上下文、高频调用场景适合 PD 分离。同时,GMI Cloud 分享了不同场景下 P 和 D 比例经验数据。通用聊天场景(input 512 token 以下)P 和 D 比例 1:1 较合适;input 在 1K 以上时比例 2:1 较合适;rag 场景(input 几千 token 甚至上万)比例 4:1 较合适。对于首帧延迟要求高、高 QPS、流式输出场景,Decoder 比例多一点更好。此外,GMICloud 还在探索 P 和 D 快速在线转换,以应对创业公司有限资源和动态场景变化。
在 KV CACHE 缓存池管理上,GMI Cloud 以 HBM 显存为核心,结合本地内存、NVMe SSD 硬盘等构建统一缓存池,提升缓存命中率,同时利用用户输入的 “20%与80%” 比例现象,对高频 prompt 的 KV 持久化存储和跨集群共享,优化推理效率。
为了助力客户快速测试推理框架和超参数,选择性价比高的组合,GMI Cloud 推出了 Inference Engine Arena 工具,并且强调获取最新 GPU(如 B200),其在推理性能和性价比上优势明显。测试表明其相比 H200 吞吐量提升显著,且在不同并行策略下表现优越。
在推理服务部署与运维支持方面,GMI Cloud 提供界面化镜像构建、快速部署、全面监控等功能,满足客户快速部署和运维需求。实现全链条可观测,涵盖硬件、系统、推理负载等多方面,定义高级监控指标助力故障监测。积累多种故障监测策略实现自动化处理,保障服务稳定性。
GMI Cloud 推理服务实践与解决方案
GMI Cloud 推理引擎平台 Inference Engine具备弹性伸缩、高效推理部署流程、结合硬件的性能优化以及全面监控与保障等特点。
Inference Engine 会基于一些开源的模型,比如说 Deepseek R1 和 Deepseek V3 这些模型去构建 API 服务,并基于这些大模型做了推理性能的优化,目前这个推理服务的 API 目已经上线,价格在行业内非常有竞争力。以 LLama 4 为例,整体 API 的调用的也是遵循 OpenAI 的 API 格式,大家可以直接以 API 的形式来去快速地去调用,接入自己的应用当中。
在客户服务过程中,GMI Cloud 满足了一家北美图片生成和视频生成的企业“弹性扩容”的需求。GMI Cloud 帮助他们应对了用户量在过去两个月内的较大增长,其出现过一天内需要快速弹性扩容一倍,一个月内整体扩容水平增长 8 倍的情况。
同时,与欧洲的视频和音乐生成厂商合作,GMI Cloud 提供了训练和推理的支持服务。在训练部分,通过通信优化和加速提升整体训练速度,并且利用欧洲时间与北美和亚太用户“时差”优势,用闲置资源支撑其在欧洲的推理高峰时间。
关于 GMI Cloud
由 Google X 的 AI 专家与硅谷精英共同参与创立的 GMI Cloud 是一家领先的 AI Native Cloud 服务商,拥有遍布全球的数据中心网络,为企业 AI 应用提供最新、最优的 GPU 云服务,为全球新创公司、研究机构和大型企业提供稳定安全、高效经济的 AI 云服务解决方案。
GMI Cloud 凭借高稳定性的技术架构、强大的GPU供应链以及令人瞩目的 GPU 产品阵容(如拥有 AI 强大算力的 H100、能够精准平衡 AI 成本与效率的 H200、具有卓越性能的 B200 等),确保企业客户在高度数据安全与计算效能的基础上,高效低本地完成 AI 落地。此外,通过自研“Cluster Engine”、“Inference Engine”两大平台,完成从算力原子化供给到业务级智算服务的全栈跃迁,全力构建下一代智能算力基座。
作为推动通用人工智能(AGI)未来发展的重要力量,GMI Cloud 持续在 AI 基础设施领域引领创新。选择 GMI Cloud,您不仅是选择了先进的 GPU 云服务,更是选择了一个全方位的 AI 基础设施合作伙伴。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。