主要观点:llm-d 是 Kubernetes 原生的高性能分布式 LLM 推理框架,能让用户以模块化、高性能的端到端服务解决方案实现生成式 AI 部署,利用最新分布式推理优化提升性能。LLM 推理工作负载独特,传统扩展和负载均衡模式效果不佳,而 llm-d 通过分布式架构、优化和整合来应对。其目标是为用户在现有部署框架(Kubernetes)中采用领先分布式推理优化提供便捷路径,设计有模块化分层架构,包含 vLLM、Kubernetes 和 Inference Gateway 等,还做出了多项关键贡献,如优化的推理调度器、解耦服务、解耦前缀缓存和变体自动缩放等,并通过实验展示了其性能优势,欢迎 AI 工程师和研究人员参与。
关键信息:
- llm-d 利用 KV 缓存感知路由和解耦服务等优化提升性能。
- LLM 推理工作负载特点为请求昂贵、有差异,多轮请求模式可通过缓存提升性能,解耦预填充和解码阶段可提高 GPU 吞吐量。
- llm-d 设计原则为可操作性、灵活性和高性能,架构基于 vLLM、Kubernetes 和 Inference Gateway。
- 关键贡献包括优化推理调度器、解耦服务和缓存、变体自动缩放等。
- 实验证明 llm-d 的缓存和前缀感知调度能降低 TTFT 并提高 QPS。
- 提供了快速启动部署的示例和相关资源。
重要细节: - 不同 LLM 推理请求形状差异大,导致实例间不平衡,过载会增加延迟。
- 许多 LLM 工作负载有“多轮”请求模式,vLLM 的自动前缀缓存可提升性能。
- 标准 LLM 部署中预填充和解码阶段在单个副本内,资源利用效率低,解耦可优化。
- 生产部署中 LLM 有不同服务质量要求,从毫秒级到小时级。
- llm-d 旨在利用这些特点实现 LLM 工作负载的最佳性能,为用户提供便捷路径。
- 架构中的 vLLM 支持多种模型和硬件加速器,Kubernetes 是容器编排引擎,IGW 扩展了 Gateway API 用于推理路由。
- 关键贡献的具体实现和细节,如推理调度器的端点选择器协议等。
- 实验中 llm-d 在不同配置下的性能表现及对比。
- 提供了获取和尝试 llm-d 的途径,如 Github 仓库、开发者 Slack 和快速启动示例。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。