宣布 llm-d 社区！ - SegmentFault 思否

主要观点：llm-d 是 Kubernetes 原生的高性能分布式 LLM 推理框架，能让用户以模块化、高性能的端到端服务解决方案实现生成式 AI 部署，利用最新分布式推理优化提升性能。LLM 推理工作负载独特，传统扩展和负载均衡模式效果不佳，而 llm-d 通过分布式架构、优化和整合来应对。其目标是为用户在现有部署框架（Kubernetes）中采用领先分布式推理优化提供便捷路径，设计有模块化分层架构，包含 vLLM、Kubernetes 和 Inference Gateway 等，还做出了多项关键贡献，如优化的推理调度器、解耦服务、解耦前缀缓存和变体自动缩放等，并通过实验展示了其性能优势，欢迎 AI 工程师和研究人员参与。
关键信息：

llm-d 利用 KV 缓存感知路由和解耦服务等优化提升性能。
LLM 推理工作负载特点为请求昂贵、有差异，多轮请求模式可通过缓存提升性能，解耦预填充和解码阶段可提高 GPU 吞吐量。
llm-d 设计原则为可操作性、灵活性和高性能，架构基于 vLLM、Kubernetes 和 Inference Gateway。
关键贡献包括优化推理调度器、解耦服务和缓存、变体自动缩放等。
实验证明 llm-d 的缓存和前缀感知调度能降低 TTFT 并提高 QPS。
提供了快速启动部署的示例和相关资源。
重要细节：
不同 LLM 推理请求形状差异大，导致实例间不平衡，过载会增加延迟。
许多 LLM 工作负载有“多轮”请求模式，vLLM 的自动前缀缓存可提升性能。
标准 LLM 部署中预填充和解码阶段在单个副本内，资源利用效率低，解耦可优化。
生产部署中 LLM 有不同服务质量要求，从毫秒级到小时级。
llm-d 旨在利用这些特点实现 LLM 工作负载的最佳性能，为用户提供便捷路径。
架构中的 vLLM 支持多种模型和硬件加速器，Kubernetes 是容器编排引擎，IGW 扩展了 Gateway API 用于推理路由。
关键贡献的具体实现和细节，如推理调度器的端点选择器协议等。
实验中 llm-d 在不同配置下的性能表现及对比。
提供了获取和尝试 llm-d 的途径，如 Github 仓库、开发者 Slack 和快速启动示例。