在 Kubernetes 上运行 AI/ML：从原型到生产——在 Kubernetes 上使用 MLflow、KServe 和 vLLM 自信地交付模型

发布于 9 月 23 日

主要观点：在生产中，训练完机器学习模型后，推理阶段需快速、可靠且成本高效，Kubernetes 能为训练和服务模型提供可扩展、可移植平台，可解决 GPU/资源管理等难题，容器化利于模型 CI/CD，MLFlow 可管理模型流程，KServe 提供生产级推理平台，Azure ML 可实现自动化机器学习并部署到 AKS，在 Kubernetes 上运行 LLMs 可实现可靠、可扩展和可复制的推理，还有其他 Kubernetes 推理框架可供选择。
关键信息：

Kubernetes 可高效调度 GPU 和其他资源，协调多组件栈。
MLFlow 可跟踪实验、保存环境和代码、管理模型版本，能打包和服务模型。
KServe 为流行 ML 库提供高性能、可扩展的推理服务。
Azure ML 可实现全 ML 生命周期管理，可将 AutoML 模型部署到 AKS。
vLLM 可在 Kubernetes 上实现高吞吐量、内存高效的 LLM 推理，与 KServe 结合使用。
有多种 Kubernetes 推理框架可供选择，各有优缺点。
重要细节：
介绍了典型的 ML 推理设置，包括客户端通过 ingress 发送请求到 KServe InferenceService 及内部组件。
详细说明了使用 MLFlow 和 KServe 在 Kubernetes 上的实践步骤，如安装、训练、部署等。
阐述了在 Azure 中使用 AutoML 找到最佳模型并部署到 AKS 的过程。
展示了在 Kubernetes 上部署 LLM 的步骤，包括准备集群、获取 vLLM 等。
对比了 KServe 等替代工具和库的优缺点。

阅读 240