LLMOps 内幕：大型语言模型部署的 Docker 实践

发布于 2025-11-26

主要观点：大型语言模型（LLMs）无处不在，但在非托管服务中运行存在诸多问题，而 Docker 能解决这些问题，通过将整个环境打包进容器，可在各种环境运行 LLM，本文探讨了在 Docker 中运行 LLM 工作负载的方法，包括创建 LLM 就绪的 Docker 镜像、支持 GPU 的运行方式、在 Kubernetes 中扩展 LLM 工作负载等，并提出了最佳实践和注意事项。
关键信息：

Docker 能解决 LLM 运行的问题，提供一致的运行时环境、隔离性、可移植性、可扩展性和安全性等。
创建 LLM 就绪的 Docker 镜像需基于 NVIDIA CUDA 图像，安装 Python 及相关库，复制应用代码等。
运行 LLM 需 GPU 支持，需安装 NVIDIA Container Toolkit 并进行相关配置，可通过 docker exec 查看 GPU 状态。
在 Kubernetes 中扩展 LLM 工作负载需安装 NVIDIA Device Plugin DaemonSet 等，可通过多种方式进行扩展和管理，如拓扑扩散、自动缩放等。
运行 LLM 容器存在一些挑战，如图像膨胀、依赖问题、冷启动、GPU 调度问题等，需采用最佳实践来管理。
重要细节：
Dockerfile 示例代码用于构建 LLM 就绪的 Docker 镜像，包括基础镜像选择、库安装、代码复制等。
运行 GPU 支持的容器的命令及相关参数解释，如 --gpus all、-p 8080:8080 等。
Kubernetes 中扩展 LLM 工作负载的 YAML 示例代码，包括 Deployment、Service、Topology spread、Autoscale 等配置。
最佳实践包括使用多阶段构建、缓存模型权重、锁定依赖、对齐驱动和运行时、扫描和签名图像、监控 GPU 利用率等。

阅读 113