TKE qGPU 通过 CRD 管理集群 GPU 卡资源

作者

刘旭，腾讯云高级工程师，专注容器云原生领域，有多年大规模 Kubernetes 集群管理经验，现负责腾讯云 GPU 容器的研发工作。

背景

目前 TKE 已提供基于 qGPU 的算力/显存强隔离的共享 GPU 调度隔离方案，但是部分用户反馈缺乏 GPU 资源的可观测性，例如无法获取单个 GPU 设备的剩余资源，不利于 GPU 资源的运维和管理。在这种背景下，我们希望提供一种方案，可以让用户在 Kubernetes 集群中直观的统计和查询 GPU 资源的使用情况。

目标

在目前 TKE 共享 GPU 调度方案的基础上，从以下几个方面增强 GPU 设备的可观测性：

支持获取单个 GPU 设备的资源分配信息。
支持获取单个 GPU 设备的健康状态。
支持获取某个节点上各 GPU 设备信息。
支持获取 GPU 设备和 Pod / Container 关联信息。

我们的方案

我们通过 GPU CRD 扫描物理 GPU 的信息，并在 qGPU 生命周期中更新使用到的物理 GPU 资源，从而解决在共享 GPU 场景下缺少可见性的问题。

自定义 GPU CRD：每个 GPU 设备对应一个 GPU 对象，通过 GPU 对象可以获取 GPU 设备的硬件信息，健康状态以及资源分配情况。
Elastic GPU Device Plugin：根据 GPU 设备的硬件信息创建 GPU 对象，定期更新 GPU 设备的健康状态。
Elastic GPU Scheduler：根据 GPU 资源使用情况调度 Pod，同时将调度结果更新到 GPU 对象。

TKE GPU CRD 设计

apiVersion: elasticgpu.io/v1alpha1
kind: GPU
metadata:
  labels:
    elasticgpu.io/node: 10.0.0.2
  name: 192.168.2.5-00
spec:
  index: 0
  memory: 34089730048
  model: Tesla V100-SXM2-32GB
  nodeName: 10.0.0.2
  path: /dev/nvidia0
  uuid: GPU-cf0f5fe7-0e15-4915-be3c-a6d976d65ad4
status:
  state: Healthy
  allocatable:
    tke.cloud.tencent.com/qgpu-core: "50"
    tke.cloud.tencent.com/qgpu-memory: "23"
  allocated:
    0dc3c905-2955-4346-b74e-7e65e29368d2:
      containers:
      - container: test
        resource:
          tke.cloud.tencent.com/qgpu-core: "50"
          tke.cloud.tencent.com/qgpu-memory: "8"
      namespace: default
      pod: test
  capacity:
    tke.cloud.tencent.com/qgpu-core: "100"
    tke.cloud.tencent.com/qgpu-memory: "31"

每个 GPU 物理卡对应一个 GPU CRD，通过 GPU CRD 可以清楚了解每张卡的型号，显存等硬件信息，同时通过 status 可以获取每个 GPU 设备的健康状态和资源分配情况。

TKE GPU 调度过程

Kubernetes 提供了 Scheduler Extender 用于对调度器进行扩展，用于满足复杂场景下的调度需求。扩展后的调度器会在调用内置预选策略和优选策略之后通过 HTTP 协议调用扩展程序再次进行预选和优选，最后选择一个合适的 Node 进行 Pod 的调度。

在 TKE Elastic GPU Scheduler（原 TKE qGPU Scheduler），我们结合了 GPU CRD 设计，在调度时首先会根据 status.state 过滤掉异常 GPU 设备，然后根据 status.allocatable 选择剩余资源满足需求的 GPU 设备，在最终完成调度时更新 status.allocatable 和 status.allocated 。

TKE GPU 分配过程

Kubernetes 提供了 Device Plugin 机制用于支持 GPU FPGA 等硬件设备，设备厂商只需要根据接口实现 Device Plugin 而不需要修改 Kubernetes 源码，Device Plugin 一般以 DaemonSet 的形式运行在节点上。

我们在 TKE Elastic GPU Device Plugin（原 TKE qGPU Device Plugin）启动时会根据节点上 GPU 设备的硬件信息创建 GPU 对象，同时会定期检查 GPU 设备的健康状态并同步到 GPU 对象的 status.state。

总结

为了解决目前 TKE 集群内 GPU 资源可观测性缺失的问题，我们引入了 GPU CRD，用户可以直观的统计和查询集群内 GPU 资源的使用情况，目前这套方案已和 qGPU 完成整合，在 TKE 控制台安装 qGPU 插件时选择使用 CRD 即可开启。

目前 TKE qGPU 已全量上线，详情请戳：https://cloud.tencent.com/doc...

关于我们

更多关于云原生的案例和知识，可关注同名【腾讯云原生】公众号~

福利：

①公众号后台回复【手册】，可获得《腾讯云原生路线图手册》&《腾讯云原生最佳实践》~

②公众号后台回复【系列】，可获得《15个系列100+篇超实用云原生原创干货合集》，包含Kubernetes 降本增效、K8s 性能优化实践、最佳实践等系列。

③公众号后台回复【白皮书】，可获得《腾讯云容器安全白皮书》&《降本之源-云原生成本管理白皮书v1.0》

④公众号后台回复【光速入门】，可获得腾讯云专家5万字精华教程，光速入门Prometheus和Grafana。

【腾讯云原生】云说新品、云研新术、云游新活、云赏资讯，扫码关注同名公众号，及时获取更多干货！！

TKE qGPU 通过 CRD 管理集群 GPU 卡资源

作者

背景

目标

我们的方案

TKE GPU CRD 设计

TKE GPU 调度过程

TKE GPU 分配过程

总结

关于我们

福利：

账号已注销

引用和评论

Serverless AI绘画技术沙龙【深圳站】火热报名中

DeepSeek 从热潮到应用，腾讯云携手行业专家共探 AI 下一步

2025免费云服务器盘点

信息安全风云录，AI 时代安全江湖如何见招拆招？

腾讯云TVP AI与安全高峰论坛圆满落幕，共探大模型时代的安全破局之道

腾讯云cos大文件上传服务端实现一篇搞定

具身智能全解读，从实验室到产业化 | TVP技术夜未眠