K8S 低成本 AI 推理方案

最新发现一个很不错的开源工具，可以帮助我们降低深度学习推理的成本。

Karpenter 是一个用于 Kubernetes 集群的节点自动配置工具，它通过 AKS Karpenter Provider 在 AKS 集群上启用节点自动配置功能。

Karpenter 的主要功能包括监控 Kubernetes 调度器标记为不可调度的 Pods，评估 Pods 请求的调度约束（资源请求、节点选择器、亲和性、容忍性和拓扑扩散约束），根据这些约束配置满足要求的节点，并在这些节点不再需要时移除它们。

此外，Karpenter 还能够将现有节点整合到更便宜、利用率更高的节点上。

使用场景方面，Karpenter 适用于需要动态调整 Kubernetes 集群资源配置的场景，特别是在工作负载变化较大、需要频繁调整节点配置以适应不同工作负载需求的环境中。

例如，对于需要根据实际使用情况自动扩展或缩减节点数量的应用，Karpenter 可以自动化这一过程，提高资源配置的灵活性和效率。

总的来说，Karpenter 是一个强大的工具，能够帮助用户更高效、更经济地管理 Kubernetes 集群的资源配置。在 AKS 的深度学习推理中，我们可以用 SpotVM 当成 AKS 的 worker 节点。

通过微软官方合作伙伴获取服务，可以合规、稳定地提供企业用户使用ChatGPT的可能，满足国内发票需求，同时也能解决连接不稳定/响应速度慢/并发配额低等问题。

把多个 SpotVM 作为 AKS 的 worker node，然后针对 GPU 推理的 K8S SVC 在多个 worker node 上创建多个副本，那么即使一个 worker node 被驱逐，业务也不受影响；如果能承受短时可能的短暂的业务中断，一个 pod 也可以，Karpenter 发现 worker 节点被驱逐，能将 pod 在其他节点重启。

多 pod 副本需要使用 SVC 和 K8S 的 ingress。

创建多个 Node pool，其中一个 node pool 使用 spotvm，另外一个 nodepool 可以使用正常的 GPU VM。

然后针对不同的 nodepool 设置不同的 weight。这样 GPU pod 的 deployment 就会先选择 weight 高的 pool 进行部署。参照如下链接部署好一个支持Karpenter的AKS。

🔗 https://learn.microsoft.com/en-us/azure/aks/node-autoprovisio...然后创建一个GPU pod的deployment，初始副本数设置为1：xinyu [ ~ ]$ kubectl get deploymentNAME READY UP-TO-DATE AVAILABLE AGEsamples-gpu 0/1 1 0 2m24s此时 Azure 开始创建 spot gpu vm，如下所示：

xinyu [ ~ ]$ kubectl get nodeclaims.karpenter.shNAME TYPE ZONE NODE READY AGEgpu-spot-57p8w Standard_NC24ads_A100_v4 southeastasia-2 False 2m18sxinyu [ ~ ]$ kubectl describe deployment samples-gpuName: samples-gpuNamespace: defaultCreationTimestamp: Sun, 24 Mar 2024 02:06:56 +0000Labels: app=samples-tf-mnist-demoAnnotations: deployment.kubernetes.io/revision: 1Selector: app=samples-tf-mnist-demoReplicas: 1 desired | 1 updated | 1 total | 0 available | 1 unavailableStrategyType: RollingUpdateMinReadySeconds: 0RollingUpdateStrategy: 25% max unavailable, 25% max surgePod Template:Labels: app=samples-tf-mnist-demoContainers:samples-tf-mnist-demo:Image: mcr.microsoft.com/azuredocs/samples-tf-mnist-demo:gpuPort: <none>Host Port: <none>Args:--max_steps50000Limits:nvidia.com/gpu: 1Environment: <none>Mounts: <none>Volumes: <none>Conditions:Type Status Reason---- ------ ------Available False MinimumReplicasUnavailableProgressing True ReplicaSetUpdatedOldReplicaSets: <none>NewReplicaSet: samples-gpu-95b9c58b6 (1/1 replicas created)Events:Type Reason Age From Message---- ------ ---- ---- -------Normal ScalingReplicaSet 2m42s deployment-controller Scaled up replica set samples-gpu-95b9c58b6 to 1大约2-3分钟，查看 AKS 节点，已经多个一个 GPU VM。xinyu [ ~ ]$ kubectl get nodesNAME STATUS ROLES AGE VERSIONaks-gpu-spot-57p8w Ready agent 33s v1.27.9aks-nodepool1-34768744-vmss000000 Ready agent 54m v1.27.9aks-nodepool1-34768744-vmss000001 Ready agent 54m v1.27.9aks-nodepool1-34768744-vmss000002 Ready agent 54m v1.27.9xinyu [ ~ ]$ kubectl get podsNAME READY STATUS RESTARTS AGEsamples-gpu-95b9c58b6-nbg8g 1/1 Running 0 4m10s登录 pod，查看其中的 GPU 资源：xinyu [ ~ ]$ kubectl exec -ti samples-gpu-95b9c58b6-nbg8g -- /bin/shNAME READY UP-TO-DATE AVAILABLE AGEsamples-gpu 0/1 1 0 2m24s

xinyu [ ~ ]$ kubectl get deploymentNAME READY UP-TO-DATE AVAILABLE AGEsamples-gpu 1/1 1 1 4m56s将 GPU Pod 的副本数增加为2：xinyu [ ~ ]$ kubectl scale deployment samples-gpu --replicas=2deployment.apps/samples-gpu scaledxinyu [ ~ ]$ kubectl get deploymentNAME READY UP-TO-DATE AVAILABLE AGEsamples-gpu 1/2 2 1 7m28s过了1-2分钟，增加完毕：xinyu [ ~ ]$ kubectl exec -ti samples-gpu-95b9c58b6-nbg8g -- /bin/shNAME READY UP-TO-DATE AVAILABLE AGEsamples-gpu 2/2 2 2 11m再次查看 AKS 节点，又多了一个 GPU VM。xinyu [ ~ ]$ kubectl get nodesNAME STATUS ROLES AGE VERSIONaks-gpu-spot-57p8w Ready agent 10m v1.27.9aks-gpu-spot-p9vh8 Ready agent 3m1s v1.27.9aks-nodepool1-34768744-vmss000000 Ready agent 63m v1.27.9aks-nodepool1-34768744-vmss000001 Ready agent 63m v1.27.9aks-nodepool1-34768744-vmss000002 Ready agent 63m v1.27.9查看 karpenter 对应的三个 CRD：xinyu [ ~ ]$ kubectl get crd |grep -i karaksnodeclasses.karpenter.azure.com 2024-03-24T01:18:01Znodeclaims.karpenter.sh 2024-03-24T01:18:01Znodepools.karpenter.sh 2024-03-24T01:18:01Z查看 karpenter claim 的节点，有两个：xinyu [ ~ ]$ kubectl get nodeclaims.karpenter.shNAME TYPE ZONE NODE READY AGEgpu-spot-57p8w Standard_NC24ads_A100_v4 southeastasia-2 aks-gpu-spot-57p8w True 15mgpu-spot-p9vh8 Standard_NC24ads_A100_v4 southeastasia-2 aks-gpu-spot-p9vh8 True 8m11s此时查看 Azure VM，有两个 GPU SpotVM：

将 deployments 副本数设置为0，AKS 会剔除对应节点，Azure 也会删除 GPU SpotVM。

xinyu [ ~ ]$ kubectl scale deployment samples-gpu --replicas=0deployment.apps/samples-gpu scaledxinyu [ ~ ]$ kubectl get deploymentNAME READY UP-TO-DATE AVAILABLE AGEsamples-gpu 0/0 0 0 26m

K8S 低成本 AI 推理方案

全云在线

引用和评论

使用 Python SDK 构建文档智能自定义分类模型

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

Vue3-ChatGPT：基于vite4.x+vue3+pinia2模仿chatgpt聊天AI实例

分享自制小工具：AutomateGPT – 在 ChatGPT 里批量执行任务

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读