Kublet PLEG不健康问题排障

chanjarster

阅读 1 分钟

0

环境：Rancher管控的K8S集群。

现象：某个Node频繁出现“PLEG is not healthy: pleg was last seen active 3m46.752815514s ago; threshold is 3m0s”错误，频率在5-10分钟就会出现一次。

排查：

kubectl get pods --all-namespaces 发现有一个istio-ingressgateway-6bbdd58f8c-nlgnd一直处于Terminating状态，也就是说杀不死。

到Node上docker logs --tail 100 kubelet也看到这个Pod的状态异常：

I0218 01:21:17.383650   10311 kubelet.go:1775] skipping pod synchronization - [PLEG is not healthy: pleg was last seen active 3m46.752815514s ago; threshold is 3m0s]
...
E0218 01:21:30.654433   10311 generic.go:271] PLEG: pod istio-ingressgateway-6bbdd58f8c-nlgnd/istio-system failed reinspection: rpc error: code = DeadlineExceeded desc = context deadline exceeded

用kubelet delete pod尝试删除，命令挂住。
用kubectl delete pod --force --grace-period=0，强制删除Pod。
再到Node上检查这个容器是否真的被停止，docker ps -a| grep ingressgateway-6bbdd58f8c-nlgnd，看到容器处于Exited状态。
观察Node状态，问题依旧。
把Pod关联的Deployment删除，把一只处于Terminating的Pod用kubectl delete pod --force --grace-period=0的方式删除。
重新部署Deployment。
问题解决。

相关issue

阅读 12.2k发布于 2019-02-22

chanjarster

4.2k 声望245 粉丝

« 上一篇

JVM运行时数据区域

下一篇 »

Docker容器如何获得自己的名字

引用和评论

推荐阅读

记一次K8S VXLAN Overlay网络8472端口冲突问题的排查

chanjarster赞 2阅读 4.5k

Jenkins 企业级 CI/CD 实践：安装、配置与 Kubernetes & Docker 集成

Swift社区阅读 936

k8s集群部署（一主两从）

苦逼的小运维赞 3阅读 903

k8s实战基础

苦逼的小运维赞 1阅读 727

使用kubeadm部署高可用IPV4/IPV6集群---V1.32

小陈运维赞 1阅读 664

vivo 大规模容器集群运维平台实践

vivo互联网技术阅读 625

Python小项目：利用tkinter开发测手速小游戏

蓝易云阅读 609

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。