新手上路，请多包涵

我需要一些关于我在使用 k8s 1.14 并在其上运行 gitlab 管道时遇到的问题的建议。许多作业都抛出退出代码 137 错误，我发现这意味着容器被突然终止。

集群信息：

Kubernetes 版本：1.14 正在使用的云：AWS EKS 节点：C5.4xLarge

深入挖掘后，我发现了以下日志：

 **kubelet: I0114 03:37:08.639450**  4721 image_gc_manager.go:300] [imageGCManager]: Disk usage on image filesystem is at 95% which is over the high threshold (85%). Trying to free 3022784921 bytes down to the low threshold (80%).

**kubelet: E0114 03:37:08.653132**  4721 kubelet.go:1282] Image garbage collection failed once. Stats initialization may not have completed yet: failed to garbage collect required amount of images. Wanted to free 3022784921 bytes, but freed 0 bytes

**kubelet: W0114 03:37:23.240990**  4721 eviction_manager.go:397] eviction manager: timed out waiting for pods runner-u4zrz1by-project-12123209-concurrent-4zz892_gitlab-managed-apps(d9331870-367e-11ea-b638-0673fa95f662) to be cleaned up

**kubelet: W0114 00:15:51.106881**   4781 eviction_manager.go:333] eviction manager: attempting to reclaim ephemeral-storage

**kubelet: I0114 00:15:51.106907**   4781 container_gc.go:85] attempting to delete unused containers

**kubelet: I0114 00:15:51.116286**   4781 image_gc_manager.go:317] attempting to delete unused images

**kubelet: I0114 00:15:51.130499**   4781 eviction_manager.go:344] eviction manager: must evict pod(s) to reclaim ephemeral-storage

**kubelet: I0114 00:15:51.130648**   4781 eviction_manager.go:362] eviction manager: pods ranked for eviction:

 1. runner-u4zrz1by-project-10310692-concurrent-1mqrmt_gitlab-managed-apps(d16238f0-3661-11ea-b638-0673fa95f662)
 2. runner-u4zrz1by-project-10310692-concurrent-0hnnlm_gitlab-managed-apps(d1017c51-3661-11ea-b638-0673fa95f662)

 3. runner-u4zrz1by-project-13074486-concurrent-0dlcxb_gitlab-managed-apps(63d78af9-3662-11ea-b638-0673fa95f662)

 4. prometheus-deployment-66885d86f-6j9vt_prometheus(da2788bb-3651-11ea-b638-0673fa95f662)

 5. nginx-ingress-controller-7dcc95dfbf-ld67q_ingress-nginx(6bf8d8e0-35ca-11ea-b638-0673fa95f662)

然后 pod 被终止，导致退出代码 137s。

谁能帮我理解克服这个问题的原因和可能的解决方案？

谢谢：）

原文由 YYashwanth 发布，翻译遵循 CC BY-SA 4.0 许可协议

linux kubernetes kubernetes-pod amazon-eks

阅读 2.2k

2 个回答

得票最新

社区维基

发布于
2022-11-11

✓ 已被采纳

能够解决问题。

这些节点最初有 20G 的 ebs 卷和 c5.4xlarge 实例类型。我将 ebs 增加到 50 和 100G，但这并没有帮助，因为我一直看到以下错误：

“映像文件系统上的磁盘使用率为 95%，超过了高阈值 (85%)。尝试将 3022784921 字节释放到低阈值 (80%)。”

然后我将实例类型更改为具有 400GB 缓存存储并提供 300GB EBS 的 c5d.4xlarge。这解决了错误。

一些 gitlab 作业用于一些 Java 应用程序，这些应用程序正在消耗大量缓存空间并写入大量日志。

原文由 YYashwanth 发布，翻译遵循 CC BY-SA 4.0 许可协议

社区维基

发布于
2022-11-11

退出代码 137 并不一定意味着 OOMKilled。它表示容器收到 SIGKILL 失败（一些中断或“oom-killer”[OUT-OF-MEMORY]）

如果 pod 被 OOMKilled，当您描述 pod 时，您将看到下面的行

      State:        Terminated
      Reason:       OOMKilled

2022 年 2 月 2 日编辑我看到您从日志中添加了 **kubelet: I0114 03:37:08.639450** 4721 image_gc_manager.go:300] [imageGCManager]: Disk usage on image filesystem is at 95% which is over the high threshold (85%). Trying to free 3022784921 bytes down to the low threshold (80%). 和 must evict pod(s) to reclaim ephemeral-storage 。它通常发生在应用程序 pod 正在向磁盘写入日志文件之类的内容时。管理员可以配置何时（以什么磁盘使用百分比）进行驱逐。

原文由 ffran09 发布，翻译遵循 CC BY-SA 4.0 许可协议

撰写回答

你尚未登录，登录后可以

和开发者交流问题的细节
关注并接收问题和回答的更新提醒
参与内容的编辑和改进，让解决方法与时俱进

推荐问题

Kubernetes Pod 终止 - 退出代码 137

你尚未登录，登录后可以

cURL error 77: error setting certificate file: /etc/ssl/certs/ca-certificates.crt 如何处理?

WGCLOUD的数据表监控频率在哪儿配置?

国产龙芯架构服务器能否安装AMH面板？

腾讯为什么至今未推出（开放）企业微信Linux版？

鸿蒙应用批量安装失败，报错“invalid signature”如何解决？

ubuntu官方制作的ova格式的虚拟机的默认账号是多少？

如何解除这样的文件保护？

Stack Overflow 翻译