头图

恒源云(Gpushare)_如何防止训练不中断?技巧大放送1!

恒源云

文章来源 | 恒源云社区

原文地址 | 【小技巧-后台篇】


1、训练期间因网络抖动中断,怎样将训练任务放到后台运行?

推荐使用 Tmux 终端复用器,能够将进程放到后台运行,需要时重新接管。

为了防止 SSH 因网络断开造成的进程运行中断,建议把所有需要长期运行的训练等任务都使用 Tmux 终端。参考 Tmux 文档

2、关闭本地电脑,训练任务会中断吗?

如果是通过 Tmux 将任务放在后台运行,或使用 JupyterLab 浏览器运行的任务,关闭本地电脑不会中断训练。

如果是直接在终端中执行训练,或使用 VSCode 等 IDE 连接执行训练,则关闭电脑会中断训练。

3、关闭 JupyterLab 浏览器,训练任务会中断吗?

若是关闭了 JupyterLab 的浏览器页面,只要实例不关闭,JupyterLab 中 NoteBook 和终端中的训练任务会继续运行。

4、关闭 VSCode、PyCharm、iTerm2 等 IDE 或终端,训练任务会中断吗?

使用 IDE 连接到实例执行训练任务,如果关闭 IDE 或终端会中断训练任务。

如果需要后台运行推荐使用 Tmux 终端。参考 Tmux 文档

阅读 399
234 声望
2 粉丝
0 条评论
234 声望
2 粉丝
文章目录
宣传栏