如何在带有GPU的多台机器上高效管理深度学习任务？

Question

我们有一个计算系统，包括四台机器，每台机器配备八个GPU。在我们的日常操作中，有2-3个深度学习模型训练任务，持续时间从几小时到几天不等。挑战在于我们无法预测任务何时会完成。

我正在寻找一个满足以下要求的解决方案：

1.能够随时启动新任务，如果有满足任务需求的可用空闲资源，它将自动运行。
2.对所有进行中任务进行全面监控，以跟踪它们的状态。
3.具有停止、暂停、重新启动或插入任务的灵活性。
4.易于部署和使用，考虑到我们在系统管理方面的有限资源。

是否有任何推荐的解决方案或框架符合这些要求？非常感谢您的见解和经验。

阅读 502

撰写回答

推荐问题

相似问题

找不到问题？创建新问题