我们有一个计算系统,包括四台机器,每台机器配备八个GPU。在我们的日常操作中,有2-3个深度学习模型训练任务,持续时间从几小时到几天不等。挑战在于我们无法预测任务何时会完成。
我正在寻找一个满足以下要求的解决方案:
1.能够随时启动新任务,如果有满足任务需求的可用空闲资源,它将自动运行。
2.对所有进行中任务进行全面监控,以跟踪它们的状态。
3.具有停止、暂停、重新启动或插入任务的灵活性。
4.易于部署和使用,考虑到我们在系统管理方面的有限资源。
是否有任何推荐的解决方案或框架符合这些要求?非常感谢您的见解和经验。