最近经常需要多次运行训练比较结果,但是发现相同的数据集,运行的时候经常出现上一次训练还是好好的,这一次训练突然gpu_mem占用比之前多了8g左右,导致原本每个epoch只需要9秒的现在变成了23秒。刚开始觉得可能是缓存没清理或者其他的,但是尝试过清理缓存,重启,关机重启等等很多方法都不行,基本上就是随缘。
后来就尝试任何参数都不动,在相同条件下运行,发现也是这个问题,一会7.3g,一会15.4g
下图为gpu占用不正常时
下图为gpu占用正常时
求助各路大神,这种情况下该怎么处理啊?
最近经常需要多次运行训练比较结果,但是发现相同的数据集,运行的时候经常出现上一次训练还是好好的,这一次训练突然gpu_mem占用比之前多了8g左右,导致原本每个epoch只需要9秒的现在变成了23秒。刚开始觉得可能是缓存没清理或者其他的,但是尝试过清理缓存,重启,关机重启等等很多方法都不行,基本上就是随缘。
后来就尝试任何参数都不动,在相同条件下运行,发现也是这个问题,一会7.3g,一会15.4g
下图为gpu占用不正常时
下图为gpu占用正常时
求助各路大神,这种情况下该怎么处理啊?
1 回答9.1k 阅读✓ 已解决
2 回答5k 阅读✓ 已解决
2 回答3k 阅读✓ 已解决
3 回答4.1k 阅读
2 回答2.2k 阅读✓ 已解决
2 回答1.9k 阅读✓ 已解决
2 回答1.8k 阅读✓ 已解决