1 考虑换一种学习率 schedule2 在 DataLoader 中使用多个 worker 和页锁定内存3 把 batch 调到最大4 使用自动混合精度(AMP)5 考虑使用另一种优化器6 cudNN 基准7 使用梯度积累8 使用梯度裁剪
1 考虑换一种学习率 schedule
2 在 DataLoader 中使用多个 worker 和页锁定内存
3 把 batch 调到最大
4 使用自动混合精度(AMP)
5 考虑使用另一种优化器
6 cudNN 基准
7 使用梯度积累
8 使用梯度裁剪