近期 ComfyUI 社区小伙伴们用 RTX 5000 Ada 专业显卡测试了 Flux.1[dev] 模型,并与最强消费级显卡对比大场景实际应用中的性能表现。
测试项目:
Flux.1 文生图
Flux.1-dev FP8 训练
Flux.1 生成不同分辨率图片
Flux.1 生成人物大模型+Lora+高清分辨率修复
Flux.1 测试 ControlNet 使用 Tile 高清修复
文生图
设置尺寸均为1024*1024,采样步数为50。
工作流:
下图是 RTX 5000 Ada 开启不同 Batch size 的显存情况以及生成图片的所耗时间。
RTX 5000 Ada 至多可支持 Batch size 到 27,消费级显卡最多开启 Batch size 到 10。
详细测试结果:
开启 Batch size 为20的显存情况:
迭代一步时间逐渐稳定在14秒左右,整个流程花费时间755秒,大约为12.5分钟。
开启 Batch size 为24的显存情况:
迭代一步时间逐渐稳定在17.5秒左右,整个流程花费时间890秒,大约为14.8分钟。
开启 Batch size 为27的显存情况:
显存已到达极限,RTX 5000 Ada Flux 生图最大 Batch size 为27。
迭代一步时间逐渐稳定在19.5秒左右,整个流程花费时间1014秒,大约为16.9分钟。
Flux 训练
训练参数:
3000步 Flux 训练进程信息:
显存占用约30GB,训练时间花费26729秒,大约7.45个小时,迭代一步花费时间在8.6秒左右。
5000步 Flux 训练进程信息:
训练时间花费43174秒,约为11.99小时。
在 Flux 训练过程中,由于消费级显卡最多只有24GB,而当 Batch size 开到6时,显存占用就已到30GB,消费级显卡 的24GB显存无法支持更深的 Flux 训练,因此 RTX 5000 Ada 的32GB显存能够支持更深度的训练,有着更强的生产力。
测试生成不同分辨率图片的所耗时间
统一 Batch size 为4,采样步数为50,测试结果如下:
测试人物大模型+Lora+高清分辨率修复
(统一迭代步数和生成批次数量)
工作流:
用 Flux 人物大模型加上 Lora 出图,并将图片尺寸从10801920高清修复为21603840,共用时302秒,约5分钟。
测试 ControlNet 使用 Tile 高清修复
后台进程:
工作流:
显存占用22GB,修复一张图片花费23.94秒。此场景消费级显卡较为勉强。
测试结论
从上述五项测试中可以看到在高 Batch size 场景下,RTX 5000 Ada 有着更大的显存容量可以支持更深度的 AI 生图和训练。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。