​近期 ComfyUI 社区小伙伴们用 RTX 5000 Ada 专业显卡测试了 Flux.1[dev] 模型,并与最强消费级显卡对比大场景实际应用中的性能表现。

测试项目:


Flux.1 文生图

Flux.1-dev FP8 训练

Flux.1 生成不同分辨率图片

Flux.1 生成人物大模型+Lora+高清分辨率修复

Flux.1 测试 ControlNet 使用 Tile 高清修复

文生图

设置尺寸均为1024*1024,采样步数为50。

工作流:

图片

下图是 RTX 5000 Ada 开启不同 Batch size 的显存情况以及生成图片的所耗时间。

图片

RTX 5000 Ada 至多可支持 Batch size 到 27,消费级显卡最多开启 Batch size 到 10。

详细测试结果:

图片

图片

开启 Batch size 为20的显存情况:

迭代一步时间逐渐稳定在14秒左右,整个流程花费时间755秒,大约为12.5分钟。

开启 Batch size 为24的显存情况:

迭代一步时间逐渐稳定在17.5秒左右,整个流程花费时间890秒,大约为14.8分钟。

开启 Batch size 为27的显存情况:

显存已到达极限,RTX 5000 Ada Flux 生图最大 Batch size 为27。

迭代一步时间逐渐稳定在19.5秒左右,整个流程花费时间1014秒,大约为16.9分钟。

Flux 训练

训练参数:

图片

3000步 Flux 训练进程信息:

显存占用约30GB,训练时间花费26729秒,大约7.45个小时,迭代一步花费时间在8.6秒左右。

5000步 Flux 训练进程信息:

训练时间花费43174秒,约为11.99小时。

在 Flux 训练过程中,由于消费级显卡最多只有24GB,而当 Batch size 开到6时,显存占用就已到30GB,消费级显卡 的24GB显存无法支持更深的 Flux 训练,因此 RTX 5000 Ada 的32GB显存能够支持更深度的训练,有着更强的生产力。

测试生成不同分辨率图片的所耗时间

统一 Batch size 为4,采样步数为50,测试结果如下:

图片

测试人物大模型+Lora+高清分辨率修复

(统一迭代步数和生成批次数量)

工作流:

图片

用 Flux 人物大模型加上 Lora 出图,并将图片尺寸从10801920高清修复为21603840,共用时302秒,约5分钟。

测试 ControlNet 使用 Tile 高清修复

后台进程:

图片

工作流:

图片

显存占用22GB,修复一张图片花费23.94秒。此场景消费级显卡较为勉强。

测试结论

从上述五项测试中可以看到在高 Batch size 场景下,RTX 5000 Ada 有着更大的显存容量可以支持更深度的 AI 生图和训练。


老IT人
1 声望0 粉丝

IT从业20年,硬件避坑达人。