翻车现场：我用pytorch和GAN做了一个生成神奇宝贝的失败模型

前言

神奇宝贝已经是一个家喻户晓的动画了，我们今天来确认是否可以使用深度学习为他自动创建新的Pokemon。

我最终成功地使用了生成对抗网络（GAN）生成了类似Pokemon的图像，但是这个图像看起来并不像神奇宝贝。
虽然这个尝试失败了，但是我认为其他人可能会喜欢这个过程，现在把他分享出来。

GAN生成对抗网络

这里不想花很多时间讨论GAN是什么，但是上面的图片只是一个非常简单的解释过程。
训练了两个网络-鉴别器和生成器。生成器学习如何吸收随机噪声并从训练数据生成看起来像图像的图像。它通过将其生成的图像发送到鉴别器网络，鉴别器网络经过训练可以辨别真实图像和生成的图像。
生成器经过优化，可以更好地欺骗鉴别器，鉴别器经过优化，可以更好地检测生成的图像。因此，他们俩一起进步。

数据

因此，我的假设是，我可以使用真实的神奇宝贝图像作为训练集来训练GAN。结果将是一个生成器，然后将能够创建新颖的神奇宝贝！
我的第一个挑战是找到神奇宝贝的图像。幸运的是，Kaggle数据集得以抢救！
有人已经想过类似的想法，尽管听起来他在生成新的Pokemon图像方面没有很大的成功，但是由于他花了时间收集800幅图像，因此决定将它们上传到Kaggle数据集。这节省我很多时间。
我们看一下这个数据集：

这是一张蒜头王八妙蛙种子的图片，大小是256*256

现在，有了数据，下一步就是选择要使用的GAN类型。可能存在数百种GAN的变体，但过去使用DCGAN可以看到良好的效果。
DCGAN从神经网络中消除了所有完全连接的层，使用转置卷积进行上采样，并用卷积跨度（除其他外）代替了最大池化。
我喜欢DCGAN，因为与其他我尝试过的GAN相比，它们似乎更健壮，因此无需进行超参数的重大调整即可更容易训练。
实际上，DCGAN非常受欢迎，以至于PyTorch的示例就很好地实现了。同样重要的是，他们的示例可以直接从文件夹读取输入。因此，使用以下命令，我能够开始训练我的GAN：

python main.py --dataset folder --dataroot /pokemon/ --cuda --niter 10000 --workers 8

该命令从文件夹中读取图像，在具有8个工作程序的GPU上运行以加载数据，并运行10,000次迭代。

事实证明，此问题需要进行10,000次迭代，但我想看看我能推多远。让我们来看看！

结果

第一步始于一个一无所知的网络，因此产生的只是噪声：

每个box都是一个64 x 64像素的图像，它是尝试从我们的生成器中生成神奇宝贝。由于我们的网格为8 x 8，因此我们尝试生成64种不同的神奇宝贝。我将图像缩小到64 x 64，因为在尝试生成更大的图像时这种算法会变得不稳定。

50次迭代以后，有点意思了

150次迭代，图像变得清晰了

3,700点之后，会有一些不错的图片出现了。此后，它开始趋向于产生更差的结果：

这些看起来根本都不像神奇宝贝！
但是请将浏览器缩小到25％左右，然后再次查看。在远处，它们看起来惊人地类似于真正的神奇宝贝。
为什么呢？由于我们正在对64 x 64的图像进行训练，因此辨别器很容易被形状和颜色类似于口袋妖怪的图像所迷惑，因此生成器不需要改进。

下一步？

在我看来，显而易见的下一步就是训练更高分辨率的GAN。实际上，我已经对此进行了一些尝试。
我的第一个尝试是重新编写PyTorch代码以缩放到256 x 256图像。该代码有效，但是DCGAN崩溃了，我无法稳定新联。我相信主要原因是因为我只有大约800张图像。而且，尽管我进行了一些数据扩充，但还不足以训练更高分辨率的DCGAN。
然后，我尝试使用相对论的GAN，该GAN已成功针对具有较小数据集的高分辨率数据进行了成功的训练，但也无法使其正常工作。
目前来看，问题应该出现在数据上，数据量太小，还是满足不了训练的需求。但是我将继续尝试其他一些想法，以产生更高分辨率的Pokemon，如果我有工作的必要，我将发布我使用的技术。

翻车现场：我用pytorch和GAN做了一个生成神奇宝贝的失败模型

前言

GAN生成对抗网络

数据

结果

下一步？

deephub

引用和评论

LangGraph实战教程：构建会思考、能记忆、可人工干预的多智能体AI系统

OpenAI API Key 获取并用GPT-4o 图像生成：使用 Node JS代码调用示例

vLLM 实战教程汇总，从环境配置到大模型部署，中文文档追踪重磅更新

性能远超SAM系模型，苏黎世大学等开发通用3D血管分割基础模型

【vLLM 学习】基础教程

【Triton 教程】triton.heuristics

18个常用的强化学习算法整理：从基础方法到高级模型的理论技术与代码实现