出品人:Towhee 技术团队 王翔宇、顾梦佳

InstructPix2Pix 提出一种让机器根据人类指令修改图像的方法,即输入图像与文字指令,模型就能遵循这些指令编辑给定的图像。 为了获得该任务的训练数据,InstructPix2Pix 结合了两个大规模预训练模型(GPT-3 和 stable diffusion)的知识来生成图像编辑示例的大型数据集,共包含 450,000 条数据。InstructPix2Pix 能够实现直观的图像编辑,可以遵循人类指令执行多种编辑,包括替换对象,改变图像的风格,改变环境,艺术媒介等。

图片

InstructPix2Pix

InstructPix2Pix 主要内容包括为图像编辑生成数据集,并使用该数据集训练一个扩散模型。它首先利用微调后的 GPT-3 模型生成指令和编辑好的文字描述。然后结合 StableDiffusion 和 Promptto-Prompt,模型会根据文字描述对生成图像对。InstructPix2Pix 可以直接在前向传递中执行图像编辑,不需要任何其他额外数据进行微调。

相关资料:

代码地址:https://github.com/timothybro...
论文链接:InstructPix2Pix: Learning to Follow Image Editing Instructions
更多资料:https://zhuanlan.zhihu.com/p/...


Zilliz
154 声望829 粉丝

Vector database for Enterprise-grade AI