Adobe研究人员开源图像描述AI CLIP-S

研究背景与目标

Adobe与北卡罗来纳大学(UNC)的研究人员开源了CLIP-S模型,这是一个能够生成细粒度图像描述的AI模型。CLIP-S在与其他模型生成的描述进行比较时,人类评审者多数情况下更倾向于CLIP-S生成的描述。

模型与方法

CLIP-S模型基于Transformer架构,通过输入图像生成描述。在训练过程中,模型使用OpenAI的CLIP模型来评估生成的描述与图像的匹配程度,并将这一评分作为强化学习(RL)的奖励信号。为了改进生成描述的语法,研究团队通过随机修改参考描述生成负样本,并对CLIP进行微调。此外,研究团队还开发了新的基准数据集FineCapEval,以解决现有图像描述评估方法的不足。

数据集与评估

FineCapEval数据集包含500张来自MS COCO测试集和Conceptual Captions验证集的图像。每张图像由五名人类工作者根据四个标准撰写描述:图像背景、图像中的物体(包括形状和颜色)、物体之间的关系(如空间关系)以及包含上述所有方面的详细描述。数据集总共包含1,000张图像和5,000条描述。

实验结果

在评估中,研究团队将CLIP-S生成的描述与多个基线模型生成的描述进行比较,使用COCO数据集作为基准。尽管基线模型在基于文本的指标(如BLEU)上表现优于CLIP-S,但CLIP-S在基于图像-文本的指标以及文本-图像检索指标上表现更好。此外,CLIP-S在FineCapEval基准测试中显著优于基线模型,且人类评审者强烈倾向于CLIP-S生成的描述。

相关工作

多模态图像-文本AI模型是当前研究的热点。InfoQ最近报道了DeepMind的Flamingo模型,该模型在包括图像描述在内的多个图像-文本任务上表现出最先进的少样本学习能力。此外,Google的ALIGN模型和阿里巴巴的M6模型也都能执行多种图像-文本任务。

开源资源

CLIP-S代码和FineCapEval数据集已在GitHub上开源。

阅读 25
0 条评论