出品人:Towhee 技术团队 顾梦佳开放词汇模型(比如CLIP)在推理过程中对自然语言指定的任意一组类别进行分类,是一种很有前途的图像分类新范例。这种称为“提示”的自然语言通常由一组手写模板组成。为了更高效且独立地生成更准确的提示,CuPL(通过语言模型创建自定义提示)将开放词汇模型与大型语言模型 (LLM) 相结合,利用 LLM 中包含的知识来生成许多为每个对象类别定制的描述性句子。这种直接而通用的方法能够提高了一系列零样本图像分类基准的准确性,包括在 ImageNet 上的性能提高了一个百分点以上。另外,这种方法不需要额外的训练并且完全保持零样本。
Standard Zero-shot vs CuPLCuPL 主要包含两个步骤:首先利用大型语言模型为给定的类别生成描述性标题,然后一个开放的词汇模型(比如 CLIP)会使用这些标题作为执行分类的提示。CuPL 中的提示包含两种类型,分别用于提示/询问物体描述(LLM-prompts)与描述物体类别(image-prompts),而只有后一种提示会被用于零样本图像分类。相关资料:代码地址:https://github.com/sarahpratt...论文链接:https://arxiv.org/abs/2209.03...
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。