使用深度学习的无监督目标检测与语义分割

Meta AI 发布 CutLER:先进的零样本无监督目标检测模型

Meta AI 发布了 CutLER(Cut and Learn),这是一种先进的零样本无监督目标检测模型。该模型在 11 个不同领域的基准数据集(如视频帧、绘画、素描等)上的检测性能提高了 2.7 倍以上。

主要特点与优势

  1. 兼容性强:CutLER 的简单设计使其能够与不同领域的目标检测架构(如 Mask R-CNN)兼容。
  2. 数据需求低:与其他模型相比,CutLER 需要更少的标注数据进行训练,减少了数据标注的人力成本。这在数据丰富的时代尤为重要,为开发更好的模型铺平了道路,而无需大量数据标注工作。

技术背景

Meta AI 在 2021 年发布了 DINO,这是一种自监督模型,用于无监督学习图像表示。DINO 的注意力图可用于语义分割和目标检测等任务。通过使用这些特征,可以创建图像中不同区域的相似性矩阵,进而通过归一化切割和图像分割技术生成单个前景对象掩码。这一过程称为 MaskCut,可以重复进行以生成图像中的多个对象掩码。

CutLER 的工作原理

  1. MaskCut 算法:通过相似性矩阵生成图像中的对象掩码,每次生成一个对象掩码后,与该对象相关的矩阵值会被屏蔽。
  2. DropLoss 检测器:使用用户偏好的检测器(如 Mask R-CNN)和 DropLoss 损失函数,探索图像中可能被 MaskCut 遗漏的对象区域。DropLoss 忽略最大重叠区域的损失,鼓励探索低重叠区域。
  3. 训练过程:CutLER 使用 ImageNet 数据集进行训练,并使用 DINO 进行神经网络权重初始化。模型通过多次训练自我改进,每次训练都使用前一次训练的权重。

性能评估

CutLER 在平均精度和平均召回率上均优于之前的无监督模型(如 FreeSOLO),并且在性能上接近有监督方法(如 Mask R-CNN),使其更接近人类学习图像表示的方式。

开源与使用

Meta AI 已将 CutLER 发布在 GitHub 上,用户可以通过以下命令进行训练和评估:

python train_net.py --num-gpus 8 \
  --config-file model_zoo/configs/COCO-Semisupervised/cascade_mask_rcnn_R_50_FPN_{K}perc.yaml \
  MODEL.WEIGHTS /path/to/cutler_pretrained_model

此外,用户还可以通过 Google Colab 进行模型可视化操作。

总结

CutLER 是一种创新的无监督目标检测模型,通过减少数据需求和标注工作量,同时在多个领域的基准数据集上表现出色,为目标检测领域带来了新的突破。

阅读 14
0 条评论