使用深度学习的无监督目标检测与语义分割

Meta AI 发布 CutLER：先进的零样本无监督目标检测模型

Meta AI 发布了 CutLER（Cut and Learn），这是一种先进的零样本无监督目标检测模型。该模型在 11 个不同领域的基准数据集（如视频帧、绘画、素描等）上的检测性能提高了 2.7 倍以上。

主要特点与优势

兼容性强：CutLER 的简单设计使其能够与不同领域的目标检测架构（如 Mask R-CNN）兼容。
数据需求低：与其他模型相比，CutLER 需要更少的标注数据进行训练，减少了数据标注的人力成本。这在数据丰富的时代尤为重要，为开发更好的模型铺平了道路，而无需大量数据标注工作。

技术背景

Meta AI 在 2021 年发布了 DINO，这是一种自监督模型，用于无监督学习图像表示。DINO 的注意力图可用于语义分割和目标检测等任务。通过使用这些特征，可以创建图像中不同区域的相似性矩阵，进而通过归一化切割和图像分割技术生成单个前景对象掩码。这一过程称为 MaskCut，可以重复进行以生成图像中的多个对象掩码。

CutLER 的工作原理

MaskCut 算法：通过相似性矩阵生成图像中的对象掩码，每次生成一个对象掩码后，与该对象相关的矩阵值会被屏蔽。
DropLoss 检测器：使用用户偏好的检测器（如 Mask R-CNN）和 DropLoss 损失函数，探索图像中可能被 MaskCut 遗漏的对象区域。DropLoss 忽略最大重叠区域的损失，鼓励探索低重叠区域。
训练过程：CutLER 使用 ImageNet 数据集进行训练，并使用 DINO 进行神经网络权重初始化。模型通过多次训练自我改进，每次训练都使用前一次训练的权重。

性能评估

CutLER 在平均精度和平均召回率上均优于之前的无监督模型（如 FreeSOLO），并且在性能上接近有监督方法（如 Mask R-CNN），使其更接近人类学习图像表示的方式。

开源与使用

Meta AI 已将 CutLER 发布在 GitHub 上，用户可以通过以下命令进行训练和评估：

python train_net.py --num-gpus 8 \
  --config-file model_zoo/configs/COCO-Semisupervised/cascade_mask_rcnn_R_50_FPN_{K}perc.yaml \
  MODEL.WEIGHTS /path/to/cutler_pretrained_model

此外，用户还可以通过 Google Colab 进行模型可视化操作。

总结

CutLER 是一种创新的无监督目标检测模型，通过减少数据需求和标注工作量，同时在多个领域的基准数据集上表现出色，为目标检测领域带来了新的突破。