DiffusionDet 用扩散模型解决目标检测

出品人：Towhee 技术团队王翔宇、顾梦佳

DiffusionDet 是一个新的目标检测框架，将目标检测建模为从噪声框到目标框的去噪扩散过程。在训练阶段，目标框从真值框扩散到随机分布，模型学习如何逆转这种向真值标注框添加噪声过程。在推理阶段，模型以渐进的方式将一组随机生成的目标框细化为输出结果。在包括 MS-COCO 和 LVIS 的基准测试中，DiffusionDet 证明了其比之前成熟的目标检测器具有更好的性能。另外，DiffusionDet 的研究发现随机框也是有效的目标候选。由于目标检测是代表性的感知任务之一，它甚至提出可以通过生成的方式解决该任务。

Diffusion model for object detection.

DiffusionDet 将检测转换为图像中边界框的位置（中心坐标）和大小（宽度和高度）空间上的生成任务，利用扩散模型处理目标检测任务。模型包括图像编码器和检测解码器两个部分。基于使用卷积神经网络和基于 Transformer 的模型的图像编码器将原始图像作为输入，提取其高级特征。检测解码器借鉴 Sparse R-CNN 的思路，将一组建议框作为输入，从特征图中裁剪感兴趣区域的特征，并将它们送到检测头以获得框回归和分类结果。

DiffusionDet 用扩散模型解决目标检测

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

YOLO 训练中 `patience` 参数的“隐秘力量”