Single Shot MultiBox Detector (SSD):目标检测界的 “快枪手”
🕙发布时间:2025-02-19
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
SSD方法基于前馈卷积网络,该网络会生成固定数量的边界框,并对这些边界框中是否存在目标类实例进行评分,随后通过非极大值抑制步骤得出最终的检测结果。
用于检测的多尺度特征图
我们在截断的基础网络末端添加卷积特征层。这些层的尺寸逐渐减小,从而能够在多个尺度上进行检测预测 。
用于检测的卷积预测器
每个新增的特征层都可以使用一组卷积滤波器生成固定的检测预测结果。
对于尺寸为m×n且具有p个通道的特征层,预测潜在检测参数的基本单元是一个3×3×p的小内核,它可以生成某一类别得分,或者是相对于默认框坐标的形状偏移量。在应用该内核的m×n个位置中的每一处,它都会产生一个输出值。边界框偏移量输出值是相对于每个特征图位置的默认框位置进行度量的。
默认框和宽高比
我们为网络顶部的多个特征图的每个特征图单元关联一组默认边界框。默认框以卷积方式平铺在特征图上,因此每个框相对于其对应单元的位置是固定的。在每个特征图单元处,我们预测相对于该单元中默认框形状的偏移量,以及指示这些框中每个框内是否存在某类实例的类别得分。
我们的默认框与Faster R-CNN中使用的锚框类似,不过我们将其应用于多个不同分辨率的特征图。在多个特征图中采用不同的默认框形状,能够有效地离散化可能的输出框形状空间。
匹配策略
在训练过程中,我们需要确定哪些默认框与真实检测结果相对应,并据此对网络进行训练。对于每个真实框,我们从位置、宽高比和尺度各不相同的默认框中进行选择。首先,我们将每个真实框与具有最高交并比(Jaccard overlap)的默认框进行匹配。
难负样本挖掘
匹配步骤完成后,大多数默认框都是负样本,尤其是在可能的默认框数量较多的情况下。这就导致了训练样本中正负样本之间存在显著的不平衡。我们并不使用所有的负样本,而是根据每个默认框的最高置信度损失对它们进行排序,然后选取前几个,使得负样本与正样本的比例最多为3:1。我们发现这样做可以加快优化速度,并使训练更加稳定。
基础网络
我们的实验均基于VGG16网络,该网络在ILSVRC CLS-LOC数据集上进行了预训练。
论文
SSD: Single Shot MultiBox Detector 1512.02325
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。