人工智能 - CSP：Object as Point同会议论文，相似思想用于人脸和行人检测 | CVPR 2019 - 晓飞的算法工程笔记

CSP将目标定义为中心点和尺寸，通过网络直接预测目标的中心和寸尺，相对于传统的RCNN类型检测算法轻量化了不少。整体思想与Object as Points撞车了，真是英雄所见略同

来源：晓飞的算法工程笔记公众号

论文: Center and Scale Prediction: A Box-free Approachfor Pedestrian and Face Detection(High-level Semantic Feature Detection: A New Perspective for Pedestrian Detection)

论文地址：https://arxiv.org/abs/1904.02948
论文代码：https://github.com/liuwei16/CSP

Introduction

目前一些研究基于深度卷积网络进行边缘检测，获得了不错的效果。论文认为既然卷积网络能够预测边缘，那网络必然也能预测物体的中心点及其尺寸。于是论文将检测的目标定义为中心点及尺寸，提出了CSP(Center and Scale Prediction)

CSP的网络结构大致如图1所示，在主干网络上分别预测目标中心点的位置及其对应的尺寸。这篇文章的整体思想与CenterNet(zhou. etc)基本一致，但不是抄袭，因为是同一个会议上的论文，CenterNet主要研究常规的目标检测，而这篇主要研究人脸检测和行人检测。但CSP仍然需要进行NMS的后处理，较CenterNet更逊色一些，但不妨碍我们进行简单地了解，包括学习论文的训练方法以及参数。

Overall architecture

CSP检测算法的结构如图2所示，主干网络由ImageNet的预训练网络截断所得，主要分为特征提取部分以及预测部分。

Feature Extraction

以ResNet-50为例，卷积层分为五个阶段，下采样比例分别为2、4、8、16和32，论文进行了以下修改与设置：

将第五阶段的卷积更换为空洞卷积，使其保持下采样比例为16。
为了融合浅层和高层特征，在Concatenate前将多阶段输出进行反卷积扩大至同一分辨率。
由于不同阶段特征图的分辨率不同，使用L2-normalization将各阶段特征图的范数缩放为10。
论文通过实验最终只选用了第3、第4和第5阶段的特征进行检测。
给定大小为$H\times W$的输入图片，最终的concatenated特征图大小为$H/r \times W/r$，r为4时性能最好。

Detection Head

在获得concatenated特征图$\Phi_{det}$后，使用简单的detection head将特征转化为检测结果。首先采用$3\times 3$卷积层输出256维特征，然后分别使用$1\times 1$卷积层来产生偏移值预测，尺寸图和中心点热图。

Training

Ground Truth

给定GT标注，能够自动地生成对应的GT中心点位置和尺寸。将GT标注对应特征图上的位置设定为中心点正样本，其它位置均为负样本。尺寸可定义为目标的高和宽，对于使用line annotation标注的行人数据集，其长宽比固定为0.41，仅需预测高度即可。对于GT尺寸，正样本位置$k$的值定义为$log(h_k)$，在其半径范围2以内的位置也设为同样的值，其余设置为零。而若加入偏移值预测分支，该分支的GT定义为$(\frac{x_k}{r}-\lfloor \frac{x_k}{r}\rfloor, \frac{y_k}{r}-\lfloor
\frac{y_k}{r} \rfloor )$。

Loss Function

对于中心点预测分支，将其视为分类任务使用交叉熵损失进行训练。为了让训练更加平滑，跟CornerNet一样定义高斯核，在特征图上对GT点进行半径范围内的扩展：

$K$为图片中的目标数，$(x_k, y_k, w_k, h_k)$为中心坐标以及宽高，方差$(\sigma^k_w, \sigma^k_h)$与目标的高和宽成比例，如果高斯区域有重叠，则取最大值。为了防止正负样本极度不平衡，加入focal loss的权值进行平衡：

$p_{ij}\in [0,1]$代表网络预测该位置为目标中心的概率，$y_{i,j}\in {0, 1}$代表GT标签。
对于尺寸预测，将其视为回归任务使用smooth L1损失进行训练：

$s_k$和$t_k$分别代表网络预测结果和每个目标的GT。如果使用了偏移值分支，则同样将其视为回归任务进行训练。完整的优化目标为：

$\lambda_c$, $\lambda_s$, $\lambda_o$分别设置为0.01，1和0.1

Inference

在测试的时候，CSP直接进行简单的前向推理，保留中心热图中置信度大于0.01的位置及其尺寸结果，生成对应的预测框并映射到原图尺寸，对所有保留的预测结果进行NMS处理。如果使用了偏移值预测分支，则对映射后的中心点进行调整。

Conclusion

CSP将目标定义为中心点和尺寸，通过网络直接预测目标的中心和寸尺，相对于传统的RCNN类型检测算法轻量化了不少。整体思想与Object as Points撞车了，发表于同一期会议，真是英雄所见略同了。

如果本文对你有帮助，麻烦点个赞或在看呗～
更多内容请关注微信公众号【晓飞的算法工程笔记】

work-life balance.

CSP：Object as Point同会议论文，相似思想用于人脸和行人检测 | CVPR 2019

Introduction

Overall architecture

Feature Extraction

Detection Head

Training

Ground Truth

Loss Function

Inference

Conclusion

VincentLee

引用和评论

SINE：上下文示例驱动，打造真正的通用分割模型 | NeurIPS'24

一文掌握 MCP 上下文协议：从理论到实践

LRU算法，你别跑，我就要吃透你

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略