SparK 用稀疏掩码为卷积设计 Bert 预训练

出品人：Towhee 技术团队顾梦佳

稀疏掩码建模 (SparK) 是第一个 BERT-style 的预训练方法，无需修改主干即可直接在任何卷积网络上，克服了它们无法处理不规则的掩码输入。该框架遮盖图像的一部分并学习恢复它，通过预训练卷积网络编码器实现分层掩码图像建模。SparK 可以被直接用于任何卷积模型，无需主干修改。它在经典 (ResNet) 和现代 (ConvNeXt) 的卷积模型上进行了实验，结果表明SparK 能够在三个下游任务上以大幅超过最先进的对比学习和基于 Transformers 的掩蔽建模。尤其在目标检测和实例分割任务上，该框架带来的的改进更为显著，证明了所学特征具有强大可迁移性。

Sparse masked modeling with hierarchySparK

确定并克服了将 BERT 式预训练或掩码图像建模的成功扩展到卷积网络 (convnet) 的两个关键障碍：卷积运算无法处理不规则的、随机掩码的输入图像，BERT 预训练的单一尺度性质与 convnet 的层次结构不一致。为了解决第一个问题，SparK 创新地提出将稀疏卷积用于 2D 掩膜建模，并使用稀疏卷积进行编码。它将未屏蔽像素视为 3D 点云的稀疏体素。对于后一个问题，SparK 开发了一个分层解码器来从多尺度编码特征重建图像。为了预训练分层编码器，SparK 框架采用了 UNet 风格的架构来解码多尺度稀疏特征图，其中所有空位置都是充满掩码嵌入。预训练后，只有编码器会被用于下游任务。

SparK 用稀疏掩码为卷积设计 Bert 预训练

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

微帧WZVQA：极致还原人眼感知，精准评估视频画质

书籍-《激光雷达遥感入门与应用》

计算机视觉（语义分割） | 皮带跑偏识别冠军方案解读