新型掩码自编码器 AdaMAE，自适应采样

出品人：Towhee 技术团队王翔宇、顾梦佳

Masked Autoencoders (MAEs) 通过从可见数据的 token 重建带掩码的输入数据，学习图像、文本、音频、视频等的通用表征。当前的视频 MAE 方法依赖于基于随机补丁、通道、或基于视频帧的屏蔽策略来选择这些 token。AdaMAE 在此基础上提出一种端到端可训练的自适应掩码策略。它从高时空信息区域采样更多的 token，实现了遮盖率高达 95% 的 token，从而降低内存需求并加速预训练。通过在公开视频数据集 Something-Something v2 (SSv2) 上进行消融研究，AdaMAE 证明了该自适应采样方法的有效性。该方法在数据集 SSv2 和 Kinetics-400 上的动作分类任务中均获得了最先进的精度。

AdaMAEAdaMAE

提出自适应掩码策略，利用辅助采样网络根据语义上下文对可见token进行采样。它会基于采样网络估计的分类分布对可见token进行采样，并使用 ViT 编码器-解码器架构重建缺失的token。由于采样过程是不可微分的，AdaMAE 通过最大化期望值重建损失来优化模型。这种自适应采样过程会从高时空信息区域采样更多的 token，而从低信息或冗余区域采样更少的 token。

新型掩码自编码器 AdaMAE，自适应采样

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

书籍-《偏最小二乘回归》

Orange Pi 5 Pro-RK3588(s)开发板快速入门

书籍-《顺序变化检测和假设检验》

书籍-《医学图像分析（论文版）》

书籍-《激光雷达遥感入门与应用》

计算机视觉（语义分割） | 皮带跑偏识别冠军方案解读