头图

出品人:Towhee 技术团队 王翔宇、顾梦佳

Masked Autoencoders (MAEs) 通过从可见数据的 token 重建带掩码的输入数据,学习图像、文本、音频、视频等的通用表征。当前的视频 MAE 方法依赖于基于随机补丁、通道、或基于视频帧的屏蔽策略来选择这些 token。AdaMAE 在此基础上提出一种端到端可训练的自适应掩码策略。它从高时空信息区域采样更多的 token,实现了遮盖率高达 95% 的 token,从而降低内存需求并加速预训练。通过在公开视频数据集 Something-Something v2 (SSv2) 上进行消融研究,AdaMAE 证明了该自适应采样方法的有效性。该方法在数据集 SSv2 和 Kinetics-400 上的动作分类任务中均获得了最先进的精度。
图片

AdaMAEAdaMAE

提出自适应掩码策略,利用辅助采样网络根据语义上下文对可见token进行采样。它会基于采样网络估计的分类分布对可见token进行采样,并使用 ViT 编码器-解码器架构重建缺失的token。由于采样过程是不可微分的,AdaMAE 通过最大化期望值重建损失来优化模型。这种自适应采样过程会从高时空信息区域采样更多的 token,而从低信息或冗余区域采样更少的 token。

相关资料:
代码地址:https://github.com/wgcban/adamae
论文链接:AdaMAE: Adaptive Masking for Efficient Spatiotemporal Learning with Masked Autoencoders


Zilliz
154 声望829 粉丝

Vector database for Enterprise-grade AI