【OpenVI—论文解读系列】达摩院快速动作识别TPS ECCV论文深入解读

一、背景

许多工作尝试对时空自注意力进行分解，例如ViViT和Timesformer。这些方法虽然减小了计算复杂度，但会引入额外的参数量。本文提出了一种简单高效的时空自注意力Transformer，在对比2D Transformer网络不增加计算量和参数量情况下，实现了时空自注意力机制。并且在Sthv1&Sthv2, Kinetics400, Diving48取得了很好的性能。文章已被ECCV 2022录用。

二、方法

视觉Transofrmer通常将图像分割为不重叠的块(patch)，patch之间通过自注意力机制(Self-Attention)进行特征聚合，patch内部通过全连接层(FFN)进行特征映射。每个Transformer block中，包含Self-Attention和FFN，通过堆叠Transformer block的方式达到学习图像特征的目的。

完整内容请点击下方链接查看：

https://developer.aliyun.com/article/1191077?utm_content=g_10...

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

【OpenVI—论文解读系列】达摩院快速动作识别TPS ECCV论文深入解读

一、背景

二、方法

阿里云开发者

引用和评论

福利来了！计算巢支持在已经购买的 ECS 上搭建幻兽帕鲁服务器，支持图形化管理配置

Light创造营 2025 评选规则

全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型

无需编码5分钟免费部署云上调用满血版DeepSeek

支付宝H5下载被拦截的原因排查与解决指南

如何在通义灵码里用上DeepSeek-V3 和 DeepSeek-R1 满血版671B模型？

数据库的下一场革命：S3 延迟已降至原先的 10%，云数据库架构该进化了