头图

出品人:Towhee 技术团队 顾梦佳

流式视频识别视频会关注每一个视频帧中的对象及其行为。一个好的流式识别模型可以捕获视频的长期动态和短期变化。然而在大多数现有方法中,尤其是基于 Transformers 架构的网络,计算复杂度往往会随着所考虑的变化的长度而剧烈增长。为了解决这个问题,TeSTra 提出一种时序平滑 Transformer,可以接收任意长度的输入,并具有稳定的缓存和计算开销。由于时间跨度增加,TeSTra 成功在两个标准在线动作检测和动作预期数据集 THUMOS'14 和 EPIC-Kitchen-100 上取得了最先进的结果。

图片

Overview of streaming attention architecture TeSTraTeSTra

能够对足够长的历史进行编码,每个时间步的推理成本都很稳定。该框架通过内核镜头重新表述了视频 Transformer 中的交叉注意力。它采用了一种有效的注意力机制,在连续帧之间重复使用大部分注意力计算。并应用了两种时间平滑内核:box kernel 和 Laplace kernel。这样的设计实现了高效的流式注意计算。

相关资料
代码地址:https://github.com/zhaoyue-ze...
论文链接:Real-time Online Video Detection with Temporal Smoothing Transformers


Zilliz
154 声望829 粉丝

Vector database for Enterprise-grade AI