【ECCV 2022】TeSTRa：稳定的流式视频识别

出品人：Towhee 技术团队顾梦佳

流式视频识别视频会关注每一个视频帧中的对象及其行为。一个好的流式识别模型可以捕获视频的长期动态和短期变化。然而在大多数现有方法中，尤其是基于 Transformers 架构的网络，计算复杂度往往会随着所考虑的变化的长度而剧烈增长。为了解决这个问题，TeSTra 提出一种时序平滑 Transformer，可以接收任意长度的输入，并具有稳定的缓存和计算开销。由于时间跨度增加，TeSTra 成功在两个标准在线动作检测和动作预期数据集 THUMOS'14 和 EPIC-Kitchen-100 上取得了最先进的结果。

Overview of streaming attention architecture TeSTraTeSTra

能够对足够长的历史进行编码，每个时间步的推理成本都很稳定。该框架通过内核镜头重新表述了视频 Transformer 中的交叉注意力。它采用了一种有效的注意力机制，在连续帧之间重复使用大部分注意力计算。并应用了两种时间平滑内核：box kernel 和 Laplace kernel。这样的设计实现了高效的流式注意计算。

相关资料：
代码地址：https://github.com/zhaoyue-ze...
论文链接：Real-time Online Video Detection with Temporal Smoothing Transformers

【ECCV 2022】TeSTRa：稳定的流式视频识别

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

书籍-《偏最小二乘回归》

Orange Pi 5 Pro-RK3588(s)开发板快速入门

书籍-《顺序变化检测和假设检验》

书籍-《医学图像分析（论文版）》

书籍-《激光雷达遥感入门与应用》

计算机视觉（语义分割） | 皮带跑偏识别冠军方案解读