Facebook推出Anticipative Video Transformer (AVT)
Facebook最近推出了一种名为Anticipative Video Transformer (AVT)的机器学习模型,该模型通过视觉解释来预测未来的动作。AVT是一种端到端的基于注意力的模型,专门用于视频中的动作预测。
AVT的技术基础
AVT基于Transformer架构的最新突破,特别是在自然语言处理(NLP)和图像建模方面的应用。这些技术广泛应用于自动驾驶汽车和增强现实(AR)等领域。
AVT的应用场景
AVT通过分析活动来展示潜在的结果,特别是在增强现实(AR)和元宇宙(Metaverse)中。Facebook计划通过API使其元宇宙应用程序能够在其他平台和硬件上运行,从而实现程序之间的互操作性。
AVT的技术挑战
预测未来活动对AI来说是一个难题,因为它不仅需要预测未来活动的多模态分布,还需要建模过去动作的进程。
AVT的架构特点
AVT基于注意力机制,因此可以并行处理整个序列,而基于循环神经网络(RNN)的方法通常需要顺序处理序列,容易忘记过去的信息。AVT还引入了损失函数,鼓励模型捕捉视频的序列性质,这是非局部网络等基于注意力的架构通常会丢失的。
AVT的组成部分
AVT由两部分组成:
- AVT-b:基于Vision Transformer (VIT)架构的骨干网络,处理视频帧。它将帧分割成不重叠的补丁,通过前馈网络嵌入,附加一个特殊的分类标记,并应用多层多头自注意力机制。
- AVT-h:基于注意力的头部架构,处理由骨干网络提取的特征。它采用因果注意力机制,仅评估当前帧和先前帧的特征,从而在生成任何单个帧的表示时仅依赖过去特征。
AVT的潜在应用
AVT可以用作AR动作教练或人工智能助手,在人们犯错之前发出警告。此外,AVT还可以用于超越预测的任务,如自监督学习、动作模式和边界的发现,以及需要建模动作时间序列的通用动作识别任务。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。