Mega 改进序列模型，引入移动平均捕捉时空依赖

出品人：Towhee 技术团队顾梦佳

Transformer 注意力机制的设计包括弱归纳偏置和复杂的二次计算，限制了它对长序列建模的应用。为了更好地使用单个模型捕捉序列数据中的长距离依赖，移动平均单头门控注意力（Mega）尝试沿时间维度，使用经典的指数滑动平均（EMA）方法引入偏差，并提出了一种具有线性复杂度的变体。通过在广泛的序列建模基准上进行实验，比如 Long Range Arena、神经机器翻译、自回归语言建模以及图像和语音分类，Mega 相比其他序列模型（Transformer 的变种和最近的状态空间模型）表现出了明显的改进。

Mega Architecture

Mega 是一种简单的、有理论基础的、配备有（指数）移动平均的单头门控注意力机制，将位置感知的局部依赖的归纳偏差纳入与位置无关的注意力机制。Mega 变体则进一步将输入序列划分为固定大小，同时最小化上下文信息的损失。它提供了线性的时间和空间复杂性，但只产生最小的质量损失，通过有效地将整个序列分割成具有固定长度的多个块。

相关资料：

代码地址：[https://github.com/facebookre...]
论文链接：<Mega: Moving Average Equipped Gated Attention>
更多资料：滑动平均门控注意力

Mega 改进序列模型，引入移动平均捕捉时空依赖

Zilliz

引用和评论

成本最高直降50倍! Zilliz Cloud Serverless Beta上线，限时免费，早用早省钱！

微帧WZVQA：极致还原人眼感知，精准评估视频画质

书籍-《激光雷达遥感入门与应用》

计算机视觉（语义分割） | 皮带跑偏识别冠军方案解读