ERNIE-Layout:布局知识增强预训练,助力富视觉文档理解


📖阅读时长:19分钟

🕙发布时间:2025-02-14

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文

给定一篇文档,ERNIE-Layout会利用布局知识重新排列标记序列,并从视觉编码器中提取视觉特征。文本和布局嵌入通过线性投影组合为文本特征,对视觉嵌入也执行类似操作。接下来,这些特征被连接起来,并输入到堆叠的多模态Transformer层中,该层配备了空间感知解耦注意力机制。

序列化模块

受人类阅读习惯的启发,我们采用Document-Parser(一种基于Layout-Parser的先进文档布局分析工具包)对这些文档进行序列化。基于OCR识别的单词及其边界框,它首先检测文档元素(如段落、列表、表格、图片),然后根据不同元素的特征,使用特定算法获取单词之间的逻辑关系,从而得到正确的阅读顺序。

文本嵌入

标记序列 $T$ 的文本嵌入表示为:
$E(T) = E_{tk}(T) + E_{1p}(T) + E_{tp}(T)$
其中,$E_{tk}$、$E_{1p}$、$E_{tp}$ 分别表示标记嵌入、一维位置嵌入和标记类型嵌入层。

视觉嵌入

为了提取文档的视觉特征,我们采用Faster-RCNN作为视觉编码器的骨干网络。具体来说,将文档图像调整大小为224×224并输入到视觉骨干网络中,引入自适应池化层将输出转换为固定宽度 $W$ 和高度 $H$ 的特征图(这里我们将它们设置为7)。接下来,将特征图展平为视觉序列 $V$,并使用线性层 $F_{vs}(·)$ 将每个视觉标记投影到与文本嵌入相同的维度。

布局嵌入

在水平和垂直方向分别构建嵌入层:

其中,$E_{2x}$ 是x轴嵌入层,$E_{2y}$ 表示y轴嵌入层。并且所有坐标值都归一化到 [0, 1000] 范围内。

ERNIE-Layout的最终输入表示 $H$

多模态Transformer

受DeBERTa解耦注意力机制的启发(在该机制中,标记之间的注意力权重是使用关于它们的内容和相对位置的解耦矩阵计算的),我们提出了用于多模态Transformer的空间感知解耦注意力机制,以使布局特征能够参与其中。

预训练

ERNIE-Layout有24个Transformer层,1024个隐藏单元和16个注意力头。文本标记的最大序列长度为512,视觉标记的序列长度为49。Transformer从RoBERTa large初始化,视觉编码器以Faster-RCNN为初始化模型。

  1. 阅读顺序预测:为了让模型理解布局知识和阅读顺序之间的关系,并在接收到顺序不当的输入时仍能正常工作,我们赋予 $\hat{A}_{ij}$ 额外含义,即第 $j$ 个标记是第 $i$ 个标记的下一个标记的概率。此外,真实值是一个0 - 1矩阵 $G$,其中1表示两个标记之间存在阅读顺序关系,反之则为0。对于结束位置,下一个标记是其自身。在预训练中,我们使用交叉熵计算损失。
  2. 替换区域预测:为了使模型能够借助布局知识感知图像补丁和文本之间的细粒度对应关系。具体来说,随机选择10%的补丁,并用另一张图像的补丁替换,处理后的图像由视觉编码器编码并输入到多模态Transformer中。然后,Transformer输出的 [CLS] 向量用于预测哪些补丁被替换了。
  3. 掩码视觉语言建模
  4. 文本 - 图像对齐

微调

  1. 表单和收据理解:FUNSD、SROIE、Kleister-NDA和CORD数据集
  2. 文档图像分类:RVL-CDIP数据集
  3. 文档视觉问答:DocVQA数据集

论文

ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich Document Understanding 2210.06155
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
15 声望4 粉丝