DocFormer：用于文档理解的端到端Transformer模型，打破壁垒，重塑文档理解新格局

🕙发布时间：2025-02-19

近日热文：
1. 全网最全的神经网络数学原理（代码和公式）直观解释
 2. 大模型进化史：从Transformer到DeepSeek-R1的AI变革之路
 3. 2W8000字深度剖析25种RAG变体：全网最全~没有之一
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

架构

联合多模态（VL-BERT、LayoutLMv2、VisualBERT、MMBT）

在这类架构中，视觉和文本被连接成一个长序列，这使得Transformer的自注意力机制变得困难，因为引言中提到的跨模态特征相关性问题。

两流多模态（CLIP、VilBERT）

这种架构的优势在于每种模态都作为一个单独的分支，这使得每个分支都可以使用任意模型。然而，文本和图像仅在最后进行交互，这并不理想。或许早期融合的方式会更好。

单流多模态

这种模式将视觉特征也视为标记（就像语言一样），并与其他特征相加。但以这种简单相加的方式将视觉特征与语言标记结合并不自然，因为视觉和语言特征属于不同类型的数据。

离散多模态（DocFormer）

DocFormer将视觉、文本和空间特征解耦。也就是说，空间和视觉特征作为残差连接传递到每个Transformer层。在每个Transformer层中，视觉和语言特征分别通过共享的空间特征进行自注意力计算。

模型架构

DocFormer是一种仅编码器的Transformer架构，它还具有用于视觉特征提取的CNN骨干网络。所有组件都是端到端训练的。DocFormer通过新颖的多模态自注意力机制，在Transformer层中实现深度多模态交互。

视觉特征

设$(v \in R^{3×h×w})$为文档图像，我们将其输入到ResNet50卷积神经网络$(f_{cnn}(\theta, v))$中。在第4层提取低分辨率的视觉嵌入，即$(v_{l4} \in R^{c×h_l×w_l})$。在这个阶段，典型的值是$(c = 2048)$，$(h_l = h/32)$，$(w_l = w/32)$。

Transformer编码器期望输入为$(d)$维的扁平序列。因此，我们首先应用$(1×1)$卷积将通道数$(c)$减少到$(d)$。然后将ResNet的特征展平为$((d, h_l×w_l))$，并使用线性变换层进一步将其转换为$((d, N))$，其中$(d = 768)$，$(N = 512)$。所以，我们将视觉嵌入表示为$(V = linear(conv_{1×1}(f_{cnn}(\theta, v))))$。

语言特征

我们首先使用词块分词器对文本$(t)$进行分词，得到$(t_{tok})$，然后将其输入到可训练的嵌入层$(W_t)$中。

我们确保文本嵌入$(T = W_t(t_{tok}))$与视觉嵌入$(V)$具有相同的形状。我们使用LayoutLMv1的预训练权重来初始化$(W_t)$。

空间特征

对于文本中的每个单词$(k)$，我们还获取其边界框坐标$(b_k = (x_1, y_1, x_2, y_2, x_3, y_3, x_4, y_4))$。对于每个单词，我们分别使用单独的层$(W_x)$和$(W_y)$对左上角和右下角坐标进行编码。

我们还编码更多的空间特征：边界框高度$(h)$、宽度$(w)$、边界框每个角到其右侧边界框对应角的欧几里得距离，以及边界框质心之间的距离，例如$(A_{rel} = \{A_{k + 1}^{num} - A_{k}^{num}\})$；$(A \in (x, y))$；$(num \in (1, 2, 3, 4, c))$，其中$(c)$是边界框的中心。由于Transformer层是排列不变的，我们还使用绝对1D位置编码$(P^{abs})$。

我们为视觉$(V_s)$和语言$(T_s)$特征创建单独的空间嵌入，因为空间依赖可能是特定于模态的。最终的空间嵌入是通过将所有中间嵌入相加得到的。所有空间嵌入都是可训练的。

多模态自注意力层

Transformer输出的多模态特征表示$(M)$与每个输入特征具有相同的形状，即$(d = 768)$，$(N = 512)$。

即在Transformer层$(l)$中，特征长度为$(L)$的第$(i)$个输入标记处：

其中

在不失一般性的情况下，我们去除对层$(l)$的依赖，得到公式2的简化形式：

我们针对多模态VDU任务修改了这种注意力公式。DocFormer试图在自注意力公式中注入以下归纳偏差：对于大多数VDU任务，局部特征比全局特征更重要。

在公式1中使用公式4计算的视觉自注意力，我们得到具有空间感知的自注意力视觉特征$(\hat{V}_l)$。类似地，在公式1中使用公式5，我们得到语言特征$(\hat{T}_l)$。多模态特征输出为$(M_l = \hat{V}_l + \hat{T}_l)$。

预训练

多模态掩码语言建模（MMMLM）

这是对原始掩码语言建模的一种修改。即对于文本序列$(t)$，生成一个被损坏的序列$(e_t)$。Transformer编码器预测$(\hat{t})$，并以重建整个序列为目标进行训练。

我们故意不掩码与[MASK]文本对应的视觉区域，目的是鼓励视觉特征补充文本特征，从而最小化文本重建损失。

学习重建（LTR）

这个任务类似于自动编码器的图像重建，但使用的是多模态特征。其核心思想是，在同时存在图像和文本特征的情况下，图像重建需要两种模态的协作。

文本描述图像（TDI）

在这个任务中，我们试图让网络学习给定的一段文本是否描述了一个文档图像。为此，我们使用一个线性层对多模态特征进行池化，以预测一个二进制答案。在一个批次中，80%的情况下正确的文本和图像是配对的，其余20%则是错误的图像与文本配对。

论文

DocFormer: End-to-End Transformer for Document Understanding 2106.11539
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的？背后的数学原理
 2. 微调 DeepSeek LLM：使用监督微调（SFT）与 Hugging Face 数据
 3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1：了解GRPO和多阶段训练
 5. 深度探索：DeepSeek-R1 如何从零开始训练
 6. DeepSeek 发布 Janus Pro 7B 多模态模型，免费又强大！

本文由mdnice多平台发布

DocFormer：用于文档理解的端到端Transformer模型，打破壁垒，重塑文档理解新格局