DocFormer:用于文档理解的端到端Transformer模型,打破壁垒,重塑文档理解新格局


🕙发布时间:2025-02-19

近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企
公众号【柏企科技说】【柏企阅文

架构

联合多模态(VL-BERT、LayoutLMv2、VisualBERT、MMBT)

在这类架构中,视觉和文本被连接成一个长序列,这使得Transformer的自注意力机制变得困难,因为引言中提到的跨模态特征相关性问题。

两流多模态(CLIP、VilBERT)

这种架构的优势在于每种模态都作为一个单独的分支,这使得每个分支都可以使用任意模型。然而,文本和图像仅在最后进行交互,这并不理想。或许早期融合的方式会更好。

单流多模态

这种模式将视觉特征也视为标记(就像语言一样),并与其他特征相加。但以这种简单相加的方式将视觉特征与语言标记结合并不自然,因为视觉和语言特征属于不同类型的数据。

离散多模态(DocFormer)

DocFormer将视觉、文本和空间特征解耦。也就是说,空间和视觉特征作为残差连接传递到每个Transformer层。在每个Transformer层中,视觉和语言特征分别通过共享的空间特征进行自注意力计算。

模型架构

DocFormer是一种仅编码器的Transformer架构,它还具有用于视觉特征提取的CNN骨干网络。所有组件都是端到端训练的。DocFormer通过新颖的多模态自注意力机制,在Transformer层中实现深度多模态交互。

视觉特征

设$(v \in R^{3×h×w})$为文档图像,我们将其输入到ResNet50卷积神经网络$(f_{cnn}(\theta, v))$中。在第4层提取低分辨率的视觉嵌入,即$(v_{l4} \in R^{c×h_l×w_l})$。在这个阶段,典型的值是$(c = 2048)$,$(h_l = h/32)$,$(w_l = w/32)$。

Transformer编码器期望输入为$(d)$维的扁平序列。因此,我们首先应用$(1×1)$卷积将通道数$(c)$减少到$(d)$。然后将ResNet的特征展平为$((d, h_l×w_l))$,并使用线性变换层进一步将其转换为$((d, N))$,其中$(d = 768)$,$(N = 512)$。所以,我们将视觉嵌入表示为$(V = linear(conv_{1×1}(f_{cnn}(\theta, v))))$。

语言特征

我们首先使用词块分词器对文本$(t)$进行分词,得到$(t_{tok})$,然后将其输入到可训练的嵌入层$(W_t)$中。

我们确保文本嵌入$(T = W_t(t_{tok}))$与视觉嵌入$(V)$具有相同的形状。我们使用LayoutLMv1的预训练权重来初始化$(W_t)$。

空间特征

对于文本中的每个单词$(k)$,我们还获取其边界框坐标$(b_k = (x_1, y_1, x_2, y_2, x_3, y_3, x_4, y_4))$。对于每个单词,我们分别使用单独的层$(W_x)$和$(W_y)$对左上角和右下角坐标进行编码。

我们还编码更多的空间特征:边界框高度$(h)$、宽度$(w)$、边界框每个角到其右侧边界框对应角的欧几里得距离,以及边界框质心之间的距离,例如$(A_{rel} = \{A_{k + 1}^{num} - A_{k}^{num}\})$;$(A \in (x, y))$;$(num \in (1, 2, 3, 4, c))$,其中$(c)$是边界框的中心。由于Transformer层是排列不变的,我们还使用绝对1D位置编码$(P^{abs})$。

我们为视觉$(V_s)$和语言$(T_s)$特征创建单独的空间嵌入,因为空间依赖可能是特定于模态的。最终的空间嵌入是通过将所有中间嵌入相加得到的。所有空间嵌入都是可训练的。

多模态自注意力层

Transformer输出的多模态特征表示$(M)$与每个输入特征具有相同的形状,即$(d = 768)$,$(N = 512)$。

即在Transformer层$(l)$中,特征长度为$(L)$的第$(i)$个输入标记处:

其中

在不失一般性的情况下,我们去除对层$(l)$的依赖,得到公式2的简化形式:

我们针对多模态VDU任务修改了这种注意力公式。DocFormer试图在自注意力公式中注入以下归纳偏差:对于大多数VDU任务,局部特征比全局特征更重要。

在公式1中使用公式4计算的视觉自注意力,我们得到具有空间感知的自注意力视觉特征$(\hat{V}_l)$。类似地,在公式1中使用公式5,我们得到语言特征$(\hat{T}_l)$。多模态特征输出为$(M_l = \hat{V}_l + \hat{T}_l)$。

预训练

多模态掩码语言建模(MMMLM)

这是对原始掩码语言建模的一种修改。即对于文本序列$(t)$,生成一个被损坏的序列$(e_t)$。Transformer编码器预测$(\hat{t})$,并以重建整个序列为目标进行训练。

我们故意不掩码与[MASK]文本对应的视觉区域,目的是鼓励视觉特征补充文本特征,从而最小化文本重建损失。

学习重建(LTR)

这个任务类似于自动编码器的图像重建,但使用的是多模态特征。其核心思想是,在同时存在图像和文本特征的情况下,图像重建需要两种模态的协作。

文本描述图像(TDI)

在这个任务中,我们试图让网络学习给定的一段文本是否描述了一个文档图像。为此,我们使用一个线性层对多模态特征进行池化,以预测一个二进制答案。在一个批次中,80%的情况下正确的文本和图像是配对的,其余20%则是错误的图像与文本配对。

论文

DocFormer: End-to-End Transformer for Document Understanding 2106.11539
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
15 声望5 粉丝