Universal Document Processing：统一视觉、文本和布局的文档处理模型

🕙发布时间：2025-02-19

近日热文：
1. 全网最全的神经网络数学原理（代码和公式）直观解释
 2. 大模型进化史：从Transformer到DeepSeek-R1的AI变革之路
 3. 2W8000字深度剖析25种RAG变体：全网最全~没有之一
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

Universal Document Processing (UDOP)是一种基础的文档人工智能模型，它将文本、图像和布局模态与各种任务格式相结合，涵盖文档理解和生成等任务。UDOP利用文本内容和文档图像之间的空间相关性，以统一的表示形式对图像、文本和布局模态进行建模。

UDOP通过视觉 - 文本 - 布局Transformer以及统一的生成式预训练任务（包括视觉任务、文本任务、布局任务和混合任务）来统一视觉、文本和布局。我们展示了所有自监督目标（联合文本 - 布局重建、视觉文本识别、布局建模和掩码自动编码）以及两个示例监督目标（问答和布局分析）的任务提示（左侧）和任务目标（右侧）。

架构

统一的视觉、文本和布局编码器

我们提出了一种新的视觉 - 文本 - 布局（VTL）Transformer架构，它可以根据布局信息动态融合并统一图像像素和文本标记。

给定文档图像 $v$、图像内的 $M$ 个单词标记以及提取的布局结构 $\{(x_{1i}, y_{1i}, x_{2i}, y_{2i})\}$，我们首先将 $v$ 划分为 $\frac{H}{P}×\frac{W}{P}$ 个图像补丁，其中每个补丁的大小为 $P×P×C$。然后，我们用一个 $D$ 维向量对每个补丁进行编码，并将所有补丁嵌入组合成一个向量序列，其中 $N=\frac{H}{P}×\frac{W}{P}$。文本标记也通过查找词汇表转换为数值型的 $D$ 维嵌入。

布局诱导的视觉 - 文本嵌入

我们为视觉、文本和布局构建了统一的表示形式。我们将图像补丁和标记嵌入的布局指示函数 $\varphi$ 定义如下：

然后，对于每个文本标记嵌入 $s_i$，联合表示是其图像补丁特征和文本特征之和：

然后，$\{s_i\}$ 和 $\{v_j\}$ 被输入到VTL Transformer编码器中。

为了进一步统一布局和文本表示，我们将布局模态（即文本边界框的连续坐标）离散化为布局标记。

在VTL Transformer编码器中，我们不使用一维位置嵌入，因为联合嵌入和二维位置偏差已经包含了输入文档的布局结构。

特定模态的模型变体

我们没有采用单一的统一编码器，而是分别使用文本编码器（对文本和布局标记进行编码）和视觉编码器。根据先前的研究，两个编码器都使用位置偏差来表示布局信息。我们将这个变体命名为UDOP-Dual。

视觉 - 文本 - 布局解码器

VTL解码器由文本 - 布局解码器和视觉解码器组成。文本布局解码器是一个单向Transformer解码器，以序列到序列的方式生成文本和布局标记。对于视觉解码器，我们采用MAE的解码器，并利用文本和布局信息直接生成图像像素。

文本 - 布局解码器和视觉解码器都会与VTL编码器进行交叉注意力计算（在UDOP-Dual的情况下，它有两个特定模态的编码器，解码器会与两个编码器输出的连接进行交叉注意力计算）。

统一生成式预训练

所有生成式预训练目标的总结，包括任务名称、任务提示和任务目标。

自监督预训练任务

布局建模：要求模型在给定文档图像和上下文文本的情况下，预测（一组）文本标记的位置。
视觉文本识别：识别图像中给定位置的文本。
联合文本 - 布局重建：要求模型重建缺失的文本，并在文档图像中定位它们。具体来说，我们对一定比例的文本标记进行掩码处理，然后让模型预测这些标记及其边界框。
基于文本和布局的掩码图像重建：旨在利用文本和布局重建图像。我们采用MAE目标进行视觉自监督学习。

监督预训练任务

分类：任务是预测文档类型。任务提示是 “Document Classification on (Dataset Name)”，例如 “Document Classification on RVLCDIP”，后面跟着文本标记。目标是文档类别。我们使用有16个文档类别的RVL-CDIP数据集。
布局分析：此任务是预测文档中某个实体（如标题、段落等）的位置。任务提示是 “Layout Analysis on (Dataset Name)”，后面跟着实体名称。目标是覆盖给定实体的所有边界框。我们使用PubLayNet数据集。
信息提取：该任务预测文本查询（例如摘要段落）的实体类型和位置。任务提示是 “Information Extraction on (Dataset Name) (Text Query)”。目标是查询中每个标记的实体标签和边界框。我们使用DocBank、Kleister Charity (KLC)、PWC和DeepForm数据集。
问答：任务是回答与文档图像相关的给定问题。任务提示是 “Question Answering on (Dataset Name)”，后面跟着问题和所有文档标记。目标是答案。我们使用WebSRC、VisualMRC、DocVQA、InfographicsVQA和WTQ (WikiTableQuestions) 数据集。
文档自然语言推理：预测文档中两个句子之间的蕴含关系。提示是 “Document Natural Language Inference on (Dataset Name)”，后面跟着句子对。目标是 “Entailment” 或 ”Not Entailment”。我们使用TabFact数据集进行此任务。

实验设置

在UDOP中，统一编码器和文本 - 布局解码器遵循T5-large的编码器 - 解码器架构。视觉解码器是MAE-large解码器。总体而言，UDOP有7.94亿个可训练参数。

对于UDOP-Dual，文本 - 布局编码器 - 解码器遵循T5-large架构，视觉编码器 - 解码器与MAE-large具有相同的配置。它总共有10.98亿个可训练参数。

结果

与DUE-Benchmark上已发表的现有模型进行比较。模态T、L、V分别表示文本、布局或视觉。

在FUNSD、CORD和RVL-CDIP数据集上的性能表现。模态V、T、L分别表示视觉、文本和布局。

论文

Unifying Vision, Text, and Layout for Universal Document Processing 2212.02623

本文由mdnice多平台发布

Universal Document Processing：统一视觉、文本和布局的文档处理模型