Universal Document Processing:统一视觉、文本和布局的文档处理模型
🕙发布时间:2025-02-19
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
Universal Document Processing (UDOP)是一种基础的文档人工智能模型,它将文本、图像和布局模态与各种任务格式相结合,涵盖文档理解和生成等任务。UDOP利用文本内容和文档图像之间的空间相关性,以统一的表示形式对图像、文本和布局模态进行建模。
UDOP通过视觉 - 文本 - 布局Transformer以及统一的生成式预训练任务(包括视觉任务、文本任务、布局任务和混合任务)来统一视觉、文本和布局。我们展示了所有自监督目标(联合文本 - 布局重建、视觉文本识别、布局建模和掩码自动编码)以及两个示例监督目标(问答和布局分析)的任务提示(左侧)和任务目标(右侧)。
架构
统一的视觉、文本和布局编码器
我们提出了一种新的视觉 - 文本 - 布局(VTL)Transformer架构,它可以根据布局信息动态融合并统一图像像素和文本标记。
给定文档图像 $v$、图像内的 $M$ 个单词标记以及提取的布局结构 $\{(x_{1i}, y_{1i}, x_{2i}, y_{2i})\}$,我们首先将 $v$ 划分为 $\frac{H}{P}×\frac{W}{P}$ 个图像补丁,其中每个补丁的大小为 $P×P×C$。然后,我们用一个 $D$ 维向量对每个补丁进行编码,并将所有补丁嵌入组合成一个向量序列,其中 $N=\frac{H}{P}×\frac{W}{P}$。文本标记也通过查找词汇表转换为数值型的 $D$ 维嵌入。
布局诱导的视觉 - 文本嵌入
我们为视觉、文本和布局构建了统一的表示形式。我们将图像补丁和标记嵌入的布局指示函数 $\varphi$ 定义如下:
然后,对于每个文本标记嵌入 $s_i$,联合表示是其图像补丁特征和文本特征之和:
然后,$\{s_i\}$ 和 $\{v
_j\}$ 被输入到VTL Transformer编码器中。
为了进一步统一布局和文本表示,我们将布局模态(即文本边界框的连续坐标)离散化为布局标记。
在VTL Transformer编码器中,我们不使用一维位置嵌入,因为联合嵌入和二维位置偏差已经包含了输入文档的布局结构。
特定模态的模型变体
我们没有采用单一的统一编码器,而是分别使用文本编码器(对文本和布局标记进行编码)和视觉编码器。根据先前的研究,两个编码器都使用位置偏差来表示布局信息。我们将这个变体命名为UDOP-Dual。
视觉 - 文本 - 布局解码器
VTL解码器由文本 - 布局解码器和视觉解码器组成。文本布局解码器是一个单向Transformer解码器,以序列到序列的方式生成文本和布局标记。对于视觉解码器,我们采用MAE的解码器,并利用文本和布局信息直接生成图像像素。
文本 - 布局解码器和视觉解码器都会与VTL编码器进行交叉注意力计算(在UDOP-Dual的情况下,它有两个特定模态的编码器,解码器会与两个编码器输出的连接进行交叉注意力计算)。
统一生成式预训练
所有生成式预训练目标的总结,包括任务名称、任务提示和任务目标。
自监督预训练任务
- 布局建模:要求模型在给定文档图像和上下文文本的情况下,预测(一组)文本标记的位置。
- 视觉文本识别:识别图像中给定位置的文本。
- 联合文本 - 布局重建:要求模型重建缺失的文本,并在文档图像中定位它们。具体来说,我们对一定比例的文本标记进行掩码处理,然后让模型预测这些标记及其边界框。
- 基于文本和布局的掩码图像重建:旨在利用文本和布局重建图像。我们采用MAE目标进行视觉自监督学习。
监督预训练任务
- 分类:任务是预测文档类型。任务提示是 “Document Classification on (Dataset Name)”,例如 “Document Classification on RVLCDIP”,后面跟着文本标记。目标是文档类别。我们使用有16个文档类别的RVL-CDIP数据集。
- 布局分析:此任务是预测文档中某个实体(如标题、段落等)的位置。任务提示是 “Layout Analysis on (Dataset Name)”,后面跟着实体名称。目标是覆盖给定实体的所有边界框。我们使用PubLayNet数据集。
- 信息提取:该任务预测文本查询(例如摘要段落)的实体类型和位置。任务提示是 “Information Extraction on (Dataset Name) (Text Query)”。目标是查询中每个标记的实体标签和边界框。我们使用DocBank、Kleister Charity (KLC)、PWC和DeepForm数据集。
- 问答:任务是回答与文档图像相关的给定问题。任务提示是 “Question Answering on (Dataset Name)”,后面跟着问题和所有文档标记。目标是答案。我们使用WebSRC、VisualMRC、DocVQA、InfographicsVQA和WTQ (WikiTableQuestions) 数据集。
- 文档自然语言推理:预测文档中两个句子之间的蕴含关系。提示是 “Document Natural Language Inference on (Dataset Name)”,后面跟着句子对。目标是 “Entailment” 或 ”Not Entailment”。我们使用TabFact数据集进行此任务。
实验设置
在UDOP中,统一编码器和文本 - 布局解码器遵循T5-large的编码器 - 解码器架构。视觉解码器是MAE-large解码器。总体而言,UDOP有7.94亿个可训练参数。
对于UDOP-Dual,文本 - 布局编码器 - 解码器遵循T5-large架构,视觉编码器 - 解码器与MAE-large具有相同的配置。它总共有10.98亿个可训练参数。
结果
与DUE-Benchmark上已发表的现有模型进行比较。模态T、L、V分别表示文本、布局或视觉。
在FUNSD、CORD和RVL-CDIP数据集上的性能表现。模态V、T、L分别表示视觉、文本和布局。
论文
Unifying Vision, Text, and Layout for Universal Document Processing 2212.02623
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。