LayoutLMv3:通过统一文本和图像掩码进行文档人工智能预训练
LayoutLMv3应用统一的文本 - 图像多模态Transformer来学习跨模态表示。Transformer具有多层架构,每层主要由多头自注意力机制和逐位置全连接前馈网络组成。Transformer的输入是文本嵌入$Y = y_{1:L}$和图像嵌入$X = x_{1:M}$序列的连接,其中$L$和$M$分别是文本和图像的序列长度。通过Transformer,最后一层输出文本和图像的上下文表示。
文本嵌入
文本嵌入是词嵌入和位置嵌入的组合。
词嵌入使用预训练模型RoBERTa的词嵌入矩阵进行初始化。
位置嵌入包括1D位置和2D布局位置嵌入,其中1D位置指文本序列中标记的索引,2D布局位置指文本序列的边界框坐标。
遵循LayoutLM,我们将所有坐标按图像大小进行归一化,并使用嵌入层分别嵌入x轴、y轴、宽度和高度特征。
LayoutLM和LayoutLMv2采用词级布局位置,即每个词都有其位置。相反,我们采用段级布局位置,因为同一段中的词通常表达相同的语义,所以它们共享相同的2D位置。
图像嵌入
在将文档图像输入多模态Transformer之前,用图像补丁的线性投影特征来表示它们。将文档图像调整大小为$H×W$,并将图像表示为$I ∈ R^{C×H×W}$,其中$C$、$H$和$W$分别是图像的通道大小、宽度和高度。将图像分割成一系列大小均匀的$P×P$补丁,将图像补丁线性投影到$D$维,并将它们扁平化为一个向量序列,其长度为$M = \frac{HW}{P^2}$ 。然后将可学习的1D位置嵌入添加到每个补丁中。
预训练
掩码语言建模(MLM)
30%的文本标记使用跨度掩码策略进行掩码,跨度长度从泊松分布($\lambda = 3$)中抽取。预训练目标是基于被损坏的图像标记$X_{M'}$和文本标记$Y_{L'}$序列的上下文表示,最大化正确掩码文本标记$y_{l}$的对数似然,其中$M'$和$L'$表示掩码位置。由于布局信息保持不变,这个目标有助于模型学习布局信息与文本和图像上下文之间的对应关系。
掩码图像建模(MIM)
MIM目标与MLM目标是对称的,大约40%的图像标记使用块级掩码策略随机掩码。MIM目标由交叉熵损失驱动,以在周围文本和图像标记的上下文中重建被掩码的图像标记$x_{m}$ 。MIM有助于学习高级布局结构,而不是嘈杂的低级细节。
词 - 补丁对齐(WPA)
WPA目标是预测文本单词对应的图像补丁是否被掩码。具体来说,当一个未掩码文本标记对应的图像标记也未被掩码时,为该文本标记分配一个对齐标签。否则,分配一个未对齐标签。在计算WPA损失时,被掩码的文本标记被排除在外,以防止模型学习被掩码文本单词和图像补丁之间的对应关系。
为了学习适用于各种文档任务的通用表示,LayoutLMv3在大型IIT - CDIP数据集上进行预训练。
模型配置
LayoutLMv3BASE采用12层Transformer编码器,具有12头自注意力机制,隐藏层大小$D = 768$,前馈网络的中间大小为3072。
LayoutLMv3LARGE采用24层Transformer编码器,具有16头自注意力机制,隐藏层大小$D = 1024$,前馈网络的中间大小为4096。
为了预处理文本输入,文本序列使用字节对编码(BPE)进行标记化,最大序列长度$L = 512$。
在每个文本序列的开头和结尾添加一个[CLS]和一个[SEP]标记。
当文本序列的长度短于$L$时,会追加[PAD]标记。这些特殊标记的边界框坐标均为零。
图像嵌入的参数为$C×H×W = 3×224×224$,$P = 16$,$M = 196$。
微调
- 表单和收据理解:FUNSD和CORD数据集
- 文档图像分类:RVL - CDIP数据集
- 文档视觉问答:DocVQA数据集
- 文档布局分析:PubLayNet数据集
论文
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking 2204.08387
推荐阅读
微软LayoutLMv2:用于富视觉文档理解的多模态预训练
微软 LayoutLM:文档理解的强大工具
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。