StructuralLM：用于表单理解的结构预训练

📖阅读时长：19分钟

🕙发布时间：2025-02-14

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】
在文档图像理解任务中，为了利用现有的预训练语言模型并使其适应此类任务，StructuralLM以BERT架构为基础。

基于这一架构，我们提出利用文档图像中的单元格级布局信息，并将其融入到Transformer编码器中。

首先，对于来自不同单元格的一组标记以及单元格的布局信息，单元格级输入嵌入是通过将相应的词嵌入、单元格级二维位置嵌入和原始一维位置嵌入相加来计算的。然后，这些输入嵌入会经过一个双向Transformer编码器，该编码器可以利用注意力机制生成上下文相关的表示。

预训练

掩码视觉语言建模

部分输入标记会被随机掩码，但相应的单元格级位置嵌入会保留，然后对模型进行预训练以预测被掩码的标记。

与LayoutLM中的MVLM相比，StructuralLM利用了单元格级布局信息，能够更准确地预测被掩码的标记。

单元格位置分类

首先，将图像分割成N个大小相同的区域。然后，通过单元格的中心二维位置计算该单元格所属的区域。

与此同时，随机选择一些单元格，将所选单元格中标记的二维位置替换为(0; 0; 0; 0) 。在编码器输出之上构建一个分类层，该层预测所选单元格所在区域的标签[1,N]，并计算交叉熵损失。

与LayoutLM类似，StructuralLM在IIT-CDIP Test Collection 1.0上进行预训练。

为了利用现有的预训练模型并适应文档图像理解任务，除了二维位置嵌入层之外，StructuralLM模型的权重使用预训练的RoBERTa large模型进行初始化。

微调

表单和收据理解：FUNSD数据集
文档图像分类：RVL-CDIP数据集
文档视觉问答：DocVQA数据集

论文

StructuralLM: Structural Pre-training for Form Understanding 2105.11210

本文由mdnice多平台发布

StructuralLM：用于表单理解的结构预训练