StructuralLM:用于表单理解的结构预训练


📖阅读时长:19分钟

🕙发布时间:2025-02-14

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文
在文档图像理解任务中,为了利用现有的预训练语言模型并使其适应此类任务,StructuralLM以BERT架构为基础。

基于这一架构,我们提出利用文档图像中的单元格级布局信息,并将其融入到Transformer编码器中。

首先,对于来自不同单元格的一组标记以及单元格的布局信息,单元格级输入嵌入是通过将相应的词嵌入、单元格级二维位置嵌入和原始一维位置嵌入相加来计算的。然后,这些输入嵌入会经过一个双向Transformer编码器,该编码器可以利用注意力机制生成上下文相关的表示。

预训练

掩码视觉语言建模

部分输入标记会被随机掩码,但相应的单元格级位置嵌入会保留,然后对模型进行预训练以预测被掩码的标记。

与LayoutLM中的MVLM相比,StructuralLM利用了单元格级布局信息,能够更准确地预测被掩码的标记。

单元格位置分类

首先,将图像分割成N个大小相同的区域。然后,通过单元格的中心二维位置计算该单元格所属的区域。

与此同时,随机选择一些单元格,将所选单元格中标记的二维位置替换为(0; 0; 0; 0) 。在编码器输出之上构建一个分类层,该层预测所选单元格所在区域的标签[1,N],并计算交叉熵损失。

与LayoutLM类似,StructuralLM在IIT-CDIP Test Collection 1.0上进行预训练。

为了利用现有的预训练模型并适应文档图像理解任务,除了二维位置嵌入层之外,StructuralLM模型的权重使用预训练的RoBERTa large模型进行初始化。

微调

  • 表单和收据理解:FUNSD数据集
  • 文档图像分类:RVL-CDIP数据集
  • 文档视觉问答:DocVQA数据集

论文

StructuralLM: Structural Pre-training for Form Understanding 2105.11210

## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
15 声望4 粉丝