StructuralLM:用于表单理解的结构预训练
📖阅读时长:19分钟
🕙发布时间:2025-02-14
近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
在文档图像理解任务中,为了利用现有的预训练语言模型并使其适应此类任务,StructuralLM以BERT架构为基础。
基于这一架构,我们提出利用文档图像中的单元格级布局信息,并将其融入到Transformer编码器中。
首先,对于来自不同单元格的一组标记以及单元格的布局信息,单元格级输入嵌入是通过将相应的词嵌入、单元格级二维位置嵌入和原始一维位置嵌入相加来计算的。然后,这些输入嵌入会经过一个双向Transformer编码器,该编码器可以利用注意力机制生成上下文相关的表示。
预训练
掩码视觉语言建模
部分输入标记会被随机掩码,但相应的单元格级位置嵌入会保留,然后对模型进行预训练以预测被掩码的标记。
与LayoutLM中的MVLM相比,StructuralLM利用了单元格级布局信息,能够更准确地预测被掩码的标记。
单元格位置分类
首先,将图像分割成N个大小相同的区域。然后,通过单元格的中心二维位置计算该单元格所属的区域。
与此同时,随机选择一些单元格,将所选单元格中标记的二维位置替换为(0; 0; 0; 0) 。在编码器输出之上构建一个分类层,该层预测所选单元格所在区域的标签[1,N],并计算交叉熵损失。
与LayoutLM类似,StructuralLM在IIT-CDIP Test Collection 1.0上进行预训练。
为了利用现有的预训练模型并适应文档图像理解任务,除了二维位置嵌入层之外,StructuralLM模型的权重使用预训练的RoBERTa large模型进行初始化。
微调
- 表单和收据理解:FUNSD数据集
- 文档图像分类:RVL-CDIP数据集
- 文档视觉问答:DocVQA数据集
论文
StructuralLM: Structural Pre-training for Form Understanding 2105.11210
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。