LAMBERT:用于信息提取的布局感知(语言)建模
论文:LAMBERT: Layout-Aware (Language) Modeling for information extraction 2002.08087v5
🕙发布时间:2025-02-19
近日热文:
1. 全网最全的神经网络数学原理(代码和公式)直观解释
2. 大模型进化史:从Transformer到DeepSeek-R1的AI变革之路
3. 2W8000字深度剖析25种RAG变体:全网最全~没有之一
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
LAMBERT提出了一种全新且简洁的方法,来解决在文档理解中,复杂布局影响局部语义的问题。LAMBERT是对Transformer编码器架构的一种改进,它能够利用从OCR系统获取的布局特征,而无需从头重新学习语言语义。我们仅通过将标记边界框的坐标添加到模型的输入中,以此避免使用原始图像。这就产生了一种布局感知语言模型,之后可针对下游任务对其进行微调。
我们通过两种方式将布局信息注入到模型中。首先,我们通过添加布局项来修改原始RoBERTa模型的输入嵌入。我们还尝试了完全去除顺序嵌入项。其次,我们在顺序位置的上下文中应用相对注意力偏差。
LAMBERT模型架构
与普通RoBERTa模型的差异以深蓝色背景上的白色文本显示。
布局嵌入
一篇文档由一系列标记$t_i$及其边界框$b_i$表示。对于这个序列中的每个元素,我们为其分配布局嵌入$l_i$,它承载了该标记相对于整个文档的位置信息。
我们首先对边界框进行归一化处理,将其平移,使左上角位于$(0, 0)$,并将其尺寸除以页面高度。这使得页面边界框变为$(0, 0, w, 1)$,其中$w$是归一化后的宽度。
一个标记的布局嵌入将被定义为其边界框各个坐标的四个嵌入的连接。对于一个整数$d$和一个缩放因子向量$\theta \in R^d$,我们将单个坐标$t$的相应嵌入定义为:
单个边界框坐标嵌入的最终连接结果是一个$R^{8d}$中的向量。
与可能是一个很大整数的顺序位置不同,边界框坐标被归一化到区间$[0, 1]$。因此,对于我们的布局嵌入,我们使用更大的缩放因子($\theta_r$),即一个长度为$n/8$的等比数列,在1和500之间进行插值,其中$n$是输入嵌入的维度。
相对偏差
在典型的Transformer编码器中,单个注意力头将其输入向量转换为三个序列:查询、键和值。然后计算原始注意力分数为$\alpha_{ij}$。之后,使用softmax对它们进行归一化,并用作值向量线性组合的权重。
相对偏差的意义在于通过引入一个偏差项来修改原始注意力分数的计算:$\alpha_{ij}^0 = \alpha_{ij} + \beta_{ij}$。
在顺序设置中,$\beta_{ij} = W(i - j)$是一个可训练的权重,它取决于标记$i$和$j$的相对顺序位置。
我们将这种机制简单自然地扩展到二维上下文。在我们的情况下,偏差$\beta_{ij}$取决于标记的相对位置。更准确地说,设$C_1$为一个整数分辨率因子(用于离散化归一化坐标的网格中的单元格数量)。如果$b_i = (x_1, y_1, x_2, y_2)$是第$i$个标记的归一化边界框,我们首先将其简化为一个二维位置$(\xi_i, \eta_i) = (Cx_1, C(y_1 + y_2)/2)$,然后定义:
其中$H(l)$和$V(l)$是为每个整数$l \in [-C, C)$定义的可训练权重。对于典型文档,$C = 100$就足够了,我们在实验中固定了这个值。
实验
对于预训练的基础模型,我们使用了RoBERTa基础变体(1.25亿个参数,12层,12个注意力头,隐藏维度768)。
这些模型在扩展了布局信息的掩码语言建模目标上进行训练,随后在下游信息提取任务上进行训练。
训练是在从Common Crawl中提取的一系列PDF文件上进行的,这些PDF文件由各种文档组成,总计约31.5万个文档(312万页)。
结果
所考虑模型的F1分数比较。每列中的最佳结果以粗体显示。括号内给出了我们模型的训练时长,以非唯一页面数表示,用于比较。对于RoBERTa,第一行对应于未经任何进一步训练的原始预训练模型,而第二行中模型是在我们的数据集上进行训练的。a结果来自相关出版物;b结果来自单个模型,取自SROIE排行榜。
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。