LiLT：用于结构化文档理解的简单而有效的非语言依赖布局Transformer

📖阅读时长：19分钟

🕙发布时间：2025-02-13

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

整个框架可视为一个并行双流Transformer。给定一个输入文档图像，首先使用现成的OCR引擎获取文本边界框和内容。然后，分别嵌入文本和布局信息，并将其输入到相应的基于Transformer的架构中，以获得增强特征。引入双向注意力互补机制（BiACM）来实现文本和布局线索的跨模态交互。最后，将编码后的文本和布局特征连接起来，并在其上添加额外的头，用于自监督预训练或下游微调。

文本嵌入

LN表示层归一化（Layer Normalization）

布局嵌入

所有边界框坐标都被归一化并离散化为范围在[0, 1000]内的整数，使用四个嵌入层分别生成x轴、y轴、高度和宽度特征。

CAT表示按通道连接操作（channel wise concatenation operation）。特殊标记[CLS]、[SEP]和[PAD]也分别附加(0, 0, 0, 0, 0, 0)、(1000, 1000, 1000, 1000, 0, 0)和(0, 0, 0, 0, 0, 0)。

双向注意力互补机制（BiACM）

给定位于同一层同一头的文本流和布局流的注意力分数：

BiACM将它们作为公共知识共享，公式如下：

为了尽可能保持LiLT在微调中与不同现成文本模型协同工作的能力，我们启发式地采用分离的注意力分数，这样在预训练期间文本流不会受到非文本流梯度的影响，并且可以保持其整体一致性。最后，修改后的注意力分数用于对两个流中后续模块的投影值向量进行加权。

预训练

掩码视觉语言建模（MVLM）

MVLM随机掩码一些输入标记，模型需要使用输出的编码特征在整个词汇表中恢复这些标记，由交叉熵损失驱动。同时，非文本信息保持不变。

MVLM利用跨模态信息改进了模型在语言方面的学习。给定的布局嵌入也可以帮助模型更好地捕捉句间和句内关系。

关键点定位（KPL）

KPL将整个布局均匀划分为几个区域（默认7×7 = 49个区域），并随机掩码一些输入边界框。模型需要使用单独的头预测每个框的关键点（左上角、右下角和中心点）属于哪些区域。

KPL使模型充分理解文本内容，并在给定周围单词/句子的情况下，知道特定单词/句子应该放在哪里。

跨模态对齐识别（CMAI）

CMAI收集那些被MVLM和KPL掩码的标记-框对的编码特征，并在这些特征上构建一个额外的头，以识别每对是否对齐。

CMAI使模型学习跨模态感知能力。

论文

LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding 2202.13669

本文由mdnice多平台发布

LiLT：用于结构化文档理解的简单而有效的非语言依赖布局Transformer