论文解读丨图神经网络应用于半结构化文档的命名实体识别和关系提取

摘要： 随着用于传递和记录业务信息的管理文档的广泛使用，能够鲁棒且高效地从这些文档中自动提取和理解内容的方法成为一个迫切的需求。本次解读的文章提出利用图神经网络来解决半结构化文档中的实体识别（NER）和关系提取问题。

本文分享自华为云社区《论文解读系列十一：图神经网络应用于半结构化文档的命名实体识别和关系提取》，原文作者：小菜鸟chg 。

摘要：

随着用于传递和记录业务信息的管理文档的广泛使用，能够鲁棒且高效地从这些文档中自动提取和理解内容的方法成为一个迫切的需求。此外，基于图的表达方法对不同文档模版的变化具有灵活的适应性，从而使得图表达方式与这些管理文档的半结构化特性非常契合。正因为图神经网络（GNN）能够很好地学习出文档中数据元素间的关系，所以本次解读的文章提出利用图神经网络来解决半结构化文档中的实体识别（NER）和关系提取问题。经实验验证该文章提出的方法在单词分组、实体分类、关系预测三个任务上取得了SOTA结果，同时在FUNSD（表单理解）和IEHHR（手写婚姻档案理解）两个完全不同类别的数据集上取得的实验结果进一步验证了本次解读文章所提出的方法的泛化性。

1. 方法

GNN被广泛应用于NER和表格提取等任务中，本次解读的文章在此基础上提出将GNN应用于提取key-value对的任务中，不仅对文档图片中的实体进行分类，而且还会对实体间的关系进行预测。

给定一个输入文档，模型需要完成的任务包括：（a）单词分组：检测文档实体，即将相同语义的单词进行分组；（b）实体分类：将检测到的实体分为预设的类别；（c）关系预测：发现实体间配对关系。

（1）图的构造

本次解读的文章提出构造两张图来表示文档，并在此基础上训练三个不同的模型来解决对应的任务：单词分组f_1f1、实体分类f_2f2、关系预测f_3f3。如图1所示，文档会被表示为由OCR结果构造的图G_1=(V_1,E_1)G1=(V1,E1)，其中V_1V1是由OCR结果中每个单词组成的节点集合；对每个单词文本框左上角间的距离进行kk-近邻（取k=10k=10）来生成边E_1E1，对各边计算分数s=f_1 (G_1)s=f1(G1)，筛选出大于阈值\tauτ（FUNSD设为0.65， IEHHR设为0.9）的边就可以得到单词分组的结果。

图1 单词分组的图结构构造示意图

图2 实体分类和关系预测的图结构构造示意图

如图2所示，在G_1G1的基础上得到实体（即各单词分组）后，由每个实体构造得到图G_2=(V_2,E_2)G2=(V2,E2)，其中V_2V2表示由G_1G1筛选得到的实体集合，E_2E2是由各实体节点间全连接得到的边集合。由c=f_2 (G_2)c=f2(G2)得到实体分类结果；由s=f_3 (G_3)s=f3(G3)得到关系预测结果。

（2）图的计算

2. 实验结果

从FUNSD实验结果表明，本次解读文章提出的方法与LayoutLM相比较还有优化空间，原因可能在于FUNSD的数据量较小。从IEHHR实验结果表明，该方法在表单识别的其他领域即手写记录理解上也具有一定的效果，体现了其泛化性。

点击关注，第一时间了解华为云新鲜技术~

论文解读丨图神经网络应用于半结构化文档的命名实体识别和关系提取

摘要：

1. 方法

（1）图的构造

（2）图的计算

2. 实验结果

华为云开发者联盟

引用和评论

华为云开发者联盟入选 2023 中国技术品牌影响力企业榜，深耕开发者生态

30分钟内输出结果，新加坡国立大学/MIT等基于SVM构建微生物污染检测模型

性能远超SAM系模型，苏黎世大学等开发通用3D血管分割基础模型

登Nature子刊，俄罗斯研究团队基于机器学习实现万亿级质谱数据搜索，发现未知化学反应

英伟达新一代GPU架构（50系列显卡）PyTorch兼容性解决方案

PyTorch PINN实战：用深度学习求解微分方程

10招立竿见影的PyTorch性能优化技巧，让模型训练速度翻倍