摘要: 随着用于传递和记录业务信息的管理文档的广泛使用,能够鲁棒且高效地从这些文档中自动提取和理解内容的方法成为一个迫切的需求。本次解读的文章提出利用图神经网络来解决半结构化文档中的实体识别(NER)和关系提取问题。
本文分享自华为云社区《论文解读系列十一:图神经网络应用于半结构化文档的命名实体识别和关系提取》,原文作者:小菜鸟chg 。
摘要:
随着用于传递和记录业务信息的管理文档的广泛使用,能够鲁棒且高效地从这些文档中自动提取和理解内容的方法成为一个迫切的需求。此外,基于图的表达方法对不同文档模版的变化具有灵活的适应性,从而使得图表达方式与这些管理文档的半结构化特性非常契合。正因为图神经网络(GNN)能够很好地学习出文档中数据元素间的关系,所以本次解读的文章提出利用图神经网络来解决半结构化文档中的实体识别(NER)和关系提取问题。经实验验证该文章提出的方法在单词分组、实体分类、关系预测三个任务上取得了SOTA结果,同时在FUNSD(表单理解)和IEHHR(手写婚姻档案理解)两个完全不同类别的数据集上取得的实验结果进一步验证了本次解读文章所提出的方法的泛化性。
1. 方法
GNN被广泛应用于NER和表格提取等任务中,本次解读的文章在此基础上提出将GNN应用于提取key-value对的任务中,不仅对文档图片中的实体进行分类,而且还会对实体间的关系进行预测。
给定一个输入文档,模型需要完成的任务包括:(a)单词分组:检测文档实体,即将相同语义的单词进行分组;(b)实体分类:将检测到的实体分为预设的类别;(c)关系预测:发现实体间配对关系。
(1)图的构造
本次解读的文章提出构造两张图来表示文档,并在此基础上训练三个不同的模型来解决对应的任务:单词分组f_1f1、实体分类f_2f2、关系预测f_3f3。如图1所示,文档会被表示为由OCR结果构造的图G_1=(V_1,E_1)G1=(V1,E1),其中V_1V1是由OCR结果中每个单词组成的节点集合;对每个单词文本框左上角间的距离进行kk-近邻(取k=10k=10)来生成边E_1E1,对各边计算分数s=f_1 (G_1)s=f1(G1),筛选出大于阈值\tauτ(FUNSD设为0.65, IEHHR设为0.9)的边就可以得到单词分组的结果。
图1 单词分组的图结构构造示意图
图2 实体分类和关系预测的图结构构造示意图
如图2所示,在G_1G1的基础上得到实体(即各单词分组)后,由每个实体构造得到图G_2=(V_2,E_2)G2=(V2,E2),其中V_2V2表示由G_1G1筛选得到的实体集合,E_2E2是由各实体节点间全连接得到的边集合。由c=f_2 (G_2)c=f2(G2)得到实体分类结果;由s=f_3 (G_3)s=f3(G3)得到关系预测结果。
(2)图的计算
2. 实验结果
从FUNSD实验结果表明,本次解读文章提出的方法与LayoutLM相比较还有优化空间,原因可能在于FUNSD的数据量较小。从IEHHR实验结果表明,该方法在表单识别的其他领域即手写记录理解上也具有一定的效果,体现了其泛化性。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。