头图

在文档解析工作中,我们日常会遇到种类繁多的文件类型:书籍、期刊、论文、企业年报、公告、金融研报、国标材料、试卷,等等不胜枚举。基于深度学习方法,当前的版面分析技术能够妥善处理包括多栏排版论文、跨页无线表格在内的众多复杂版面情况。尽管如此,仍有更丰富的案例进入我们的视野,它们被应用于学术研究、AI训练等场景,特殊的版面构成向当前的技术提出了挑战。例如,以下的报纸页面。

图片

以报纸、杂志为代表的版面结构复杂,缺乏统一性,解析难度相较其他文档更高。在当前技术的基础上,合合信息技术团队已关注到这一类版面布局,并开展研究,探索提高算法模型表现的方法。

1 TransDLANet 文档布局分析方法

TransDLANet[1] 是一个基于 Transformer 的文档布局分析方法,采用实例分割的方式进行布局提取。方法遵循 ISTR[2] 的框架,但在核心上进行了变化,通过利用自适应元素匹配机制,使查询嵌入能够更好地匹配真实标注并提高召回率。TransDLANet 使用不带位置编码的 Transformer 编码器作为特征融合方法,构建了一个分割分支以实现更精确的文档图像实例分割,并使用三个共享参数的多层感知机(MLP)分支进行多任务学习。

图片
The pipeline of TransDLANet

TransDLANet架构:

  • 基于CNN的主干网络:用于提取文档图像特征。
  • Transformer编码器:对查询嵌入向量进行自注意力特征学习,并使用自适应元素匹配机制进一步增强查询向量与文档实例之间的关联。
  • 动态解码器:基于动态交互的解码模块(Dynamic Decoder),融合查询向量与 RoIAlign 获取的边界框图像区域特征。
  • 共享MLP分支:用于多任务学习,解码文档实例区域的分类置信度、边界框坐标位置和分割掩码。

2 M6Doc数据集

在机器学习领域,高质量的数据集如同优质的燃料,决定了模型这台“引擎”的运行效率。优质的、多样化的数据集是训练出高性能算法模型的关键因素。没有足够的数据量,模型会难以捕捉到特征模式;而缺乏多样性的数据,则可能导致模型过拟合——即在训练数据上表现优异,但遇到新数据时却“不知所措”。一个代表真实世界场景、涵盖足够变异性和复杂度的数据集不仅能够提高模型的泛化能力,还有助于模型在未来面对各种情况时都能给出准确可靠的预测。

深度学习方法已在文档布局分析(DLA)中占据主导地位,在有效提高技术能力的同时,也需要大量的训练数据。目前,DLA 研究中大多数公开数据集存在规模较小、文档格式单一(主要是 PDF)、文档类型和语言有限的问题,且标注类别不够细粒化,限制了多领域通用布局分析方法的发展。

在这种情况下,研究人员提出并构架了M6Doc 数据集。它具备几个重要的特点:

  • 多格式:包含扫描、拍摄和 PDF 文档。
  • 多类型:涵盖科学文章、教科书、书籍、试卷、杂志、报纸和笔记等七种文档类型。
  • 多布局:包含矩形、曼哈顿、非曼哈顿和多列曼哈顿等四种布局。
  • 多语言:包含中文和英文文档。
  • 多标注类别:包含 74 种标注类别,共 237,116 个标注实例,分布在 9,080 页手动标注的文档中。
  • 图片
    M6Doc数据集包含的复杂版面案例M6Doc

数据集从多个来源收集,包括 arXiv、中国日报官网和 VKontakte等。不同子集的来源和构成如下所示。

  • 科学文章子集:通过在 arXiv 上搜索关键词“光学字符识别”和“文档布局分析”获取文章。然后下载 PDF 文件并将其转换为图像。
  • 教科书子集:包含来自三个年级(小学、初中和高中)和九个科目(语文、数学、英语、物理、化学、生物、历史、地理和政治)的教科书的 2,080 张扫描文档图像。
  • 试卷子集:由涵盖与教科书子集相同九个科目的 2,000 份考试试卷组成。
  • 杂志子集:包括 1,000 份中文和英文杂志的 PDF 格式文档,各占一半。中文杂志来自五家出版社:《全球科学》、《神秘》、《青年文摘》、《中国国家地理》和《读者》。英文杂志来自《时代》等五家出版社。
  • 报纸子集:包含来自《中国日报》和《华尔街日报》的 500 份 PDF 文档图像。
  • 笔记子集:由九个科目的学生手写笔记组成,包括 500 张扫描页面。
  • 书籍子集:包含从 50 本书中拍摄的 500 张图像,每本书有 10 页。每本书都有独特的布局,使得该子集具有相当大的多样性。
数据集地址:https://github.com/HCIILAB/M6Doc

本期内容中,我们介绍了版面分析技术最新的研究方向之一:真实世界中更丰富的版面布局。

TransDLANet 方法以其创新的 Transformer 架构和自适应元素匹配机制,实现了对复杂文档布局更为精准的理解与分割,大大提升了实例分割的效果。而 M6Doc 作为多格式、多类型、多布局、多语言和多标注类别的大规模数据集,为研究者提供了重要资源,支持了更加细致和全面的模型训练。

在大模型应用日益普及的今天,版面分析技术的发展前景愈加广阔。解析算法不仅能够帮助机器更好地理解非结构化信息,还能推动智能文档处理、内容抽取等领域的进步。未来,随着模型能力的不断增强以及更多样化的数据集出现,无论是在学术界还是工业界,智能化的信息处理都将为我们带来更高效、便捷的体验。

[1] Cheng H, Zhang P, Wu S, et al. M6doc: A large-scale multi-format, multi-type, multi-layout, multi-language, multi-annotation category dataset for modern document layout analysis[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023: 15138-15147. 合合信息华南理工联合实验室
[2] Jie Hu, Liujuan Cao, Yao Lu, ShengChuan Zhang, Yan Wang, Ke Li, Feiyue Huang, Ling Shao, and Rongrong Ji. ISTR: End-to-End Instance Segmentation with Transformers. arXiv preprint arXiv:2105.00637, 2021.

合合技术团队
31 声望6 粉丝

上海合合信息科技股份有限公司人工智能团队,在上海市领军人才合合信息董事长镇立新博士带领下,开展面向复杂多场景文字识别理解及应用的研究工作,多维度来研究解决文档图像的文字识别智能感知与结构化认知理解...