文档图像矫正任务的前沿进展：引入Transformer框架、极坐标的思路

在《文档数字化采集与智能处理：图像弯曲矫正技术概述》一文中，我们介绍了文档图像矫正技术的发展沿革与代表性方案。随着文档智能处理的需求逐步升级，文档图像去畸变技术也在不断探索新的可能性。

今天，我们将讨论近年来文档图像矫正任务的前沿进展，分享一些我们正在关注的方向，欢迎与我们共同探讨、交流进步。

Transformer 架构下的文档矫正探索

代表性工作

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [1]

研究结果
提出了一种新的框架 DocTr，用于解决文档图像的几何和照明失真问题。该框架包括一个几何矫正 Transformer 和一个照明矫正 Transformer，通过设置一组学习的查询嵌入，几何矫正 Transformer 捕获文档图像的全局上下文，并解码像素级位移解决方案以纠正几何失真。在几何矫正后，照明矫正 Transformer 进一步去除阴影伪影，提高视觉质量和 OCR 准确性。

创新优势
首次尝试将Transformer架构应用于文档图像矫正领域，提出了一个新的视角：把矫正过程看作是从“弯曲”状态到“平坦”状态的转换。
通过自注意力机制捕捉全局上下文信息，同时结合位置编码来保留空间结构，实现了高质量的矫正结果。
成功地将Transformer的优势延伸到了文档矫正这一特定任务上，展示了其处理长距离依赖关系的能力。
对比传统CNN模型，在某些极端情况下表现出了更强的鲁棒性和适应性。
项目地址：https://github.com/fh2019ustc/DocTr

Deep Unrestricted Document Image Rectification [2]

研究结果
提出了 DocTr++，一个用于文档图像矫正的新型统一框架，无需对输入的失真图像进行任何限制。
引入了一种新的端到端框架，它不仅考虑了文档图像的二维几何变换，还结合了3D形状信息来进行更精确的矫正。该方法能够处理更加复杂的非平面文档表面，如书籍页面等。

模型改进
与 DocTr 框架相比，模型改进主要体现在以下方面：
架构升级，采用层次化编码器-解码器结构：DocTr++引入了层次化的编码器-解码器架构，用于多尺度表示提取和解析。这种结构能够更好地捕捉文档图像在不同尺度上的特征，从而更准确地理解和校正图像中的扭曲。
像素映射关系重新定义，适应无限制文档图像校正：DocTr++重新定义了无限制扭曲文档图像与其无扭曲对应图像之间的像素映射关系。这意味着DocTr++可以处理各种输入情况，包括包含完整文档边界、部分文档边界以及无文档边界的扭曲图像。

项目地址：https://github.com/fh2019ustc/DocTr-Plus

基于极坐标表示的文档图像矫正

代表性工作

Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation [3]

研究结果
探索极坐标表示在文档去畸变中的应用，提出了 Polar-Doc 模型。与大多数当前工作采用的两阶段流程不同，极坐标表示使得分割和去畸变网络能够在单个阶段内统一进行点回归框架。这种统一使得整个模型在端到端优化流程下更高效地学习，并且获得了紧凑的表示。
提出了一种新颖的多范围 Polar-Doc-IOU 损失函数，作为极坐标下的基于网格的正则化，约束控制点之间的关系，提高学习效果，获得更好的去皱性能。

创新优势
首次在文档去畸变中探索极坐标表示，使得文档轮廓的表示更加灵活，IOU 损失的计算更加高效。
提出的单阶段模型将分割和去畸变任务统一在一个联合回归框架中，以更少的参数实现先进的模型性能。

注意力机制增强控制点预测

代表性工作

DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction [4]

研究结果
设计了一个双子网络（Enet + AECP），其中Enet负责初步边缘检测和粗略矫正，而AECP则通过引入注意力机制来精确定位控制点，从而实现更精细的局部变形校正。
通过合成具有 3D 变形和额外变形类型的 2D 图像来增强训练数据，提供了一个包含 200 张中文失真图像的更全面的基准测试，涵盖了更多真实生活场景。

创新优势
通过 Enet 和 AECP 模块的结合，有效去除了背景噪声并提高了在不同环境条件和文本类型下的可读性，包括在各种光照条件下保持较高的输出稳定性。
提出的 3D 变形合成方法为训练数据提供了真实和多样化的变形，显著提高了模型的鲁棒性。

合合信息的图像矫正系统

合合信息推出了高性能文档图像矫正系统，能很好地矫正复杂的背景、更多类型的真实场景形变图像，为文档识别与解析提供更易于处理的输入图像。
系统链接为：https://www.textin.com/market/detail/crop_enhance_image

总结

从早期单纯使用几何方法到如今深度学习与几何先验、光照建模、多模态感知等多种思路的结合，文档图像弯曲矫正（去畸变）技术日益走向成熟。新一代方法不仅在弯曲矫正精度上不断提升，还更加关注在真实移动端场景下的部署效率与鲁棒性。

随着更多公开数据集的涌现与计算机视觉技术的快速迭代，文档矫正技术将逐步迈向更精确、更鲁棒、更易用的阶段，也为后续文档分析、信息提取等应用提供了重要支撑。

Reference
[1] Hao Feng, Yuechen Wang, Wengang Zhou, Jiajun Deng, Houqiang Li. "DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction." In Proceedings of the 29th ACM International Conference on Multimedia (MM ’21), October 20–24, 2021, Virtual Event, China.
[2] Hao Feng, Shaokai Liu, Jiajun Deng, Wengang Zhou, Houqiang Li. "Deep Unrestricted Document Image Rectification." arXiv preprint arXiv:2304.08796, 2023.
[3] Weiguang Zhang, Qiufeng Wang, Kaizhu Huang. "Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation." arXiv preprint arXiv:2312.07925, 2023.
[4] Fangchen Yu, Yina Xie, Lei Wu, Yafei Wen, Guozhi Wang, Shuai Ren, Xiaoxin Chen, Jianfeng Mao, Wenye Li. "DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction." In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), 2024.

文档图像矫正任务的前沿进展：引入Transformer框架、极坐标的思路

Transformer 架构下的文档矫正探索

代表性工作

DocTr: Document Image Transformer for Geometric Unwarping and Illumination Correction [1]

Deep Unrestricted Document Image Rectification [2]

基于极坐标表示的文档图像矫正

代表性工作

Polar-Doc: One-Stage Document Dewarping with Multi-Scope Constraints under Polar Representation [3]

注意力机制增强控制点预测

代表性工作

DocReal: Robust Document Dewarping of Real-Life Images via Attention-Enhanced Control Point Prediction [4]

合合信息的图像矫正系统

总结

合合技术团队

引用和评论

TextIn OCR Frontend前端开源组件库发布！

一文掌握 MCP 上下文协议：从理论到实践

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略