头图

从 DeepSeek R1 的发布,到 Agent 开发不断拓展边界,大模型(LLM)掀起了新一轮的“破圈型”关注浪潮,国内外 LLM 企业纷纷开启“竞赛模式”,AI 应用深入到生活与生产,正在改变着各行各业的传统运转方式。

在 LLM 大行其道的今天,我们面对着这样一个问题:在 LLM “力大砖飞”能解决很多任务的情况下,OCR 这一类“小模型”仍然有存在的意义和必要性吗?为什么业界的前沿技术团队还在投入研究专有模型?

本文将从这个问题出发,探讨文字识别和文档处理的技术发展,大模型与小模型之间的竞争或协作关系。

如何区分大模型和小模型?

首先,我们先来看一下大模型和小模型的定义。

严格来说,大模型与小模型之间并没有绝对意义上的区分标准。根据学界和行业目前的普遍认知,从参数大小的角度,我们将参数小的模型称为小模型,比如小于 1B,或者小于 0.1B 的模型。而从专用性的角度出发,做专有任务的模型即是小模型,例如 OCR 模型、人脸识别模型、语音识别模型;而做通识性、泛化性任务的是大模型,比如能解决翻译、摘要、总结、各种逻辑数学问题的泛化型模型。

简而言之,小模型通常指的是参数数量较少、训练数据规模相对有限的模型,通常用于专有场景,而大模型是包含数亿到数千亿个参数的深度学习模型,拥有极高的表达能力,能够理解和生成复杂的自然语言文本,支持多种任务,包括文本生成、翻译、问答和代码生成等。

大模型也能完成 OCR 任务,为什么我们还需要专有模型?

OCR 现在仍是一项重要任务。此前,欧洲的AI独角兽公司发布 OCR 模型,受到了业界的广泛关注。

其原因在于,OCR 是信息处理的关键第一步。OCR 面向的是文字处理,而文字是人类信息和知识的高密度载体。历史上,人类以记录文字为起点,开始传承先人经验,发展形成文明;而 AI 时代,OCR 负责的工作是将物理世界的文档、图像转化成电子信息的第一步,从“人类可读”走向“机器可读”,进而才有可能实现信息抽取、RAG 知识问答、大模型训练语料、Agent 应用。

现在,不少通用 LLM 也能完成 OCR 任务,但与专有模型仍然存在本质上的区别。以 DeepSeek 为例,DeepSeek 本身并不支持多模态,而是通过外接一个 OCR 小模型的方式来实现多模态的能力。当前,大模型在泛化任务上有更强的能力,但在垂直领域的专业任务上无法实现专有模型的效果,在生产环境下大模型的精细程度不能满足需求。

另外,大模型的幻觉问题是另一项制约。从原理上来说,ViT 等专业模型的核心是对图像进行重建,忠实于原图像,不会产生幻觉问题;而视觉大模型的核心逻辑是根据图像特征,补全下一部分最有可能出现的文字或信息,它输出的是最大概率的结果,结果与其训练数据、输入图像特征都存在一定关系,无法避免大模型幻觉,尽管可以通过调整 prompt 降低幻觉问题的出现频率,但根据底层机理,不可能做到完全限制。在准确度要求极高的生产领域,专有模型的“可靠性”仍然重要。

图片

                                      专有模型表格解析案例

小模型会被大模型替代吗?

大模型由于庞大的参数量和海量训练数据,通常有更高的精度和更强的泛化能力。在处理自然语言任务时具有极高的准确性和上下文理解能力。在多任务处理和复杂问题上,大模型的表现一般优于小模型。

相比之下,小模型通常专注于特定的任务或领域。在特定的场景下,由于数据的针对性以及高效率的推理速度,往往表现超过大模型,比如文字识别、语音识别、表情识别等。

面对“小模型会被大模型替代吗?”这个问题,业界共识一般认为:大模型和小模型将长期共存,各自负责其擅长的领域。

大模型在成本收益比、专有领域、稳定性、可靠性等方面存在问题,但其强大的泛化能力和处理复杂任务的优势,使其在更广泛的领域展现出巨大潜力。小模型同时以其高效、灵活的特点,在特定场景和资源受限的环境中发挥着不可替代的作用。所以1+1,大模型串联小模型,小模型在感知领域高效高精准获得环境信息,大模型在认知和决策领域根据小模型获得的信息进行复杂任务的推理和决策。

大小模型的协同方式

大小模型之间的协同是能力上的合作。AI 应用包括感知、认知、决策执行阶段,小模型完成的是感知阶段,将信息转化为电子化形式,让机器能看到外界的信息,大模型则负责逻辑性处理,这是两者协作的基础分工。

大小模型协同框架旨在整合大模型的广泛知识和小模型的专业能力。要基于规划、分工与协作机制,实现知识融合,将大模型的基础知识、能力与小模型的专用能力有机结合。

图片

以大模型最快落地的应用方向 RAG 为例,大模型存在幻觉、知识时效性、领域知识不足及数据安全问题的局限性。RAG(Retrieval Augmented Generation,检索增强生成)技术正是在这样的背景下应运而生,成为了当前大模型应用的重要技术方向,文档问答类 LLM RAG 应用也被认为是 AI 2.0 时代最早落地的应用类型之一。

RAG 技术使开发者能够在无需为每个特定任务重新训练或微调大模型的情况下,通过连接外部文档,为模型注入额外的非参数化知识,从而显著提升其在专业领域的能力和回答精度。而在这个流程中将外部文档转化为正确阅读顺序的、正确结构展示、精准的文字提取的模块则是文档解析小模型。

文档解析小模型的本质在于将格式各异、版式多样、元素多种的文档数据,包括段落、表格、标题、公式、多列、图片等文档区块,转化为阅读顺序正确的字符串信息,支持电子档和扫描档。

RAG 通过检索文档解析小模型获得的文档信息,使大模型能够参考这些信息,从而生成更具可信度和准确性的答案。这种方法不仅增强了生成内容的准确性,还提高了模型在应对特定领域知识和动态信息时的适应能力。这是一个典型的协同案例,最终实现性能跃升,取得 1+1>2 效果。

未来大小模型的协同可能在越来越多的场景落地,再扩展来说,大模型与小模型、工具的整合,也就是 Agent,比如最近爆火的 Manus,可能为应用落地带来新的想象空间。

💡欢迎后台私信小助手免费在线体验 OCR 专有模型~

来交流群与我们共同探讨技术发展与 AI 应用的可能性,领取更多福利、大模型应用技术学习材料。


合合技术团队
31 声望7 粉丝

上海合合信息科技股份有限公司人工智能团队,在上海市领军人才合合信息董事长镇立新博士带领下,开展面向复杂多场景文字识别理解及应用的研究工作,多维度来研究解决文档图像的文字识别智能感知与结构化认知理解...