——已获知乎作者【小小将】授权转载

最近AI圈的变化可谓是日新月异,随着大模型的技术突飞猛进,大模型的能力日益增强。这些都驱动着我们的搜索技术快速演进到了下一代,也就是 AI 搜索的技术。大模型的快速发展不仅重塑了搜索技术的基础,也为各行各业的数字化转型提供了强有力的支持。

虽然 AI 搜索技术近年来取得了显著的进步,然而在实际应用中仍然面临一些挑战和问题。以下是一些主要的方面:

  • 可靠性:尽管AI系统能够处理大量数据并从中学习,但它们仍可能产生不准确或误导性的结果。这可能是由于训练数据中的偏差、模型过拟合或是对特定领域知识的理解不足导致的。
  • 准确性:知识库更新慢,目前很多大模型的训练数据知识库都是半年前或者几个月前的针对一些时效性的问题回答的都不够准确。

一、阿里云 AI 搜索开放平台

最近发现阿里云 AI 搜索开放平台有了新的动作。平台围绕 RAG 场景化及智能化搜索,依托文档智能解析服务对文档内容统一处理后,搭配 RAG 从大规模的文档集合中检索内容并生成更丰富、更具信息量回答。并且在大模型对话上也做了重大更新,采用 QwQ-32B, 这使得阿里云 AI 搜索更加智能化和精准化。

1.1 如何更好的构建知识库

大多数的数据都是通过文档的形式进行呈现和保存,阿里云 AI 搜索开放平台采用一套完整的知识库数据工具将一些非结构化的文档快速结构化并用来增强生成式 RAG 和大模型的训练。

非结构化的数据形式大多以文档的形式呈现 Pdf 和 Word(MS Office 2007之前为 doc,之后为 docx)是两种最常见的文档格式,但是二者有本质区别:

Word 倾向于编辑: Docx 格式遵循 Office Open XML 标准,底层通过 xml 保存数据,有标题、段落、表格等概念,但是不含页面和位置的概念,文档各个元素最终展现的位置由实际的渲染引擎决定(同一份文档不同软件打开后显示结果可能不同)。

Pdf 倾向于阅读和打印: 文档存储了一系列绘制字符、线条等基本元素的指令,指示了阅读器或打印机在屏幕或纸张上显示符号的位置和方式。相比 word、pdf 有页面和位置的概念,在不同终端的展示效果一致。

目前针对文档解析的开源工具可以分为两类:

(1)基于规则的方式;

优势:适用性广泛、速度快。

劣势:效果一般,识别的版面元素有限,且识别效果较差;

(2)基于模型的方式;

优势:能够识别更多更上层的版面元素,有利于后续切片。

劣势:速度慢,依赖 GPU 资源,适用的场景有限,识别过程黑盒(比如难以纠正上图中图片未识别的错误)。

1.2 构建核心知识库

基于阿里云 AI 智能技术栈构建,文档解析构建核心知识库整体流程分为四阶段:

目标检测→文本提取→结构化修复→跨页拼接

1、目标检测层: 采用 Deformable DETR 模型识别表格区域,通过动态注意力机制优化小目标(如表格边框、单元格)检测精度,尤其适应复杂版式文档的布局多样性。

2、文本提取层: 集成 Tesseract-OCR 引擎对检测到的表格区域进行字符级识别,支持多语言混合文本解析,并通过阿里云函数计算(FC)实现分布式 OCR 任务调度,提升处理效率。

3、规则修复层: 基于阿里云规则引擎(如 Serverless 工作流或日志服务SPL)对 OCR 结果进行纠错,例如:

  • 利用正则表达式修复日期、金额等格式错误;
  • 通过上下文语义匹配补全跨页表格缺失字段;
  • 结合预定义模板对齐行列结构。

4、跨页拼接层: 采用 RAG(检索增强生成)技术,通过向量化存储上下文信息,动态关联分页表格内容,实现逻辑连贯的拼接输出。阿里云搜索文档内容解析大概框架:

  • 文档智能解析:

基于对文档的内容信息、版面信息和逻辑信息的分析理解,结合搜索技术和大模型能力进行后续的应用开发。

  • 文档格式转换:

把不可编辑的PDF转换为可编辑的 Word 格式,将文档数据处理成切片后的分段文本数据,结合大模型生成问答式服务。

1.3 文档解析的过程

例如我采用阿里云 AI 搜索开放平台来进行文档解析:

所有格式最终输出为 markdown 格式,支持的版面元素:

多级标题,自然段划分,图片(标量、矢量),表格(全框、半框),上标、下标(支持嵌套),页眉、页脚

并对版面分析与其他的模型测试对比:

相比其他阿里云的结果更加细节化,包括图表,及每个作者的署名都能单独的进行解析,并最终输出格式化的数据。

其他模型阿里云AI

二、阿里云AI搜索开放平台新增加:推理模型 QwQ-32B

除了在构建知识库上做了重大更新,大模型问答上也做了优化:增加QwQ模型提升推理能力

阿里云AI搜索开放平台采用刚开源发布的新推理模型 QwQ-32B,其参数量为 320 亿,但性能已经达到6710 亿参数的 DeepSeek-R1 满血版的水平。

QwQ-32B 在一系列基准测试中进行了评估,包括数学推理、编程和通用能力。以下结果展示了 QwQ-32B 与其他领先模型的性能对比,包括 DeepSeek-R1-Distilled-Qwen-32B、DeepSeek-R1-Distilled-Llama-70B、o1-mini 以及原始的 DeepSeek-R1。

在阿里云 QwQ 官网你可以自行选择相应的模型进行体验,文末有相应的链接。

如果你有其他的应用场景也可以采用Api调用:

QwQ-32B的主要优化点:

(1)强化学习优化: QwQ-32B 通过基于奖励的多阶段训练过程利用强化学习技术。这可以实现更深层次的推理能力,通常与更大的模型相关。

(2)卓越的数学和编码能力: 在 RL 训练过程的第一阶段,QwQ-32B 使用数学问题的准确性验证器和代码执行服务器进行训练,以评估功能正确性。

(3)全面的通用能力: QwQ-32B 经过了额外的强化学习阶段,重点是增强通用能力。此阶段采用通用奖励模型和基于规则的验证器来改善指令遵循、与人类偏好的一致性和代理性能。

(4)代理功能: QwQ-32B 结合了先进的代理相关功能,使其能够在利用工具的同时进行批判性思考,并根据环境反馈调整其推理。

(5)竞争性能: 尽管只有 320 亿个参数,QwQ-32B 的性能却可与拥有 6710 亿个参数(其中 370 亿个已激活)的 DeepSeek-R1 相媲美。

针对QwQ-32B 与 DeepSeek-R1我做了以下的进对比测试:

  1. 问题推理

测试问题:“8 个人 A、B、C、D、E、F、G 和 H 坐在一张圆桌旁,每个人都面朝桌子中央。D 位于 F 左侧第二个位置,位于 H 右侧第三个位置。A 位于 F 右侧第二个位置,是 H 的直接邻居。C 位于 B 右侧第二个位置,F 位于 B 右侧第三个位置。G 不是 F 的直接邻居。在上述信息中,谁位于 A 的左侧?回答问题”

QwQ-32BDeepSeek-R1
该模型在解决座位问题时非常快速高效。它采用了更简洁的方法,首先将 H 放在位置 1,然后按顺时针方向向外移动。响应会预先显示答案,然后是定理证明风格的解释,并带有简洁的要点。模型花了不少时间才解答完这个谜题。它采用了一种更有条理的方法,从位置 1 的 F 开始,用完整的句子进行详细的逐步分析,在彻底验证所有条件后,将答案留到最后。
  1. 编程问题

这项任务评估人工智能的编码能力、创造力以及将需求转化为实用网页设计的能力。它测试了使用 HTML、CSS 和动画创建交互式视觉效果的技能。

提示: “创建一个静态网页,其中有发光的蜡烛,火焰周围有火花”

QwQ-32BDeepSeek-R1
QwQ 表现出对详细要求的更好遵守,尽管其可视化存在位置缺陷。它的实现虽然较慢,但包括提示中指定的火花,但存在定位错误,火焰错误地放置在蜡烛的底部而不是顶部。该模型在处理速度和基本渲染能力方面表现出了更好的能力。它的响应速度更快,但它只能部分满足要求,即创建带有火焰的蜡烛,同时忽略火焰周围的火花。

作为一个中型推理模型,QwQ-32B 只有320亿参数,但却在多个基准测试中展现出优秀的推理能力,几乎直逼满血版DeepSeek R1,在数学计算、写作与代码编程方面的表现更是相当不错。

最重要的是,QwQ-32B 不仅性能强大,还极其“亲民”,它体积小、推理快,支持消费级显卡部署,像 RTX 4090 这样的显卡就能轻松运行,非常适合普通个人开发者或者资源不足的科研党上手学习。

不过,由于 QwQ-32B 采用的是密集模型,相比 DeepSeek R1,在长文本复杂推理上,经常会出现无法识别前面内容,或者幻觉问题。

因此,在本地场景中,基于 QwQ-32B 部署 RAG 就成了解决这美中不足的最强外挂。

通过以上的对比测试,我发现阿里云AI搜索开放平台这次确实在构建知识库和大模型等方面做了很大的提升,用更加智能化的 RAG 工作流构建高效准确的大模型,从而助力于 AI 搜索。更扎实的技术革新带来更好的智能化产品,阿里正在用自己的实践为大家诠释“ALL in AI”。

对这些技术感兴趣的可以通过以下链接进行体验:

快速体验:https://help.aliyun.com/zh/open-search/search-platform/getting-started/ai-getting-started?spm=5176.29330531.J_2017351270.3.456d466cjW92hK


阿里云大数据AI
12 声望11 粉丝

分享阿里云计算平台的大数据和AI方向的技术创新、实战案例、经验总结。