主要观点:有效利用非结构化信息对企业保持竞争力至关重要,传统数据摄取方法在处理海量数据集用于 AI 驱动聊天应用时难以保持数据质量和相关性,标准文本解析器会导致上下文丢失和误解,阻碍[检索增强生成(RAG)]系统性能,而先进的洞察生成方法通过先进的 AI、动态分块、向量嵌入和智能索引可改善数据摄取和索引。
关键信息:
- 集成智能[光学字符识别(OCR)]与[Azure 文档智能],智能 OCR 能识别复杂文档布局,保留内容结构和层次,文档智能可检测和标记实体、映射关系、提取高精度元数据。
- 内容经动态分块后基于逻辑部分和上下文分段,能更准确进行向量嵌入,保留结构化数据完整性,文本和向量嵌入都被索引,实现高级、上下文感知和格式敏感的搜索功能。
- 先进洞察生成管道不仅改善知识提取,还增强数据质量和搜索相关性,通过智能文档智能保留文档格式,实现“格式感知”索引,提高 RAG 应用性能。
- 在 Azure 中实施先进洞察生成,需将文档发送至 Azure 文档智能服务检测和解析格式并保留结构,然后创建 Azure AI Search 索引存储扫描数据,使用[Azure OpenAI 的
text-embedding-ada-002
模型生成嵌入,将处理后的数据上传至 Azure AI Search 索引,最后实现 RAG 并测试系统。
重要细节:
- 提供了使用 Python 代码实现上述流程的示例,包括发送文档到 Azure 文档智能服务、创建 Azure AI Search 索引、生成嵌入、上传数据到索引以及实现 RAG 和测试系统的代码段。
- 强调大多数企业拥有大量价值信息锁在 PDF 等文档中,此方法可将静态文件转化为智能内容,便于构建更好的搜索工具和 AI 聊天体验,对处理结构化文档很有帮助。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。