Microsoft 推出 Logic Apps Standard 内置文档解析与分块功能
Microsoft 近日宣布在 Logic Apps Standard 中推出内置的文档解析与分块功能的公开预览版。这些功能旨在简化基于检索增强生成(RAG)的生成式 AI 应用数据摄取流程。通过这一举措,Microsoft 进一步增强了其低代码平台在人工智能领域的能力。
主要功能与优势
新推出的数据操作功能包括“解析文档”和“分块文本”,能够将 PDF、CSV、Excel 等格式的内容转换为标记化字符串,并根据标记数量将其分割为易于管理的块。这一功能确保了与 Azure AI Search 和 Azure OpenAI 的兼容性,因为这两者都需要标记化输入并有标记限制。
技术基础与适用性
Microsoft 项目经理 Divya Swarnkar 表示,这些功能基于 Apache Tika 工具包和解析库,能够解析数千种文件类型,支持多种语言(如 PDF、DOCX、PPT、HTML 等)。开发者无需编写自定义逻辑或配置即可无缝读取和解析来自任何来源的文档。
实际应用案例
Wessel Beulink,Rubicon 的云架构师,在其博客文章中总结了这些新功能的实际应用价值。他指出,Logic Apps 的文档解析与分块功能为自动化带来了许多可能性,适用于从法律工作流到客户支持的各种场景。通过低代码的 RAG 数据摄取,企业可以简化 AI 模型的集成,实现更顺畅的数据摄取、增强的搜索能力和更高效的知识管理。
集成与模板支持
Logic Apps 还提供了现成的 RAG 摄取模板,便于开发者连接常见的数据源,如 SharePoint、Azure File、SFTP 和 Azure Blob Storage。这些模板不仅节省了时间,还允许开发者根据需求自定义工作流。
行业专家观点
数据科学硕士生 Kamaljeet Kharbanda 在其Medium 博客文章中提到,RAG 技术通过将深度知识库与大型语言模型(LLMs)的强大分析能力结合,彻底改变了企业数据处理方式。这种协同作用能够对复杂数据集进行高级解释,在当今数字生态系统中推动竞争优势。
低代码/无代码平台的兴起
随着 Azure AI Studio、Amazon Bedrock、Vertex AI 和 Logic Apps 等低代码/无代码平台的普及,先进的 AI 功能变得更加易于访问。与此同时,LangChain 和 Llama Index 等工具也提供了通过代码密集型方法实现定制化 AI 功能的强大环境。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用@来通知其他用户。