AI领域四大热门话题:从文本处理到工作流优化
📖阅读时长:15分钟
🕙发布时间:2025-02-04
近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企】
公众号【柏企科技说】【柏企阅文】
- HtmlRAG:从文本片段到全局视图
- AFLOW:工作流搜索空间沙漠中的大师级勘探者
- ChunkRAG:精准知识提取的鹰眼读者
- MarkItDown:文件转Markdown格式的工具
HtmlRAG:从文本片段到全局视图
开源代码:https://github.com/plageon/HtmlRAG
生动描述
HtmlRAG就像是打开一本书,你不仅能看到文字,还能理解它的章节和布局,而不是像传统RAG那样只能看到零散的单词。
概述
当前的RAG系统在处理前会将HTML转换为纯文本,这会丢失有价值的结构信息。因此,一个直观的想法出现了:在RAG系统中直接使用HTML格式,能否更好地保留文档信息呢?
HtmlRAG在RAG系统中利用HTML格式而非纯文本,以保留语义和结构信息。
由于HTML的上下文长度更长,HtmlRAG使用渐进式修剪来缩短文档。图2中展示的四个步骤如下:HTML清理、块树构建、基于文本嵌入的块修剪和生成式细粒度块修剪。
评论
HtmlRAG在RAG系统中使用HTML作为知识载体,利用其结构并使用修剪算法来优化上下文长度。然而,大多数文档并非以HTML格式存储,这就需要转换工具,而这可能会减慢处理速度。
AFLOW:工作流搜索空间沙漠中的大师级勘探者
代码将在https://github.com/geekan/MetaGPT上提供
生动描述
AFLOW就像一位大师级的勘探者,在广阔的沙漠(工作流搜索空间)中,使用先进的工具(蒙特卡洛树搜索(MCTS)和操作符)不断挖掘,寻找深埋地下的金子(高效解决方案)。
概述
在构建代理工作流时,大语言模型(LLMs)需要大量的人力投入,这限制了它们的可扩展性和通用性。
AFLOW将工作流优化重新表述为对代码表示的工作流的搜索问题,其中调用大语言模型的节点通过边连接。它是一个自动化框架,使用蒙特卡洛树搜索(MCTS)有效地探索这个空间,通过代码修改、树状结构的经验和执行反馈来迭代优化工作流。
AFLOW的核心概念是将工作流建模为一系列相互连接的调用大语言模型的节点,其中节点代表大语言模型操作,边定义这些操作之间的逻辑、依赖关系和流程。操作符是节点操作的组合,定义了节点之间的逻辑关系和常见任务模式。
如图4所示,AFLOW在由具有灵活提示参数的节点、给定的操作符集和代码表示的边所定义的空间内执行基于蒙特卡洛树搜索的搜索。
AFLOW使用一种专门用于工作流优化的蒙特卡洛树搜索变体,迭代循环四个步骤:软混合概率选择、基于大语言模型的扩展、执行评估和经验反向传播。这个过程一直持续到达到最大迭代次数或满足收敛标准。
评论
AFLOW将工作流优化重新定义为对代码表示的工作流的搜索问题,展现出了创新性。但我有以下担忧:
虽然操作符提高了搜索效率,但这些操作符需要预先设计,并且在复杂或新颖的任务中,它们的适用性可能有限。
AFLOW的搜索过程在满足某些条件(例如n轮没有改进)时终止,但这可能会导致错过高潜力的路径。
ChunkRAG:精准知识提取的鹰眼读者
生动描述
ChunkRAG就像一位目光敏锐的读者,首先将长篇文章分解成小段落,然后运用专业判断挑选出最相关的段落,在避开无关内容的同时抓住所有要点。
概述
传统的RAG系统可能会通过检索不相关的信息生成不准确的内容。当前的文档级过滤无法去除文档中不太相关的内容。
考虑一个查询 “法国的首都是什么?”,如果没有适当的过滤,系统可能会包含关于法国其他城市的不必要事实,导致回答错误或冗长(图5,左)。
ChunkRAG引入了一种基于大语言模型的新颖块过滤框架,通过语义分块和相关性评分提高生成内容的准确性和真实性。(。[来源])
ChunkRAG框架主要在三个阶段运行:语义分块、混合检索和过滤、可控响应生成。
评论
总之,ChunkRAG集成了多种先进的RAG技术——语义分块、查询重写、自我反思和混合检索策略,以提高性能。
在我看来:前面讨论的ChunkRAG语义分块方法有一个局限性:对于语义相似度较弱但逻辑联系紧密的句子,尤其是在复杂结构中,它的表现不佳。
在未来,自我反思机制有望成为复杂任务内容生成质量控制的关键要素。
MarkItDown:文件转Markdown格式的工具
概述
MarkItDown是一个将各种文件转换为Markdown格式(例如用于索引、文本分析等)的实用工具。它支持PDF、图像、PowerPoint、Word等多种文件格式。它最近非常受欢迎且热度持续上升。
像往常一样,让我们来看看它是如何将PDF和图像转换为Markdown格式的:
对于PDF文件,它最终会调用class PdfConverter
,这个类会调用pdfminer.high_level.extract_text(...)
方法。
对于图像文件,它最终会调用class ImageConverter
,这个类会提取元数据,并且可以调用多模态大语言模型来获取图像的标题或描述。
评论
这种方法非常直接明了,不过这个项目似乎仍在开发中。期待它未来的发展。
推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!
本文由mdnice多平台发布
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。