跟随蚂蚁，它们知道路径：使用ACO-ToT增强LLM推理

利用群体智能和思想树优化，解锁高级AI推理

📖阅读时长：19分钟

🕙发布时间：2025-02-09

近日热文：全网最全的神经网络数学原理（代码和公式）直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
 知乎LLM专栏
 知乎【柏企】
公众号【柏企科技说】【柏企阅文】

大型语言模型（LLM）展现出了强大的能力，能够模仿一些通常被认为只有人类才具备的技能，比如解决数学问题、创作文本等。多个基准测试的持续进步便是有力证明。不过，这并不代表它们不会出错，其计算效率也有待提升。尤其是在那些需要战略规划、探索或复杂计算的应用场景中，这些局限性尤为明显。

为了解决模型存在的局限性，人们提出了一些基于认知科学原理的技术。比如说，思维链（CoT）就致力于让模型在解决问题时，对中间推理步骤进行思考，而不是直接给出答案。这种方法也成为了当下深度推理模型的基石。然而，简单的CoT方法在解决问题时，往往只评估一种方案，而人类在面对问题时，通常会探索多种潜在的解决办法。因此，像思想树（ToT）、思想图（GoT）这类技术应运而生，它们突破了CoT的线性推理模式，能够探索更多不同的思路。但这些方法也存在弊端，随着中间推理步骤的增多，计算成本也会大幅增加。

我们如何在优化流程的同时，探索多种不同的解决方案？能否找到一种既高效探索不同推理路径，又不牺牲性能的方法呢？在本文中，我们将深入探讨这个问题，看看研究人员是如何从蚂蚁的活动中获取灵感，找到解决方案的。

在一篇新发表的论文中，研究人员提出将蚁群优化（ACO）算法应用于LLM，以此实现对推理空间的优化。ACO是一种受大自然启发的元启发式算法，常被用于解决优化问题，尤其是像旅行商问题（TSP）这样的组合优化难题。它模拟了真实蚂蚁的觅食行为——蚂蚁会通过释放信息素，找到蚁群与食物源之间的最短路径。

这一过程可以概括为以下四个步骤：

随机探索：蚂蚁一开始会随机行动，在周围环境中寻找食物，并在经过的路径上留下信息素踪迹。
强化路径：当蚂蚁找到食物后，会带着食物返回蚁巢，同时在返回路径上释放更多信息素。这样一来，信息素浓度高的路径，后续蚂蚁选择的可能性就更大。
信息素蒸发：随着时间推移，信息素会逐渐挥发。这一机制能避免蚂蚁群体只关注已有路径，防止系统陷入局部最优解，从而促使蚂蚁持续探索新路径。
概率选择路径：蚂蚁会根据路径上的信息素强度，以概率方式选择下一条路径。信息素越多的路径，被蚂蚁选中的概率就越高。

从数学角度来看，这一过程可以用图表来表示。蚂蚁从节点i选择路径j的概率计算公式为：
$$P_{ij} = \frac{\tau_{ij}^{\alpha}\eta_{ij}^{\beta}}{\sum_{k \in allowed_{i}}\tau_{ik}^{\alpha}\eta_{ik}^{\beta}}$$
其中，$P_{ij}$代表从i到j路径的选择概率，$\tau_{ij}$是边(i, j)上的信息素强度，$\eta_{ij}$表示与距离相关的参数（$1/distance$），N是节点总数。我们还可以通过调整$\alpha$和$\beta$两个参数，分别控制信息素强度和距离对蚂蚁路径选择的影响程度。

每次迭代之后，信息素水平会根据下面这个公式进行更新：
$$\tau_{ij}(t + 1) = (1 - \rho)\tau_{ij}(t)+\sum_{k = 1}^{m}\Delta\tau_{ij}^{k}$$
这里，$\rho$代表信息素的蒸发率，m是蚂蚁的数量，$\Delta\tau_{ij}^{k}$表示第k只蚂蚁在路径(i, j)上新增的信息素量。

蚁群优化算法具有强大的稳健性和灵活性，并且遵循人类大脑的Hebbian学习原理。这是神经科学中的一个重要理论，它指出神经元之间的突触连接会随着反复激活而不断强化，简单来说就是“一起发射的神经元，连接在一起”。论文作者认为，ACO算法可以与思想树（ToT）等方法结合使用。

于是，研究人员提出了ACO引导的思想树（ACO-ToT）这一全新算法。它将ToT的探索能力和ACO的群体智能相结合，能够帮助我们找到最佳的推理路径。

我们可以这样理解这个算法：把LLM看作一只只“蚂蚁”，它们在“思维的森林”中穿梭，寻找高质量的“思想食物”。从一个问题x出发，会生成一棵思想树T，树中的每个节点代表一种推理状态，而每条边则表示从一种思想到另一种思想的转变过程。

在这个算法里，有多个经过微调的LLM（就如同蚁群中的多只蚂蚁）在图中遍历。这些LLM在推理的不同领域进行了针对性训练，各自具备不同的专业知识。在每个时间步t，“蚂蚁”（也就是LLM）会从一个想法转移到另一个想法，并释放信息素。

那么，如何判断“蚂蚁”是否找到了“食物”呢？其实，每条路径P都可以看作是一系列的思想（也就是一条思维链），我们可以通过下面这个公式来评估其质量Q(P)：
$$Q(P) = w_{1}C(P)+w_{2}L(P)+w_{3}M(P)$$
在这个公式中，$C(P)$衡量的是语义连贯性（通过对两个想法进行嵌入处理，利用余弦相似度判断它们的相似程度），$L(P)$用于对过长的路径进行惩罚（基于路径长度对数的负数），$M(P)$是一个融合了多个LLM专业知识的综合得分，$w_{1}$、$w_{2}$、$w_{3}$则是用于平衡各项的权重。

此时，$\Delta\tau_{ij}^{k} = Q(P_{k})$，信息素水平也会依据这个结果进行更新。算法会持续迭代，直到达到预设的最大迭代次数T，或者获取到足够多不同的路径。最后，根据图中信息素水平的高低，提取出最佳路径，由中央LLM（$\pi_{c}$）利用这条路径生成最终的解决方案。一般来说，中央LLM的规模较大，而作为“蚂蚁”的LLM规模相对较小，这样的搭配效果更佳。

从理论层面分析，研究人员发现：

收敛至最优解：只要合理选择信息素的更新规则和蒸发率，ACO算法就能收敛到全局最优解，同时有效避免陷入局部最优的困境。
平衡探索与利用：ACO算法中，探索与利用之间的平衡由信息素的动态变化决定。通过调整$\alpha$和$\beta$这两个常数，就可以灵活控制这一动态平衡。其中，$\alpha$用于调节信息素对路径选择的影响程度（体现为利用已有路径），$\beta$则侧重于诱导探索新路径。此外，蒸发率也会对这种平衡产生作用，较高的蒸发率有利于探索新路径，而较低的蒸发率则更倾向于利用已有路径。
计算复杂度：ACO算法在蚂蚁数量和问题规模方面，都呈现出多项式复杂度。这意味着，对于复杂问题而言，计算成本并不低。以ACO-ToT算法为例，每只“蚂蚁”在t次迭代中，每次探索路径都需要产生N个中间想法，A只“蚂蚁”总共就需要调用A×N×t次LLM。需要注意的是，每只“蚂蚁”都是一个独立的LLM，这就需要专门的基础设施来支持（即便可以实现一定程度的并行计算，比如同时运行6个）。

为了验证ACO-ToT算法的效果，研究人员以Llama-70b为基础，提炼出5个经过微调的LLM“专家”，分别是数学推理专家、科学推理专家、逻辑演绎专家、常识推理专家和领域特定专家。这些专家分别在不同的领域数据集上进行训练。同时，研究人员选取了思维链（CoT）、思想树(ToT)和迭代推理偏好优化（IRPO）等方法，与ACO-ToT进行对比。

研究人员选择了三个数据集来测试模型：

GSM8K：包含小学数学应用题。
ARC-Challenge：科学领域的选择题。
MATH：涵盖不同类别的竞赛数学题。

测试结果显示，ACO-ToT在这三个基准测试中都表现优异。通常情况下，该模型经过6 - 8次迭代就能得到解决方案（对于更复杂的问题，可能需要10 - 12次迭代）。

这种快速收敛的特性，在性能曲线上体现得十分明显：在前3 - 4次迭代中，模型性能会显著提升，之后逐渐趋于稳定，这表明该算法能够高效地探索推理空间。整个系统的效率很高，在第一次迭代时就有收敛的趋势。而且路径长度也控制得较好，即便是最难的MATH问题，平均路径长度也只有4 - 6步。

研究人员还进行了消融研究，有了一些新发现：

专家数量：当“蚂蚁专家”数量达到5个时，模型性能就趋于饱和，增加更多专家并不能带来明显提升。
参数平衡：对于这三个测试任务来说，开发（$\alpha$ = 1.0）和探索（$\beta$ = 2.0）之间的最佳平衡是相同的。这种平衡设置会生成规模较大的思想树，从而产生更多的推理路径。
专家多样性：相比使用同质化的专家，多样化的专家组合能让模型取得更好的效果。

综合来看，ACOToT在所有测试任务中都超越了现有的方法，特别是在解决像GSM8K和MATH这类复杂推理问题时，优势更为显著。该算法一般在6 - 8次迭代内就能收敛，复杂问题虽然需要更多迭代次数，但在前期迭代中，性能提升非常迅速，之后才逐渐趋于平稳。

这项研究工作极具意义，它巧妙地将搜索算法与ToT这类提示技术结合在一起，并且从神经科学中获取灵感，实现方式十分巧妙。以往的ToT等技术，在寻找最佳路径方面缺乏可靠的机制，而在ACO-ToT算法中，研究人员无需借助强化学习，就找到了平衡探索与利用的有效方法。此外，他们利用不同领域的专家作为“蚂蚁”，充分展示了这种异质性组合的优势。而且，该系统仅需几次迭代就能收敛，这一特性也十分有趣。

不过，这种方法也存在一定的局限性。由于需要运行多个LLM“专家”，计算成本较高，对于一些应用场景来说，可能难以负担。另外，当前模型中的参数是手动设定的，未来可以考虑实现自动化调整。后续研究还可以尝试使用不同的搜索算法，或者选用其他模型作为“专家”，进一步优化算法性能。
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的？背后的数学原理
 2. 微调 DeepSeek LLM：使用监督微调（SFT）与 Hugging Face 数据
 3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1：了解GRPO和多阶段训练
 5. 深度探索：DeepSeek-R1 如何从零开始训练
 6. DeepSeek 发布 Janus Pro 7B 多模态模型，免费又强大！

本文由mdnice多平台发布

跟随蚂蚁，它们知道路径：使用ACO-ToT增强LLM推理

利用群体智能和思想树优化，解锁高级AI推理

柏企科技圈

引用和评论

从CLIP到未来：深入探讨视觉任务的视觉语言模型VLM

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？