利用群体智能和思想树优化,解锁高级AI推理

📖阅读时长:19分钟

🕙发布时间:2025-02-09

近日热文:全网最全的神经网络数学原理(代码和公式)直观解释
欢迎关注知乎和公众号的专栏内容
LLM架构专栏
知乎LLM专栏
知乎【柏企
公众号【柏企科技说】【柏企阅文

大型语言模型(LLM)展现出了强大的能力,能够模仿一些通常被认为只有人类才具备的技能,比如解决数学问题、创作文本等。多个基准测试的持续进步便是有力证明。不过,这并不代表它们不会出错,其计算效率也有待提升。尤其是在那些需要战略规划、探索或复杂计算的应用场景中,这些局限性尤为明显。

为了解决模型存在的局限性,人们提出了一些基于认知科学原理的技术。比如说,思维链(CoT)就致力于让模型在解决问题时,对中间推理步骤进行思考,而不是直接给出答案。这种方法也成为了当下深度推理模型的基石。然而,简单的CoT方法在解决问题时,往往只评估一种方案,而人类在面对问题时,通常会探索多种潜在的解决办法。因此,像思想树(ToT)、思想图(GoT)这类技术应运而生,它们突破了CoT的线性推理模式,能够探索更多不同的思路。但这些方法也存在弊端,随着中间推理步骤的增多,计算成本也会大幅增加。

我们如何在优化流程的同时,探索多种不同的解决方案?能否找到一种既高效探索不同推理路径,又不牺牲性能的方法呢?在本文中,我们将深入探讨这个问题,看看研究人员是如何从蚂蚁的活动中获取灵感,找到解决方案的。

在一篇新发表的论文中,研究人员提出将蚁群优化(ACO)算法应用于LLM,以此实现对推理空间的优化。ACO是一种受大自然启发的元启发式算法,常被用于解决优化问题,尤其是像旅行商问题(TSP)这样的组合优化难题。它模拟了真实蚂蚁的觅食行为——蚂蚁会通过释放信息素,找到蚁群与食物源之间的最短路径。

这一过程可以概括为以下四个步骤:

  1. 随机探索:蚂蚁一开始会随机行动,在周围环境中寻找食物,并在经过的路径上留下信息素踪迹。
  2. 强化路径:当蚂蚁找到食物后,会带着食物返回蚁巢,同时在返回路径上释放更多信息素。这样一来,信息素浓度高的路径,后续蚂蚁选择的可能性就更大。
  3. 信息素蒸发:随着时间推移,信息素会逐渐挥发。这一机制能避免蚂蚁群体只关注已有路径,防止系统陷入局部最优解,从而促使蚂蚁持续探索新路径。
  4. 概率选择路径:蚂蚁会根据路径上的信息素强度,以概率方式选择下一条路径。信息素越多的路径,被蚂蚁选中的概率就越高。

从数学角度来看,这一过程可以用图表来表示。蚂蚁从节点i选择路径j的概率计算公式为:
$$P_{ij} = \frac{\tau_{ij}^{\alpha}\eta_{ij}^{\beta}}{\sum_{k \in allowed_{i}}\tau_{ik}^{\alpha}\eta_{ik}^{\beta}}$$
其中,$P_{ij}$代表从i到j路径的选择概率,$\tau_{ij}$是边(i, j)上的信息素强度,$\eta_{ij}$表示与距离相关的参数($1/distance$),N是节点总数。我们还可以通过调整$\alpha$和$\beta$两个参数,分别控制信息素强度和距离对蚂蚁路径选择的影响程度。

每次迭代之后,信息素水平会根据下面这个公式进行更新:
$$\tau_{ij}(t + 1) = (1 - \rho)\tau_{ij}(t)+\sum_{k = 1}^{m}\Delta\tau_{ij}^{k}$$
这里,$\rho$代表信息素的蒸发率,m是蚂蚁的数量,$\Delta\tau_{ij}^{k}$表示第k只蚂蚁在路径(i, j)上新增的信息素量 。

蚁群优化算法具有强大的稳健性和灵活性,并且遵循人类大脑的Hebbian学习原理。这是神经科学中的一个重要理论,它指出神经元之间的突触连接会随着反复激活而不断强化,简单来说就是“一起发射的神经元,连接在一起”。论文作者认为,ACO算法可以与思想树(ToT)等方法结合使用。

于是,研究人员提出了ACO引导的思想树(ACO-ToT)这一全新算法。它将ToT的探索能力和ACO的群体智能相结合,能够帮助我们找到最佳的推理路径。

我们可以这样理解这个算法:把LLM看作一只只“蚂蚁”,它们在“思维的森林”中穿梭,寻找高质量的“思想食物”。从一个问题x出发,会生成一棵思想树T,树中的每个节点代表一种推理状态,而每条边则表示从一种思想到另一种思想的转变过程 。

在这个算法里,有多个经过微调的LLM(就如同蚁群中的多只蚂蚁)在图中遍历。这些LLM在推理的不同领域进行了针对性训练,各自具备不同的专业知识。在每个时间步t,“蚂蚁”(也就是LLM)会从一个想法转移到另一个想法,并释放信息素。

那么,如何判断“蚂蚁”是否找到了“食物”呢?其实,每条路径P都可以看作是一系列的思想(也就是一条思维链),我们可以通过下面这个公式来评估其质量Q(P):
$$Q(P) = w_{1}C(P)+w_{2}L(P)+w_{3}M(P)$$
在这个公式中,$C(P)$衡量的是语义连贯性(通过对两个想法进行嵌入处理,利用余弦相似度判断它们的相似程度),$L(P)$用于对过长的路径进行惩罚(基于路径长度对数的负数),$M(P)$是一个融合了多个LLM专业知识的综合得分,$w_{1}$、$w_{2}$、$w_{3}$则是用于平衡各项的权重。

此时,$\Delta\tau_{ij}^{k} = Q(P_{k})$,信息素水平也会依据这个结果进行更新。算法会持续迭代,直到达到预设的最大迭代次数T,或者获取到足够多不同的路径。最后,根据图中信息素水平的高低,提取出最佳路径,由中央LLM($\pi_{c}$)利用这条路径生成最终的解决方案。一般来说,中央LLM的规模较大,而作为“蚂蚁”的LLM规模相对较小,这样的搭配效果更佳。

从理论层面分析,研究人员发现:

  1. 收敛至最优解:只要合理选择信息素的更新规则和蒸发率,ACO算法就能收敛到全局最优解,同时有效避免陷入局部最优的困境。
  2. 平衡探索与利用:ACO算法中,探索与利用之间的平衡由信息素的动态变化决定。通过调整$\alpha$和$\beta$这两个常数,就可以灵活控制这一动态平衡。其中,$\alpha$用于调节信息素对路径选择的影响程度(体现为利用已有路径),$\beta$则侧重于诱导探索新路径。此外,蒸发率也会对这种平衡产生作用,较高的蒸发率有利于探索新路径,而较低的蒸发率则更倾向于利用已有路径。
  3. 计算复杂度:ACO算法在蚂蚁数量和问题规模方面,都呈现出多项式复杂度。这意味着,对于复杂问题而言,计算成本并不低。以ACO-ToT算法为例,每只“蚂蚁”在t次迭代中,每次探索路径都需要产生N个中间想法,A只“蚂蚁”总共就需要调用A×N×t次LLM。需要注意的是,每只“蚂蚁”都是一个独立的LLM,这就需要专门的基础设施来支持(即便可以实现一定程度的并行计算,比如同时运行6个)。

为了验证ACO-ToT算法的效果,研究人员以Llama-70b为基础,提炼出5个经过微调的LLM“专家”,分别是数学推理专家、科学推理专家、逻辑演绎专家、常识推理专家和领域特定专家。这些专家分别在不同的领域数据集上进行训练。同时,研究人员选取了思维链(CoT)、思想树(ToT)和迭代推理偏好优化(IRPO)等方法,与ACO-ToT进行对比。

研究人员选择了三个数据集来测试模型:

  1. GSM8K:包含小学数学应用题。
  2. ARC-Challenge:科学领域的选择题。
  3. MATH:涵盖不同类别的竞赛数学题。

测试结果显示,ACO-ToT在这三个基准测试中都表现优异。通常情况下,该模型经过6 - 8次迭代就能得到解决方案(对于更复杂的问题,可能需要10 - 12次迭代)。

这种快速收敛的特性,在性能曲线上体现得十分明显:在前3 - 4次迭代中,模型性能会显著提升,之后逐渐趋于稳定,这表明该算法能够高效地探索推理空间。整个系统的效率很高,在第一次迭代时就有收敛的趋势。而且路径长度也控制得较好,即便是最难的MATH问题,平均路径长度也只有4 - 6步。

研究人员还进行了消融研究,有了一些新发现:

  1. 专家数量:当“蚂蚁专家”数量达到5个时,模型性能就趋于饱和,增加更多专家并不能带来明显提升。
  2. 参数平衡:对于这三个测试任务来说,开发($\alpha$ = 1.0)和探索($\beta$ = 2.0)之间的最佳平衡是相同的。这种平衡设置会生成规模较大的思想树,从而产生更多的推理路径。
  3. 专家多样性:相比使用同质化的专家,多样化的专家组合能让模型取得更好的效果。

综合来看,ACOToT在所有测试任务中都超越了现有的方法,特别是在解决像GSM8K和MATH这类复杂推理问题时,优势更为显著。该算法一般在6 - 8次迭代内就能收敛,复杂问题虽然需要更多迭代次数,但在前期迭代中,性能提升非常迅速,之后才逐渐趋于平稳。

这项研究工作极具意义,它巧妙地将搜索算法与ToT这类提示技术结合在一起,并且从神经科学中获取灵感,实现方式十分巧妙。以往的ToT等技术,在寻找最佳路径方面缺乏可靠的机制,而在ACO-ToT算法中,研究人员无需借助强化学习,就找到了平衡探索与利用的有效方法。此外,他们利用不同领域的专家作为“蚂蚁”,充分展示了这种异质性组合的优势。而且,该系统仅需几次迭代就能收敛,这一特性也十分有趣。

不过,这种方法也存在一定的局限性。由于需要运行多个LLM“专家”,计算成本较高,对于一些应用场景来说,可能难以负担。另外,当前模型中的参数是手动设定的,未来可以考虑实现自动化调整。后续研究还可以尝试使用不同的搜索算法,或者选用其他模型作为“专家”,进一步优化算法性能。
## 推荐阅读
1. DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理
2. 微调 DeepSeek LLM:使用监督微调(SFT)与 Hugging Face 数据
3. 使用 DeepSeek-R1 等推理模型将 RAG 转换为 RAT
4. DeepSeek R1:了解GRPO和多阶段训练
5. 深度探索:DeepSeek-R1 如何从零开始训练
6. DeepSeek 发布 Janus Pro 7B 多模态模型,免费又强大!

本文由mdnice多平台发布


柏企科技圈
23 声望6 粉丝