推理中心化:构建未来AI基础设施的关键

 文/趋境科技

 相比于2023年的参数量快速扩张,2024年以来,大模型迭代动力更多源于大模型应用落地、端侧部署的需求,大模型正往更加广泛的行业应用发展。然而,大模型的成功落地并非易事,尤其是在为大模型提供算力的稳固底座——基础设施的建设环节中,推理的算力需求日益增加,将成为制约大模型广泛应用的关键因素。本文将探讨大模型基础设施建设的未来趋势,以及大模型在落地层面,要如何做基础设施建设。

 推理算力的爆发式增长,将会转移基础设施建设的重心

 OpenAI的o1模型以其思维链式思考(Chain of Thought)模式,为大模型的推理带来了新的方向。这种模式通过模拟人类解决问题的思维方式,显著提升了模型的推理能力,使大模型在解决复杂的推理任务上表现出了超越以往的卓越性能,其效率也远超其他模型。

 但这意味着,类o1大模型在推理阶段需要更多的计算资源,思维链的推理模式相当于从原来的单次推理变成了多次推理,推理端对算力的需求大幅增加。原有大模型的推理模式更多是一般推断,即大模型只进行单次的简单推理,加入链式思考之后,不仅是思考次数成倍数增加,每次思考还会将上一次的思考结果作为Prompt再次输入,对推理的算力需求将是原来的数十倍。

 除了对推理算力的爆发式增长,推理还将成为高质量的数据来源。英伟达高级科学家Jim Fan表示,大量计算将被转移到服务推理而不是训练前/后,o1将成为数据飞轮,反过来将进一步优化GPT未来版本的推理核心。

 这样的发展趋势预示着大模型的基础设施建设将向推理转移。传统的AI算力设施主要围绕模型训练构建,但在新的范式下,要求我们重新思考和设计AI基础设施去适应这一变化。未来的AI基础设施将更加注重推理能力,以支持大模型的广泛应用。

 算力需求的增加导致的挑战

 在大模型落地行业中,效果、效率与成本之间存在着难以调和的“不可能三角”。企业往往希望获得更好的模型效果,即生成内容的准确性高、无幻觉问题且对用户有实际帮助;同时也追求更高的处理效率,以便快速响应市场需求和用户反馈;然而,还需要控制成本。

 举个例子来说,参数越大的模型有越高的推理性能,但成本也极高,部署千亿大模型动辄需要成数百万元至数千万元,此外还需较高的人员成本来做模型维护和应用开发。

 效率、成本、效果这三个点本就难以调和,随着推理思维链带来的新范式,虽然模型效果有了更大的提升,但同时对算力的需求爆发,导致成本数十倍增加,使得这一平衡更加难以实现。在保证同样的性能条件下,如何平衡成本,成为了大模型落地的关键问题。


发怒的草稿纸
1 声望0 粉丝