加州大学伯克利分校天空计算实验室推出降低AI语言模型推理成本的模型

发布于 2 月 19 日

UC Berkeley Sky Computing Lab 发布 Sky-T1-32B-Flash 模型

主要观点

UC Berkeley 的 Sky Computing Lab 发布了更新版推理语言模型 Sky-T1-32B-Flash，旨在解决 AI 模型“过度思考”的常见问题。该模型通过 NovaSky 计划开发，显著降低了推理成本，同时保持了在数学、编程、科学和常识等领域的准确性。

关键信息

模型优化：Sky-T1-32B-Flash 通过在复杂问题上减少输出长度，将推理成本降低高达 57%。
解决“过度思考”：研究团队发现，推理模型在生成响应时常常产生不必要的冗长步骤。通过优化模型，使其生成更简洁的输出，同时保持答案质量。
技术改进：模型优化使得在现有计算约束下更高效地实施 Best-of-N、Majority Vote 和 Monte Carlo Tree Search 等高级技术。

重要细节

三阶段优化过程

数据生成：
- 使用 Sky-T1-32B-Preview 模型生成 12,000 个问题的多样化响应。
- 通过温度设置 1.0 生成不同长度的响应，并选择最短的正确答案作为正例，最长的正确答案作为负例。
- 初步结果显示在多个基准测试上减少输出长度同时保持性能，但在复杂任务上出现准确性下降。
响应精炼：
- 使用 Llama3.3-70B 模型消除冗余解决方案，保留推理质量。
- 开发“First Correct Solution plus One”（FCS+1）方法，保留初始正确解决方案和一个附加解决方案。
训练优化：
- 实施 SimPO（Simple Preference Optimization）训练方法，将长度归一化整合到奖励结构中。
- 相比于 DPO（Direct Preference Optimization），SimPO 无需参考模型，减少了计算需求。

性能提升

Sky-T1-32B-Flash 在减少输出长度同时保持准确性方面表现显著，在 AIME24 和 LCB-Hard 上的序列长度分别减少 37% 和 57%。
在所有基准测试中，生成长度减少超过 30%，显著提高了模型效率。

社会反响与未来方向

社交媒体用户对研究团队解决冗长 AI 响应的方法表示赞赏。
早期融合实验显示，通过模型组合策略可以进一步提高性能。

开源与社区贡献

UC Berkeley 团队发布了完整的 Sky-T1-32B-Flash 开发管道，支持进一步的研究和创新。
开源内容包括数据生成、响应重写、偏好优化和评估程序代码，以及 10,000 个偏好对数据集和模型权重。

结论

Sky-T1-32B-Flash 的发布标志着 AI 模型优化领域的重要进展，通过减少“过度思考”问题，显著提高了模型效率和响应速度，同时保持准确性。开源项目为 AI 社区提供了宝贵的资源和工具，有望推动更多创新和改进。

UC Berkeley's Sky Computing Lab Introduces Model to Reduce AI Language Model Inference Costs

https://www.infoq.com/news/2025/02/uc-berkeley-ai-inference-savings/

阅读 32

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。