2023 年 4 月 GPT-4 发布数周后,BabyAGI 和 AutoGPT 引发互联网热议。开发者用它们与 GPT-4 协作解决复杂问题,如生成 7 天餐单等任务列表,但 GPT-4 难以保持专注,常犯小错且后续更易混淆,导致 BabyAGI 和 AutoGPT 效果不佳,2023 年底多数人放弃。
2024 年下半年,出现新的 AI 系统能完成复杂多步任务,如 Bolt.new 等编码工具让无编程经验者创建全功能应用,Cursor 等编码工具帮助程序员,Anthropic 等的计算机使用工具可在桌面操作,Deep Research 工具可研究生成深度报告。
模型能力提升与训练方式转变同步,2024 年前 AI 实验室主要进行预训练,之后更多投入到训练后的步骤,其中强化学习很重要。
传统模仿学习训练的早期语言模型易犯“复合错误”,如 GPT-4 与 Bing 聊天时的情况,而 Ross 的 SuperTuxKart 实验也表明模仿学习系统会因错误累积而表现变差。Ross 提出的 DAgger 技术让模型犯错后获得恢复训练示例,效果更好,但此方法不适用于语言模型,因为需要大量人工反馈。
强化学习通过试错训练模型,在处理“离群分布”问题时比模仿学习更有效,模仿和强化学习是互补的,语言模型先通过模仿学习掌握语言细节,再通过强化学习处理更复杂任务。
OpenAI 的 RLHF 技术通过人类评判者选择 LLM 输出并训练新的 LLM 来预测人类喜好,作为奖励模型训练其他 LLM,Anthropic 的 Constitutional AI 则通过写“宪法”让 LLM 遵循原则进行强化学习,Semianalysis 报道 Anthropic 用 Claude 3.5 Opus 进行奖励建模提升 Sonnet 性能。
强化学习通过启用扩展的链式思考推理使模型更强大,OpenAI 的 o1 模型能生成大量思考 tokens 以更准确回答问题,DeepSeek 的 R1 模型通过强化学习“自学”推理,模型在训练过程中会自发出现如回溯等行为,但推理模型也有局限性。
结论是强化学习使智能体成为可能,如今可让模型自主选择搜索查询进行信息检索,更好的 RAG 系统得以发展,这也适用于其他智能体应用,如编码和计算机使用代理,现代模型在迭代推理方面表现更好。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。