这篇文章主要探讨了大型语言模型(LLMs)在 2024 年 Advent of Code 竞赛中的表现。作者进行了一系列实验,将 LLM 模型与自己的表现进行对比,结果显示作者表现更好,LLM 未达预期。
- 实验设置:在相对简单的框架下测试模型,给模型提供包含两部分问题描述的提示,模型需返回可运行和评估的单个脚本,以精确匹配答案计分。使用相同提示对大多数在不同编码基准中相互比较的 SOTA 模型进行测试,未进行提示工程,最大超时时间为 300 秒。
- 实验结果:令人惊讶的是,作者比 LLM 表现更好。模型同时获得两个问题可能使解题更易,但模型得分上限与作者相同,因为作者未解决所有问题。作者认为模型在解决新问题方面表现不佳,很多提交有超时错误,部分提交出现
Exceptions
,可能需要人类评审和更多计算资源来修复。同时,实验在 12 月 26 日进行,模型不太可能已基于提交代码训练,随着时间推移,LLM 在 Advent of Code 24 上的表现可能会提高。所有实验代码可在这里找到,结果空间在这里。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。