LLMs 在 2024 年 Advent of code 上的性能

发布于 2024-12-30

这篇文章主要探讨了大型语言模型（LLMs）在 2024 年 Advent of Code 竞赛中的表现。作者进行了一系列实验，将 LLM 模型与自己的表现进行对比，结果显示作者表现更好，LLM 未达预期。

实验设置：在相对简单的框架下测试模型，给模型提供包含两部分问题描述的提示，模型需返回可运行和评估的单个脚本，以精确匹配答案计分。使用相同提示对大多数在不同编码基准中相互比较的 SOTA 模型进行测试，未进行提示工程，最大超时时间为 300 秒。
实验结果：令人惊讶的是，作者比 LLM 表现更好。模型同时获得两个问题可能使解题更易，但模型得分上限与作者相同，因为作者未解决所有问题。作者认为模型在解决新问题方面表现不佳，很多提交有超时错误，部分提交出现Exceptions，可能需要人类评审和更多计算资源来修复。同时，实验在 12 月 26 日进行，模型不太可能已基于提交代码训练，随着时间推移，LLM 在 Advent of Code 24 上的表现可能会提高。所有实验代码可在这里找到，结果空间在这里。

阅读 7