GSM8K 白金版：揭示前沿大型语言模型中的性能差距 - SegmentFault 思否

GSM8K 白金版：揭示前沿大型语言模型中的性能差距

发布于 2025-03-07

主要观点：

引入 Platinum Benchmarks 以量化大型语言模型的可靠性，修订旧基准以减少标签噪声，发现前沿语言模型仍在简单问题上出错。
发布 GSM8K-Platinum 版本，通过修订全 GSM8K 测试集，更准确评估数学推理能力，揭示之前被标签噪声掩盖的性能差异。
GSM8K 一直是评估数学推理的基准，前沿模型在其上性能似乎停滞在 95%左右，构建 GSM8K-Platinum 可准确量化性能停滞原因。
应用 platinum 基准方法修订 GSM8K 测试集，发现修订后的基准能揭示模型性能差异，如 Claude 3.7 Sonnet 和 Llama 405B 在不同基准上的表现。
GSM8K-Platinum 可在 HuggingFace 上获取，用于更准确的模型评估，鼓励社区贡献构建更多白金基准。

关键信息：

数据集：Dataset，代码：Code
之前工作：修订 300 问题子集的 GSM8K 发现模型有错误，标签噪声影响模型评估
GSM8K 特点：是评估数学推理的基石基准，很受欢迎，前沿模型在其上性能停滞
修订方法：运行前沿语言模型检查有分歧的问题，手动检查并修正 219 个 flagged 问题
发现结果：修订后的 GSM8K-Platinum 揭示模型性能差异，如 Claude 3.7 Sonnet 和 Llama 405B 的对比
使用方式：可在 HuggingFace 上获取，更新误差查看器，邀请使用和贡献

重要细节：

上月（2025 年 2 月）GSM8K 在 HuggingFace 上有超过 350,000 次下载
修订时未修改问题，仅修正答案
图表展示了模型在原始 GSM8K 和 GSM8K-Platinum 上的错误率对比
鼓励参考之前博客和论文了解更多白金基准相关内容

GSM8K-Platinum: Revealing Performance Gaps in Frontier LLMs

https://gradientscience.org/gsm8k-platinum/

阅读 225

0 条评论

评论支持部分 Markdown 语法：**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用。你还可以使用 @ 来通知其他用户。