主要观点:
- 引入 Platinum Benchmarks 以量化大型语言模型的可靠性,修订旧基准以减少标签噪声,发现前沿语言模型仍在简单问题上出错。
- 发布 GSM8K-Platinum 版本,通过修订全 GSM8K 测试集,更准确评估数学推理能力,揭示之前被标签噪声掩盖的性能差异。
- GSM8K 一直是评估数学推理的基准,前沿模型在其上性能似乎停滞在 95%左右,构建 GSM8K-Platinum 可准确量化性能停滞原因。
- 应用 platinum 基准方法修订 GSM8K 测试集,发现修订后的基准能揭示模型性能差异,如 Claude 3.7 Sonnet 和 Llama 405B 在不同基准上的表现。
- GSM8K-Platinum 可在 HuggingFace 上获取,用于更准确的模型评估,鼓励社区贡献构建更多白金基准。
关键信息:
- 数据集:Dataset,代码:Code
- 之前工作:修订 300 问题子集的 GSM8K 发现模型有错误,标签噪声影响模型评估
- GSM8K 特点:是评估数学推理的基石基准,很受欢迎,前沿模型在其上性能停滞
- 修订方法:运行前沿语言模型检查有分歧的问题,手动检查并修正 219 个 flagged 问题
- 发现结果:修订后的 GSM8K-Platinum 揭示模型性能差异,如 Claude 3.7 Sonnet 和 Llama 405B 的对比
- 使用方式:可在 HuggingFace 上获取,更新误差查看器,邀请使用和贡献
重要细节:
- 上月(2025 年 2 月)GSM8K 在 HuggingFace 上有超过 350,000 次下载
- 修订时未修改问题,仅修正答案
- 图表展示了模型在原始 GSM8K 和 GSM8K-Platinum 上的错误率对比
- 鼓励参考之前博客和论文了解更多白金基准相关内容
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。