GSM8K 白金版:揭示前沿大型语言模型中的性能差距

主要观点:

  • 引入 Platinum Benchmarks 以量化大型语言模型的可靠性,修订旧基准以减少标签噪声,发现前沿语言模型仍在简单问题上出错。
  • 发布 GSM8K-Platinum 版本,通过修订全 GSM8K 测试集,更准确评估数学推理能力,揭示之前被标签噪声掩盖的性能差异。
  • GSM8K 一直是评估数学推理的基准,前沿模型在其上性能似乎停滞在 95%左右,构建 GSM8K-Platinum 可准确量化性能停滞原因。
  • 应用 platinum 基准方法修订 GSM8K 测试集,发现修订后的基准能揭示模型性能差异,如 Claude 3.7 Sonnet 和 Llama 405B 在不同基准上的表现。
  • GSM8K-Platinum 可在 HuggingFace 上获取,用于更准确的模型评估,鼓励社区贡献构建更多白金基准。

关键信息:

  • 数据集:Dataset,代码:Code
  • 之前工作:修订 300 问题子集的 GSM8K 发现模型有错误,标签噪声影响模型评估
  • GSM8K 特点:是评估数学推理的基石基准,很受欢迎,前沿模型在其上性能停滞
  • 修订方法:运行前沿语言模型检查有分歧的问题,手动检查并修正 219 个 flagged 问题
  • 发现结果:修订后的 GSM8K-Platinum 揭示模型性能差异,如 Claude 3.7 Sonnet 和 Llama 405B 的对比
  • 使用方式:可在 HuggingFace 上获取,更新误差查看器,邀请使用和贡献

重要细节:

  • 上月(2025 年 2 月)GSM8K 在 HuggingFace 上有超过 350,000 次下载
  • 修订时未修改问题,仅修正答案
  • 图表展示了模型在原始 GSM8K 和 GSM8K-Platinum 上的错误率对比
  • 鼓励参考之前博客和论文了解更多白金基准相关内容
阅读 14
0 条评论