主要观点:大型语言模型(LLMs)的形式推理能力,尤其是在数学方面的能力引发关注,GSM8K 基准用于评估模型在小学级数学问题上的推理能力,近年其性能虽有提升,但不清楚数学推理能力是否真的进步,引发对报告指标可靠性的质疑。
关键信息:进行大规模研究针对若干 SOTA 开放和封闭模型,引入 GSM-Symbolic 基准克服现有评估局限,可生成多样问题,能更可控评估并提供更可靠度量,发现 LLMs 对相同问题不同实例响应有明显差异,GSM-Symbolic 基准中仅改变问题数值性能就下降,还研究模型中数学推理的脆弱性,随问题子句数增加性能显著恶化,假设是当前 LLMs 不能进行真正逻辑推理,仅复制训练数据中的推理步骤,添加看似相关子句会致性能大幅下降(高达 65%),总体提供对 LLMs 在数学推理方面能力和局限更细致理解。
重要细节:提交历史显示由 Seyed Iman Mirzadeh 于 2024 年 10 月 7 日周一 17:36:37 UTC 提交 v1 版本,文件大小 5949KB,学科包括机器学习(cs.LG)和人工智能(cs.AI),引用为arXiv:2410.05229 [cs.LG]或arXiv:2410.05229v1 [cs.LG],以及[https://doi.org/10.48550/ArXi...]通过 DataCite 发布的 arXiv 分配 DOI。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。