Qwen2-Math
阿里巴巴开源的Qwen2-Math模型以惊人的84%准确率横空出世,不仅超越了GPT-4o,更是将Claude-3.5-Sonnet和Gemini-1.5-Pro等一众AI巨头甩在身后。这个AI数学大师的诞生,是否预示着人工智能在精确科学领域的新纪元即将到来?
Qwen2-Math
官方数据图展示
Qwen2-Math 的基础模型使用 Qwen2-1.5B/7B/72B 进行初始化,然后在精心设计的数学专用语料库上进行预训练,该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen2 模型合成的数学预训练数据。
阿里在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了的 Qwen2-Math 基模型。此外,他们还评估了三个中国数学基准 CMATH,GaoKao Math Cloze 和 GaoKao Math QA。所有评估均使用 Few-shot CoT 方式。
数据测试
Qwen2-Math数据测试
在AI的世界里,性能声明往往需要经过严格的检验。Qwen2-Math也不例外。阿里云团队对这个模型进行了全方位的测试,确保其在各种数学场景下都能保持卓越的表现。
成功解决的数学竞赛题
Qwen2-Math接受了一系列严苛的考验。从GSM8K和MATH基准测试,再到中国的高考和中考数学题,模型都展现出了惊人的解题能力。特别是在MATH测评中,Qwen2-Math-72B-Instruct以84%的准确率傲视群雄,超越了包括GPT-4o在内的多个顶尖模型。
去除数据污染
式为了确保测试结果的公正性,团队对训练和微调数据进行了严格的去污染处理。他们移除了与知名基准测试数据集有重叠的样本,确保模型不会因为"提前看到答案"而获得不公平的优势。
包括 GSM8K、MATH在内,阿里移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。微调数据,移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本,使用了同样的过滤方法。
但阿里云团队并未就此止步。他们透露,目前的Qwen2-Math系列仅支持英语,但他们已经在积极开发支持英语和中文的双语模型,并计划在不久的将来推出多语言版本。此外,团队还在持续优化模型,以进一步提升其解决更加复杂和具有挑战性的数学问题的能力。
有关厚德云
厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。