Qwen2-Math碾压GPT-4:AI数学大师诞生!

Qwen2-Math

阿里巴巴开源的Qwen2-Math模型以惊人的84%准确率横空出世，不仅超越了GPT-4o，更是将Claude-3.5-Sonnet和Gemini-1.5-Pro等一众AI巨头甩在身后。这个AI数学大师的诞生，是否预示着人工智能在精确科学领域的新纪元即将到来？

Qwen2-Math

官方数据图展示

Qwen2-Math 的基础模型使用 Qwen2-1.5B/7B/72B 进行初始化，然后在精心设计的数学专用语料库上进行预训练，该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen2 模型合成的数学预训练数据。

阿里在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了的 Qwen2-Math 基模型。此外，他们还评估了三个中国数学基准 CMATH，GaoKao Math Cloze 和 GaoKao Math QA。所有评估均使用 Few-shot CoT 方式。

数据测试

Qwen2-Math数据测试

在AI的世界里，性能声明往往需要经过严格的检验。Qwen2-Math也不例外。阿里云团队对这个模型进行了全方位的测试，确保其在各种数学场景下都能保持卓越的表现。

成功解决的数学竞赛题

Qwen2-Math接受了一系列严苛的考验。从GSM8K和MATH基准测试，再到中国的高考和中考数学题，模型都展现出了惊人的解题能力。特别是在MATH测评中，Qwen2-Math-72B-Instruct以84%的准确率傲视群雄，超越了包括GPT-4o在内的多个顶尖模型。

去除数据污染

式为了确保测试结果的公正性，团队对训练和微调数据进行了严格的去污染处理。他们移除了与知名基准测试数据集有重叠的样本，确保模型不会因为"提前看到答案"而获得不公平的优势。

包括 GSM8K、MATH在内，阿里移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。微调数据，移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本，使用了同样的过滤方法。

但阿里云团队并未就此止步。他们透露，目前的Qwen2-Math系列仅支持英语，但他们已经在积极开发支持英语和中文的双语模型，并计划在不久的将来推出多语言版本。此外，团队还在持续优化模型，以进一步提升其解决更加复杂和具有挑战性的数学问题的能力。

有关厚德云
厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用，就在厚德云。

Qwen2-Math碾压GPT-4:AI数学大师诞生!

Qwen2-Math

数据测试

去除数据污染

慧星云

引用和评论

DeepSeek-R1 重磅升级，智能体验再进化！

一文掌握 MCP 上下文协议：从理论到实践

大模型中的Token究竟是什么？从原理到作用深度解析

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略