头图

图片
Qwen2-Math

阿里巴巴开源的Qwen2-Math模型以惊人的84%准确率横空出世,不仅超越了GPT-4o,更是将Claude-3.5-Sonnet和Gemini-1.5-Pro等一众AI巨头甩在身后。这个AI数学大师的诞生,是否预示着人工智能在精确科学领域的新纪元即将到来?

Qwen2-Math

图片
官方数据图展示

Qwen2-Math 的基础模型使用 Qwen2-1.5B/7B/72B 进行初始化,然后在精心设计的数学专用语料库上进行预训练,该语料库包含大规模高质量的数学网络文本、书籍、代码、考试题目以及由 Qwen2 模型合成的数学预训练数据。

阿里在三个广泛使用的英语数学基准 GSM8K、Math 和 MMLU-STEM 上评估了的 Qwen2-Math 基模型。此外,他们还评估了三个中国数学基准 CMATH,GaoKao Math Cloze 和 GaoKao Math QA。所有评估均使用 Few-shot CoT 方式。

数据测试

图片
Qwen2-Math数据测试

在AI的世界里,性能声明往往需要经过严格的检验。Qwen2-Math也不例外。阿里云团队对这个模型进行了全方位的测试,确保其在各种数学场景下都能保持卓越的表现。

图片
成功解决的数学竞赛题

Qwen2-Math接受了一系列严苛的考验。从GSM8K和MATH基准测试,再到中国的高考和中考数学题,模型都展现出了惊人的解题能力。特别是在MATH测评中,Qwen2-Math-72B-Instruct以84%的准确率傲视群雄,超越了包括GPT-4o在内的多个顶尖模型。

去除数据污染

式为了确保测试结果的公正性,团队对训练和微调数据进行了严格的去污染处理。他们移除了与知名基准测试数据集有重叠的样本,确保模型不会因为"提前看到答案"而获得不公平的优势。

包括 GSM8K、MATH在内,阿里移除了有13-gram重复且最长公共子序列比例大于0.6的训练样本。微调数据,移除了更多与 GSM8K、MATH、Aqua、SAT Math、OlympiadBench、College Math、AIME24、AMC23 等数据集有重叠的正例污染样本,使用了同样的过滤方法。

但阿里云团队并未就此止步。他们透露,目前的Qwen2-Math系列仅支持英语,但他们已经在积极开发支持英语和中文的双语模型,并计划在不久的将来推出多语言版本。此外,团队还在持续优化模型,以进一步提升其解决更加复杂和具有挑战性的数学问题的能力。 

有关厚德云
厚德云致力于为用户提供稳定、可靠、易用、省钱的 GPU 算力解决方案。海量 GPU 算力资源租用,就在厚德云。


厚德云
6 声望6 粉丝

厚德云是一个专业的 GPU 算力云平台,专注于为人工智能从业者提供高效、便捷、灵活的 GPU 算力资源租用服务。我们旨在帮助客户加速人工智能的研发和应用进程,实现业务的快速发展。