通义灵码上新推理模型，快来体验数学和编程双冠王 Qwen2.5-Max

近期，通义灵码上新了模型选择功能，除新增 DeepSeek 满血版 V3 和 R1 外， Qwen2.5-Max 也正式上线，它使用了超过 20 万亿 token 的预训练数据及精心设计的后训练方案进行训练。

使用方式： 在通义灵码智能问答、AI 程序员窗口的输入框中，单击模型选择的下拉菜单即可选择所需模型。

通义千问将 Qwen2.5-Max 与业界领先的模型（包括 DeepSeek V3、GPT-4o 和 Claude-3.5-Sonnet）的性能结果进行了对比。

在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中，Qwen2.5-Max 的表现领先。同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。

在基座模型的对比中，由于无法访问 GPT-4o 和 Claude-3.5-Sonnet 等闭源模型的基座模型，通义千问将 Qwen2.5-Max 与目前领先的开源 MoE 模型 DeepSeek V3、最大的开源稠密模型 Llama-3.1-405B，以及同样位列开源稠密模型前列的 Qwen2.5-72B 进行了对比。

对比结果如下图所示，通义千问的基座模型在大多数基准测试中都展现出了显著的优势。

此外，三方基准测试平台Chatbot Arena公布了最新的大模型盲测榜单，通义千问Qwen2.5-Max 超越 DeepSeek-V3、Open AI o1-mini和Claude-3.5-Sonnet等模型，以1332分位列全球第七名，也是非推理类的中国大模型冠军。同时，Qwen2.5-Max在数学和编程等单项能力上排名第一，在硬提示（Hard prompts）方面排名第二。

Chatbot Arena官方配图：阿里Qwen2.5-Max在多领域表现强劲，数学及编程能力斩获第一

“ ChatBot Arena官方评价称：阿里巴巴的Qwen2.5-Max在多个领域表现强劲，特别是专业技术向的（编程、数学、硬提示等）。 ”

目前，通义灵码已经内置 Qwen2.5-Max，欢迎大家下载通义灵码插件，体验 Qwen2.5-Max 强大的编程能力！

点击下方链接体验：https://lingma.aliyun.com/lingma/download

通义灵码上新推理模型，快来体验数学和编程双冠王 Qwen2.5-Max

阿里云云原生

引用和评论

AI Agent 工程师绕不开的必修课：API 网关 vs API 管理

MCP协议重大升级，Spring AI Alibaba联合Higress发布业界首个Streamable HTTP实现方案

深度测评国产 AI 程序员，在 QwQ 和满血版 DeepSeek 助力下，哪些能力让你眼前一亮？

分析型数据库入门指南：如何选择适合你的实时分析工具？

安利一个求职刷题小妙招、变身 offer 收割机 | 《趣玩》第 2 期

Dify+DeepSeek实战教程！企业级 AI 文档库本地化部署，数据安全与智能检索我都要

Java 开发玩转 MCP：从 Claude 自动化到 Spring AI Alibaba 生态整合