英伟达H20也不能用了。中国大模型还能好吗?

就在今天,最新国产深度推理大模型升级更新,算力构成全国产化,在模型参数比业界同类模型小一个数量级的情况下,实现了整体效果对标业界最高水平。

这就是讯飞星火,最新升级的推理模型X1。

一方面是通用任务效果显著提升,在通用任务效果评测中全面对标OpenAI o1和DeepSeek R1,尤其在数学、知识问答等方面表现突出。

(测试集和来源:自建测试集主要来自真实的大模型请求任务数据,来源分布包括讯飞星火APP、星火大模型API、业界主流任务数据等;公开测试集主要以数学、答题、推理、代码等外部典型测试集为主。)

另一面值得关注的,它还是业界唯一一个基于全国产算力训练的推理模型。在波云诡谲的当下,尤其算力新一波打压H20被禁之后,这样的模型展现出来的效果和实力显得尤为受到关注。

此外,升级后的星火X1私有化部署简便,定制门槛低——

4张910B即可部署满血版星火X1,16张910B即可完成行业定制优化,再次印证全栈自主可控大模型,具备登顶高水平的实力和持续创新的潜力。

星火X1升级:长思维链升级、快慢思考混合训练

此次讯飞星火X1升级的一大亮点在于长思维链

相信随着推理模型的进展,大家对于长思维链有所感知。它可以在大模型处理复杂问题的时候,通过生成多步骤、连贯且细致的推理过程来逐步解决问题的机制,而非直接输出答案。这样的一个过程,相当于让模型来模拟人类面对复杂任务时的逻辑分解与递进思考。

通过“长思维链”,大模型正逐步逼近人类处理复杂任务的深度和灵活性,成为解决现实难题的重要工具。

具体来看。

首先让星火挑战一下基础的深度分析、数学推理等任务。

比如上周末在北京召开的机器人马拉松大赛,对于具身智能行业股票有什么影响呢?

将这个问题抛给它。

从思考到理解再到回答「行动」,整个不超过一分钟。从答案上面看,它从技术突破、政策强化以及市场等维度来分析行业影响,并从短期、中长期给出了投资建议,算得上是一个很全面综合的结果。

再来看它的思考过程。

首先它理解到了问题的意图,并且使用「联网搜索工具」,然后就是它一整个分析过程。

值得一提的是,旁边有一条很清晰的思考脉络,可以完整地看出大模型的思考步骤。

这一点在当前推理模型中相对少见,但如果延伸到更多的应用场景其实是很关键的一环,尤其像一些医疗、教育、法律等这种对决策透明度和可靠性要求极高的场景中。

它通过暴露中间步骤便于人类理解模型决策逻辑,来增强AI的可解释性。要是发现某一步推理错误可以辅助诊断,帮助大模型在过程中不断修正和迭代。

那好,再来考验一下它的数学逻辑推理题。据官方介绍,数学能力与o1、R1对标。

一个外星人来到地球后,第一天有相等的可能选择以下四件事中的一件完成:

1,自我毁灭;
2,分裂成两个外星人;
3,分裂成三个外星人;
4,什么都不做。

此后每天,每个外星人均会做一次选择,且彼此之间相互独立,求地球上最终没有外星人的概率。

将这道题同时扔给星火X1和OpenAI的o1。

先来看结果,两个都答对了:√2-1,(o゜▽゜)o☆[BINGO!]。

再来看他们分别的解答过程。

o1给我一种很强的「炫技」之感,不管是思考还是解答过程都很简单。

而星火X1速度就慢了些,但它的慢是在于思考和解答步骤过于详实:

问题理解—分析思路—建立模型—递推关系—计算期望和方差—极限行为分析—灭绝概率计算……

从整个大框架看,每个步骤都有对应的解释和解答,“不仅知其然,更知其所以然”

除了在这些深度分析、数学推理等基本任务上展现不俗的实力之外,星火X1在解决一些现实难题上还很「好用」。

比如前阵子很火的悬疑推理剧王宝强主演的《棋士》,当时有个热议情节:「崔业当弃子」,很多人纠结于是否是他主动选择。

把这个问题抛给星火呢?它给出的答案是主动选择。嗯跟大多数悬疑迷的看法一致。

除此之外,它还给出了犯罪路径、人物的复杂抉择以及人性博弈等等,有理有据。

再来看一下法律问题,能不能难倒它:结婚时TA骗了我,能不能告TA骗婚?

从思考过程上看,它引用了国内专业资料《民法典》和《刑法》,谈到了骗婚如何界定,接着又给出了一些具体的执行建议。

回答如下:

可以看到的,此次从模型表现上以「长思维链」为亮点从而展现出了推理模型在解决日常难题上的可能性。

那么技术层面是如何做到的呢?那就值得说道说道。

三大技术创新突破大模型能力边界

据科大讯飞透露,此次升级主要有三个方面的技术创新。

首先是大规模多阶段强化学习训练方法

传统强化学习常因训练样本量覆盖度低及难度分布不均导致模型“偏科”,而星火X1提出基于问题难度的大规模多阶段强化学习框架,在复杂推理、数学、代码、语言理解等场景全面提升模型效果及泛化性;

同时提出强化学习动态更新算法,基于样本采样长度动态调整强化学习更新速度,进一步提升深度思考强化学习效率及效果——当采样到超长逻辑链样本时,自动提升梯度更新幅度,避免思维链过长带来的更新过慢问题。

其次是基于快慢思考的统一训练方法

模仿人类“快思考(直觉反应)”与“慢思考(深度分析)”双系统,星火X1通过快慢思考混合训练技术,实现模型在速度与深度间的自由切换。

快思考数据(如百科问答、实时翻译)与慢思考数据(如数学证明、法律条文解析)混合训练,使模型既能快速响应简单指令,又能对复杂问题启动“深度思考模式”。

这样一来,充分发挥快慢思考数据相互促进作用,实现基于系统指令控制模型是否深度思考,支撑下游更高效便捷地部署使用。

最后就是工程技术系统上面的创新,来保障基于国产算力的高效长稳训练。

他们实现了多项创新,包括不限于显存动态卸载技术、训推共卡协同技术以及推理引擎冬眠机制——

显存动态卸载技术大幅提升长文本推理并发、训推共卡协同实现高效训推资源转换、推理引擎冬眠机制实现快速拉起和恢复,从而实现国产算力平台上高效和稳定的强化学习训练全流程。

也正因这三大核心突破让讯飞星火重新拓宽了大模型的创新边界:

以比业界同类模型小一个数量级的参数量实现了媲美顶尖模型的水平

最直观的展现就是就是定制化部署成本和门槛的双重降低,进一步实现AI行业普惠。

当“轻量化”模型撕掉“高投入、高壁垒”的行业标签,AI技术得以向中小微企业、个体开发者及公共服务领域加速渗透,更多行业场景都可以加速用起来。

比如像教育、医疗、司法等场景,已经展现了领先于行业的水平

以司法场景为例,

可以看到,针对一些专业需求,比如根据材料总结案件事实以及判决理由,星火X1可以详细分析案件争议点,快速定位材料中的关键信息,准确输出内容。

为了让更多企业使用更便捷,除了大模型本身,此次星火X1为AI落地提供了双重支持。

一个是快思考、慢思考统一模型的首发。一个模型支持两种思考模型,可以满足更多样化需求,并且4张卡(华为910B)即可部署满血版星火X1,私有化部署起来更加简便。

另一个则是模型定制优化工具链的全新升级,支持SFT、强化学习两种模型定制优化方案,16张卡(华为910B)即可完成行业定制优化,定制门槛低。

这样一来,更多企业都可以用起来了。

大模型的全国产化之路“枝繁叶茂并且生生不息”

此次讯飞星火X1升级再次印证,全国产化之路正在枝繁叶茂并且生生不息。

而且相较于从年初到现在频频的国产化进展,从DeepSeek领衔到现在火热的人形机器人,讯飞星火所代表的全国产之路具备更深层次的产业意义。

目前,在整个中国的大模型产业中还是主要依靠海外算力,国产算力平台尚处拓荒期时,多数企业因技术门槛高、投入风险大而却步,科大讯飞作为先行者选择了一条“硬核突围”之路——

时至今日,讯飞星火仍是唯一由全国产化算力平台训练的通用大模型

我们都知道,由于要实现全栈技术自研,从芯片指令集优化,到超大规模集群稳定性保障,技术复杂度呈指数级攀升。

对于企业而言,也是对长期投入的战略定力的考验,全算力国产化需要持续多年的高强度投入,多数企业难免更倾向于选用现成方案,这种路径依赖导致其训练算力环节始终受制于人。

但一旦实现这种国产AI生态协同,就会产生远超预期的“化学反应”。

飞星一号、飞星二号就是例证

2023年10月24日,讯飞华为联合发布国内首个全国产算力平台”飞星一号”。随后仅过去一年,国产超大规模智算平台”飞星二号”发布。

而讯飞星火作为底座模型能持续迭代并且达到业界一流水平,获得行业玩家的青睐,背后也是有赖于全国产算力平台的保障。

除了底座模型之外,一些创新性进展也在国产算力探索过程中迸发。

最近有两个进展就备受行业关注。

一个是联合华为率先实现国产算力集群上MoE模型的大规模跨节点专家并行集群推理。这是继DeepSeek公布其MoE模型训练推理方案后,业界首个基于国产算力的全新解决方案

另一个则是“飞星一号”上实现MoE模型大规模专家并行集群推理性能飞跃,并在近期实现了大规模专家并行集群推理性能翻番,并且已逼近国产算力上MoE集群推理的性能上限。

如今在风起云涌的通用人工智能浪潮,科大讯飞董事长刘庆峰认为,有没有自主可控的国产底座能力做支撑,这决定了我们在这条路上能走多远,决定了在通用人工智能这一波浪潮中,我们能不能享受这波红利,能不能成为美国之后全球智慧涌现的第二极。

AGI的前景迷人,但对于中国玩家来说,也必须放弃幻想——

正如刘庆峰一直对外强调的,中国企业必须坚持自主可控的技术路线,不断提升自身的技术实力,才能在未来的竞争中占据有利位置。同时,产业分工更加明确,应用场景也将更加丰富,企业能够从容应对外在各种不确定性。

这是讯飞成立和发展壮大的核心原因,全球化不可逆,但这几年的现实告诉我们,永远需要有人随时能做好备份和全自主模式。

需要时刻准备着。


量子位
53 声望20k 粉丝

一家专注于人工智能与前沿科技领域的产业服务平台。