“周周有发布,天天有更新。”
这是百度创始人李彦宏最新对大模型竞速的感慨,但……卷王实际就是百度自己,因为就这一个多月以来,百度已经连发4款模型了。
就在刚刚,在Create 2025百度AI开发者大会上,李彦宏又一口气官宣了两款新模型:分别是主打深度思考和多模态的X1 Turbo/4.5 Turbo。
而且发布即上线,普通用户现在都能免费体验。
据介绍,它们是百度在3月发布的旗舰模型X1、4.5的升级版,推理和多模态能力双双更跃Level。
比如在挑战“史上最难高考数学题之一”时,新模型是为数不多能给出正确答案的选手(正确答案为145):
一个冷知识,2003年数学全国卷被誉为“史上最难高考卷”,而这道题还是里面的压轴大题,难度可想而知。
甚至,至今还能看到一众自称03级的网友集体“诉苦”:
再比如面对一段让人眼花缭乱的视频,新模型竟成功猜对了小球的位置。
正确答案是3号杯子,话说大家最终猜出来了吗?(doge)
根据官方测评结果,深度思考模型文心X1 Turbo(深蓝),整体效果领先DeepSeek R1、V3最新版。
文心4.5 Turbo(红色),多模态能力优于GPT 4o,文本能力与DeepSeek V3最新版持平,优于GPT 4.5。
目前,两款新模型均在文心一言官网开放,开发者在百度智能云千帆大模型平台,也可直接调用API。
另外,最关键的还是成本的下降!
文心4.5 Turbo输入0.8元/百万tokens,输出3.2元/百万tokens;文心X1 Turbo输入1元/百万tokens,输出4元/百万tokens。
以上价格,前者仅为DeepSeek V3的40%,后者仅为DeepSeek R1的1/4;同时相比一个月前的X1/4.5,价格均下降一半及以上。
大模型能力在进化,成本在下降,应用创新的大爆发将势不可挡。
只不过,咱还是先从一些具体能力上,看看百度最新最强大模型文心X1 Turbo/4.5 Turbo,究竟是不是像跑分展现的那么强?
老规矩,上一手实测~~
实测之后,还是太全面了!
首先来看主打深度思考的文心X1 Turbo模型。
据介绍,它基于文心4.5 Turbo,在性能提升的同时,具备更先进的思维链,尤其擅长推理和工具调用。
文心大模型X1 Turbo
一上来,我们先拿一道经典逻辑陷阱题热热身:
一根5.5米的竹竿可以通过高4米宽3米的门吗?
对于这样一个看似简单的问题,目前市面上绝大多数的模型反应be like:
而文心X1 Turbo经过一番严谨论证,第一次就得出了正确答案(通过调整竹竿的倾斜角度,可以通过):
看来这种问题已经难不倒它了,接下来难度升级。
直接一步到位,扔给它一道某地高中物理模考卷压轴题,还是只上传图片的那种:
可以看到,对于这种涉及专业领域的高难度推理题,X1 Turbo依旧思路清晰。
先是自主调用“图片理解”工具识别出题目与火箭发射有关,然后上手一步步解题,最终给出了正确答案。
值得注意的是,尽管考查的是X1 Turbo的逻辑推理能力,但我们已经提前发现它的一大特色——
与其他推理模型相比,文心X1 Turbo能够灵活调用各种工具。
官网显示,文心X1 Turbo默认开启代码解释器、文档阅读、图片理解、图片生成等诸多工具,一旦意识到答案涉及代码、表格、图片等多模态内容,就会自动调用这些工具。
比如在日常生活中,我们随手将一张美食照分享给文心X1 Turbo,让它帮忙反向解析详细制作过程。
而且为了便于收藏,我们还要求它最终直接生成一份PDF文件:
结果,X1 Turbo分别调用图片理解和代码解释器工具,生成了一份可直接下载、内容完整的PDF制作工序文件。
看来挑战还是太简单了,好好好,接下来我们干脆玩把大的。
让文心X1 Turbo帮我们规划一个五一去北京游玩的行程,而且提了一大堆要求,不能太“特种兵”,住宿、交通、门票等等都要考虑到,结果用表格呈现……主打一个全面考察工具调用。
话不多说,来感受一下最终效果:
不仅贴心标注了“五一行程——8点自然醒版”(doge),而且表格中每一天的安排都非常清晰,甚至特意标出了需要提前预约的景点和预约渠道。
再仔细一看,同一天安排的景点的位置都比较靠近,属于合理范畴。
此外,我们还发现文心X1 Turbo支持继续对话生成,能在前面的行程规划上,接着为每个景点生成配图。
最后顺便一提,我们在测试文心X1 Turbo的推理和工具调用能力的过程中,还发现它在创意写作方面有点意思。
恰逢五一假期临近,我们让它根据一张“西湖人山人海图”,仿照《岳阳楼记》的文风写一篇游记。
对比一下《岳阳楼记》原文,是不是有内味儿了~
庆历四年春,滕子京谪守巴陵郡。越明年,政通人和,百废具兴,乃重修岳阳楼,增其旧制,刻唐贤今人诗赋于其上,属予作文以记之……
其次来看主打多模态的文心4.5 Turbo模型。
据介绍,它源自文心4.5,是效果更好、成本更低的多模态大模型。
文心大模型4.5 Turbo
实测下来发现,相比单项推理能力突出的文心X1 Turbo,它更像是一个主打综合实力的“六边形战士”。
切换模型后,底部输入框的文档、图片、视频、音频等多模态功能全部“点亮”:
文本能力就不用多说了,我们直接上传一张经典梗图,考查其视觉理解能力,结果也是秒秒钟get~
再来个实用的,让4.5 Turbo设计一些包含故宫博物院元素的冰箱贴文创。
相同提示词下,通过对比文心4.5和4.5 Turbo,可以看到后者的生成效果确实更好、更精致了。
最后,文心4.5 Turbo也能理解音视频素材。
一方面可以直接和它语音对话,亲测用四川方言也能实现无障碍交流:
另一方面还能综合分析视频中的场景、声音、人物等等,目前单个视频最大支持20MB。
小结一下,百度此次推出的文心大模型X1/4.5 Turbo,实测下来在推理能力和多模态能力上确实有一定程度升级。
那么接下来的问题是:背后依靠了哪些核心技术?
挖一挖背后的技术
在思考路径中融合工具调用
首先,作为能够自主运用工具的深度思考模型,文心X1 Turbo背后的关键技术包括:
其一,突破了仅基于思维链优化的范式,在思考路径中结合工具调用,构建了融合思考和行动的复合思维链,模型解决问题的能力得到显著提升。
其二,结合多元统一的奖励机制,实现了长距离思维和行动链的端到端优化,显著提升了跨领域解决问题的能力。
一般而言,传统的单一奖励机制往往只能从一个角度评估模型的性能,这可能导致模型“顾此失彼”,比如过于关注语法,可能就会忽略语义的连贯性。
而多元统一奖励机制是从多个维度全面评估模型的性能,这种综合性的反馈机制能够帮助模型在多个方面同时优化,从而提升整体实力。
采用不同模态混合训练
其次,为了提升文心4.5和4.5 Turbo的多模态能力,一大关键就是采用了不同模态(文本、图像和视频)的混合训练。
针对不同模态数据在结构、规模、知识密度上的差异,主要应用了如下技术:
- 多模态异构专家建模
- 自适应分辨率视觉编码
- 时空重排列的三维旋转位置编码
- 自适应模态感知损失计算
最终,模型的学习效率提高近2倍,多模态理解效果提升超过30%。
而且为了进一步提升模型的综合实力,他们在后训练阶段也进行了优化。
研制了自反馈增强的技术框架,基于大模型自身的生成和评估反馈能力,实现了“训练-生成-反馈-增强”的模型迭代闭环。
这不仅解决了大模型对齐过程中数据生产难度大、成本高、速度慢等问题,而且显著降低了模型幻觉,提升了模型理解和处理复杂任务的效果。
此外在训练阶段,他们还研制了融合偏好学习的强化学习技术,通过多元统一奖励机制,提升了对结果质量判别的准确率,通过离线偏好学习和在线强化学习统一优化,进一步提升了数据利用效率和训练稳定性,并增强了模型对高质量结果的感知。
正是因为受益于偏好信号与奖励信号的融合运用,模型的理解、生成、逻辑推理和记忆等能力才得以全面提升。
数据的合理挖掘及运用
当然,能够训练出高质量模型,还离不开对数据的合理挖掘及运用。
在这方面,他们打造了“数据挖掘与合成 – 数据分析与评估 – 模型能力反馈”的数据建设闭环。
主要体现在两点:
一是针对专业深度知识及领域过程知识的数据稀缺问题,研制了原理驱动、过程评估与结果校验的数据合成技术、知识点驱动的大规模稀缺数据挖掘技术,提升数据的知识密度和覆盖面。
二是针对不同模态数据割裂、跨模态语义关联难度大等问题,提出了融合语义对齐的多模态平行数据构建、融合视觉知识的描述生成等技术,大幅提升不同模态数据的对齐精度和深度语义关联,增强多模态理解能力。
最终实现了——既能源源不断地生产知识密度高、数据多样、领域覆盖广的大规模数据,还能将数据建设流程轻松迁移到全新的数据类型。
训练推理中采用联合优化
除了上面这些,技术团队还进行了模型的算力优化。
训练方面,多模态统一的掩码注意力加速,利用飞桨已有的块状掩码注意力加速技术,显著降低不同模态混合计算注意力时的掩码构建和计算开销,大幅提升训练性能。
推理方面,多模态流式分块预填充机制,减少首token耗时,同时减少推理计算的显存峰值,提升推理批次大小,提升吞吐性能。
而且值得一提的是,开发者还能利用百度飞桨框架3.0,“像写单机代码一样写分布式代码”,借助其动静统一自动并行技术,开发者无需感知复杂的通信和调度逻辑,即可实现大模型的开发。
目前,文心飞桨的开发者数量已经超过了2185万,服务超过67万家企业,创建的模型达到110万。
未来,随着百度进一步走向开源,开发者也能通过该框架实现更多开源模型的高性能推理了。
把生产力成本打下来了
技术上所具备的核心优势,最终也让百度把模型价格狠狠打下来了。
还在一个月前,百度发布的文心大模型X1和4.5,就因为低于ChatGPT和DeepSeek的价格出圈。
而现在发布的文心X1 Turbo/4.5 Turbo,模型性能升级的同时,价格却进一步降低了。
文心大模型X1 Turbo API,输入价格1元/百万tokens,输出价格4元/百万tokens,仅为DeepSeek R1调用价格的1/4,而且相比文心大模型X1,价格直接腰斩。
文心大模型4.5 Turbo API,输入价格0.8元/百万tokens,输出价格3.2元/百万tokens,仅为DeepSeek V3调用价格的40%,而且相比文心大模型4.5,价格更是下降了80%。
而且不止卷价格,一旦梳理百度目前采取的一系列动作,我们就能看到一个核心关键词——生产力。
一方面,百度作为国内最早入局大模型的头部玩家之一,始终坚决投入下一代基础模型。
模型升级的方向,目前主要包括推理、多模态、工具调用等等,这些功能均围绕“生产力”展开,主要是为了满足普通人的日常工作生活需要。
带来的结果是,越升级基础模型,我们普通用户越能免费薅到更强大的生产力工具。
另一方面,他们还为开发者提供了全方位支持。以文心大模型为例,目前已经形成了从模型到工具平台的完整体系,包括文心4.5、X1等旗舰模型及其Turbo升级版、文图生成模型、场景模型和轻量模型、文心一言和智能体,以及赋能开发者的数据生产、后训练、推理部署和场景化工具等。
再加上模型价格一降再降,开发者搞应用的门槛也更低了,这将推动AI应用进一步爆发,进而有望提升整个社会的生产力。
这或许也是百度这届AI开发者大会,主题“模型的世界,应用的天下”的关键原因,模型已经遍地都是、触手可及,那么应用的爆发也就成为了必然趋势。百度创始人李彦宏还预判:“模型会有很多,但未来真正统治这个世界的是应用,应用才是王者。”
在发布最后,李彦宏的发言也引发了现场开发者的热烈掌声反馈,他说——
所有这些发布,都是为了让开发者们可以不用担心模型能力、不用担心模型成本、更不用担心开发工具和平台,可以踏踏实实地做应用,做出最好的应用!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。