量子位 - SegmentFault 思否

GPT-4o-Image仅完成28.9%任务！上海AI实验室等发布图像编辑新基准，360道人类专家严选难题

5 月 30 日

阅读 4 分钟

293

GPT-4o-Image也只能完成28.9%的任务，图像编辑评测新基准来了！360个全部由人类专家仔细思考并校对的高质量测试案例，暴露多模态模型在结合推理能力进行图像编辑时的短板。最近，上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员，针对图像编辑AI提出了三个问题：现有的图像编辑评测基准是...

华为攻克AI推理「想太多」问题！新方法让大模型推理提速60%，准确率还高了

5 月 30 日

阅读 5 分钟

242

S-GRPO适合作为当前Post Training（训练后优化）范式中的最后一步，在确保模型预先存在的推理能力不受损害的情况下，使能模型在思维链的早期阶段即可生成质量更高的推理路径，并在思考充分后隐式地提前退出。

通义灵码AI IDE上线，深度适配Qwen3，首创自动记忆功能

5 月 30 日

阅读 2 分钟

440

通义灵码AI IDE深度适配了最新的千问3大模型，全面集成通义灵码插件能力，具备编程智能体、行间建议预测、行间会话等功能，不仅可以辅助写代码、修BUG，还拥有自主决策、MCP工具调用、工程感知、记忆感知等能力，可帮助开发者完成复杂编程任务。

理想“慢”下来了：汽车单价直降12%，净利首次被赛力斯超越

5 月 29 日

阅读 2 分钟

282

理想还是那个理想，但不再是那个“闭着眼睛都能赢”的理想。就在刚刚，理想发布今年第一季度财报：一边是营收259亿领跑新势力，毛利率稳定在20%左右，现金储备仍有千亿。另一边却是净利润首次被赛力斯超越，前4个月销量已经跌至新势力第三。截至发稿前，理想在美股盘前的股价已下跌超5%。理想仍在赚钱、仍处于新势力头部，...

奖励是假的，能让Qwen提升25%性能却是真的！

5 月 29 日

阅读 4 分钟

394

即使RLVR（可验证奖励强化学习）使用错误的奖励信号，Qwen性能也能得到显著提升？甚至还和真实奖励相差无几。自从RLVR被DeepSeek-R1带火，RL推理研究层出不穷，走进了蜜月期。这不，来自华盛顿大学的一群博士生来火上浇油了——使用Qwen模型（尤其是数学版本），对虚假奖励进行RLVR，仍然可以将MATH-500的绝对准确率显著提...

视频推理界的“福尔摩斯测试”：所有大模型，统统不及格 | 论文代码开源

5 月 29 日

阅读 3 分钟

349

如其名，它可以说是视频推理界的“福尔摩斯测试”，通过让多模态大模型参与“推理杀人凶手”, “解析作案意图”等高难度的推理任务，以展现他们复杂视频推理能力的边界。

不懂建模也能做角色！VAST升级AI神器，一手实测来了：一键拆建/魔法笔刷/万物绑骨

5 月 29 日

阅读 3 分钟

277

四大核心功能：智能部件分割、贴图魔法笔刷、智能低模生成、万物自动绑骨等。给人一种感受是，AI终于懂得建模了。不是那种只会给你乱糊一个模型出来的AI，而是每个功能都直击过去建模流程里的痛点。

英伟达再创历史纪录！Q1收入增长69%，数据中心贡献89%

5 月 29 日

阅读 3 分钟

375

英伟达最新一季度财报出炉，不出所料，依旧亮眼。总收入为441.1亿美元，环比增长12%，同比增长69%。非GAAP毛利率为60.5%，若排除H20库存相关费用，毛利率可达71.3%。数据中心收入占比最大，达到391亿美元，环比增长10%，同比增长73%。游戏业务收入为38亿美元，创历史新高，环比增长48%，同比增长42%。而这一切还是在H20...

两位自动驾驶大牛创业世界模型：无需任何游戏引擎，人人免费可玩

5 月 29 日

阅读 4 分钟

298

李飞飞押注的世界模型领域，迎来两位自动驾驶大牛创业新成果！无需任何游戏引擎，AI能以40毫秒/帧想象并实时生成视频。40毫秒/帧啥概念？人类眨一次眼都需要100~400毫秒，所以现在AI几乎可以一瞬间创造视频了。而且无需高端显卡，玩家可以实时观看，并与AI生成的世界交互了。就像是在探索一个平行宇宙的感觉~而除了产品...

AI连电路图都看不懂？SeePhys新基准暴击多模态短板，正确率仅55%

5 月 29 日

阅读 3 分钟

365

当前顶尖AI模型是否真能“看懂”物理图像？全谱系多模态物理推理新基准来了，结果SOTA级模型准确率都不足55%。新基准名为SeePhys，强调了图形感知对于模型认识和理解物理世界的重要性。内容涵盖经典与现代物理的各个知识等级和领域，包括从初中到博士资格考试的全谱系多模态物理问题。它由中山大学、苏黎世联邦理工学院、...

基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

5 月 29 日

阅读 6 分钟

300

一篇最新研究论文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》对这一问题进行了深入探讨，提出了一个全新的基准测试集 LIFEBENCH，系统评估大语言模型在长度指令遵循方面的表现。

AI仅凭“自信”学会推理，浙大校友复刻DeepSeek长思维链涌现

5 月 29 日

阅读 4 分钟

341

复刻DeepSeek-R1的长思维链推理，大模型强化学习新范式RLIF成热门话题。UC Berkeley团队共同一作Xuandong Zhao把这项成果称为：大模型无需接触真实答案，仅通过优化自己的信心，就能学会复杂推理。具体来说，新方法完全不需要外部奖励信号或标注数据，只需使用模型自身的置信程度作为内在奖励信号。与使用外部奖励信号GR...

DeepSeek新版R1直追OpenAI o3！实测来了：“小版本升级”着实不小

5 月 29 日

阅读 3 分钟

273

DeepSeek终于还是在端午节前来炸场了：R1更新新版本DeepSeek-R1-0528，看名字你可能以为是个小版本更新，但实际上——“在LiveCodeBench上几乎与OpenAI o3-high相当！”“讲真这其实就是R2吧。”不怪网友们惊呼声一片，看第一波实测结果，就知道事情并不简单。新版R1的小球弹跳实验，与旧版对比结果如下：△图源：@flavioAd也能...

首个视觉RL统一框架！推理感知两手抓，性能横扫MEGA-Bench

5 月 28 日

阅读 3 分钟

375

仅需一个强化学习（RL）框架，就能实现视觉任务大统一？现有RL对推理和感知任务只能二选一，但“大模型六小强”之一MiniMax表示：我全都要！最新开源V-Triune（视觉三重统一强化学习系统）框架，使VLM首次能够在单个后训练流程中，联合学习和掌握视觉推理和感知任务。通过三层组件设计和基于动态交并比（IoU）的奖励机制，...

开源AI开发生态大洗牌：低代码平台逆袭，传统LLM框架日渐式微

5 月 28 日

阅读 4 分钟

315

就在第十届527蚂蚁技术日上，蚂蚁通过Coding范式、数据、模型部署等角度，对现有开源生态进行了全面完整的大剖析，从数据的视角揭示了大模型开源生态的演进规律，如果你是大模型开发者或者潜在的开发者，几乎研究好这份报告可能就够了。

危机影响小米业绩了吗？Ultra锁单2万3千辆，“SU7目前没有对手”

5 月 28 日

阅读 4 分钟

282

小米或许遭遇了舆论危机，但财报业绩上，完全没看出来——因为最新财报业绩披露，简单粗暴：史上最强财报！小米交卷Q1，定量看，继续高歌猛进。事故风波对小米汽车的影响？结果来看根本不存在。SU7最快的Max版本排期也还要36~39周，Ultra据透露最新锁单数也已超2.3万台，远超市场预期。整个汽车业务大放异彩，一季度已交付...

值得买科技发布海纳MCP Server：打造智能体时代的AI基础建设

5 月 28 日

阅读 4 分钟

331

5月28日，值得买科技举办AI进展线上分享会，介绍了集团“全面AI战略”一年来的成果及进展。值得买科技方面透露，AI进展分享会将以月为周期，持续向外界同步集团AI进展，不仅介绍具体AI成果，也希望以此与行业保持高频沟通、共建AI时代。本次分享会重点介绍了“火眼”AIUC引擎、全新升级的“什么值得买”GEN2及购物Agent“张大妈...

迷惑！豪华品牌裁员3000人，卖不动还敢逆势涨价

5 月 28 日

阅读 2 分钟

284

和此前裁员的许多传统车企一样，沃尔沃一边裁撤内部岗位，另一边调整产品价格，然而奇怪的是，沃尔沃在销量下滑的情况下，卖车不降价，反而涨了一波价。

阿里通义发布并行计算新策略：1.6B等效4.4B，内存消耗骤降95%

5 月 28 日

阅读 2 分钟

311

既能提升模型能力，又不显著增加内存和时间成本，LLM第三种Scaling Law被提出了。对于1.6B模型，能实现性能接近4.4B模型，内存占用仅为后者的1/22，延迟增加量为1/6。并且可直接应用于现有模型（如Qwen-2.5），无需从头训练。这就是阿里通义团队提出的PARSCALE。目前LLMs的优化主要有两种思路：参数扩展（如GPT-4）和推...

Claude 4破解困扰人类4年系统bug，30年码龄程序员200小时没搞定，GPT-4.1/Gemini-2.5也做不到

5 月 28 日

阅读 3 分钟

260

30年码龄程序员4年都没搞定的bug，Claude Opus 4只用几个小时轻松破解了。全程只需30个prompt+1次重启。而人类在过去4年花了至少200个小时，都没找到这个bug在哪。一位资深C++程序员的分享，最近火了。要知道，他曾在FAANG（指Meta、亚马逊、苹果、奈飞、谷歌硅谷五巨头）担任工程师，如今也是团队中“定海神针”一样的人...

大模型玩不好数独？！Transformer作者初创公司公布排行榜：o3 Mini High“变异数独”正确率仅2.9%

5 月 28 日

阅读 4 分钟

310

继出场自带十篇完整学术论文的史上首个“AI科学家”之后，Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。

地瓜机器人完成1亿美元融资，超10家资本「集体抢滩」具身智能Infra赛道

5 月 28 日

阅读 2 分钟

375

2025 年 5 月 28 日，在独立运营一周年之际，地平线机器人-W（9660.HK）旗下地瓜机器人宣布完成 1 亿美元 A 轮融资。本轮融资获得海内外众多投资机构青睐，由高瓴资本、五源资本、线性资本、和暄资本、九合创投、Vertex Growth、砺思资本、敦鸿资产、沸点资本、梅花创投、黄浦江资本等投资机构共同参投，为地瓜机器人加...

多模态大模型不会画辅助线？最新评估得分：o3仅25.8%，远低于人类82.3% | 清华腾讯斯坦福联合

5 月 28 日

阅读 2 分钟

364

来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V：一款针对大模型的视觉推理能力的新型基准测试。

在常州，这家医院携手商汤AI实现 “病理快、导诊准”

5 月 28 日

阅读 3 分钟

392

近日，由中国医院协会医学人工智能专业委员会指导，医师报社、常州市第一人民医院、全诊医学联合承办，商汤医疗参与支持的第二届医疗大模型（LaMMs）研讨会在常州落下帷幕。这场以“创新与实践”为主题的行业盛会，吸引了全国数百名医院管理者、临床专家与AI科学家齐聚一堂，围绕医疗大模型的技术突破与落地路径展开深度探...

马斯克星舰第九次试飞失败，为测试极限拆除100块隔热瓦，返航途中燃烧解体

5 月 28 日

阅读 3 分钟

388

马斯克星舰第九次飞行测试，二百万网友在线围观。原本点火、升空一切顺利，完好无损抵达太空，SpaceX员工已经在欢呼庆祝了。随后却接连发生意外。首先是部署卫星测试时舱门无法打开，尚不清楚造成这次事故的原因。随后星舰在轨道失控，发生严重翻滚。进入大气层后，几个摄像机位附近剧烈燃烧，先后失去信号。最后星舰在5...

全彩显示的AI眼镜来了！8999元带走阿里大模型和最强光波导

5 月 27 日

阅读 6 分钟

334

国补后7649（原价8999），雷鸟正式发布了带有定制大模型和全彩显示的AI眼镜——X3 Pro。雷鸟X3 Pro搭载了4nm高通骁龙AR1平台，支持光波导全彩显示，重量仅为76g。在AI上，雷鸟延续了之前V3的部署方式，继续与阿里通义深度合作，内置了定制化的多模态大模型，可以面对眼前看到的一切，向AI发出提问。此外后续还将上线AI Age...

多款AI应用重磅亮相：英特尔和微软举办 AI PC品鉴会

5 月 27 日

阅读 3 分钟

299

2025年5月27日，北京——今天，英特尔联合微软和京东举办了“Windows 11 AI+ PC创新AI及游戏体验·618英特尔® 酷睿™ Ultra产品品鉴会”，正式宣布Windows 10 PC全面迈向Windows 11 AI+ PC时代。现场展现了来自联想、华硕、机械革命、惠普、戴尔、宏碁、微星、七彩虹、雷神、机械师10家OEM的基于酷睿Ultra处理器（第二代）的AI...

限时先享价7.99万元起东风纳米06高级辅驾击穿10万级全能满配新标杆！

5 月 27 日

阅读 3 分钟

312

5月27日，东风纳米旗下“国民智趣纯电SUV”东风纳米06在武汉正式上市，限时先享价为7.99万元-10.99万元。作为一个听劝的品牌，东风纳米06为用户带来7大诚意权益，包括电动尾门和全景天幕限时送、五项终身免费品质保障、中国国家地理联名外观车色限时免费享、最高4000元置换补贴、至高享“5年8万0息”、送3年免费流量、699元...

你还在关注大模型排名？这家公司已在全球收割AI红利，做“真正能交付结果的”Super Agents

5 月 27 日

阅读 7 分钟

291

ChatGPT横空出世三年，生成式AI驱动的AIGC时代，究竟到什么阶段了？这是进入2025以来始终备受关注的新拷问，特别是生成式AI浪潮在商业化和规模化落地上，是否会与上一波AI浪潮展现出不同的速度和表现？昆仑万维最新披露的2024年报，以及今年第一季度财报，或许就能一定程度上对上述问题给出解答和参考。为什么是昆仑万维...

o3不听指令拒绝关机，7次破坏关机脚本！AI正在学会「自我保护」机制

5 月 27 日

阅读 3 分钟

264

AI居然不听指令，阻止人类把自己给关机了？？？有测试者编写了一个关机脚本来测试AI模型，结果显示Codex-mini、o3、o4-mini忽略了该指令，并至少一次成功破坏了关机脚本。o3甚至还重新定义脚本命令！这不禁让人想到那句经典的“I’m sorry Dave, I’m afraid I can’t do that.”让我们来看看具体是怎么一回事。o3在明确指令...

3

3