GPT-4o-Image仅完成28.9%任务!上海AI实验室等发布图像编辑新基准,360道人类专家严选难题

5 月 30 日
阅读 4 分钟
293
GPT-4o-Image也只能完成28.9%的任务,图像编辑评测新基准来了!360个全部由人类专家仔细思考并校对的高质量测试案例,暴露多模态模型在结合推理能力进行图像编辑时的短板。最近,上海人工智能实验室联手上海交大、同济大学、武汉大学、普林斯顿大学的研究人员,针对图像编辑AI提出了三个问题:现有的图像编辑评测基准是...

华为攻克AI推理「想太多」问题!新方法让大模型推理提速60%,准确率还高了

5 月 30 日
阅读 5 分钟
242
S-GRPO适合作为当前Post Training(训练后优化)范式中的最后一步,在确保模型预先存在的推理能力不受损害的情况下,使能模型在思维链的早期阶段即可生成质量更高的推理路径,并在思考充分后隐式地提前退出。

通义灵码AI IDE上线,深度适配Qwen3,首创自动记忆功能

5 月 30 日
阅读 2 分钟
440
通义灵码AI IDE深度适配了最新的千问3大模型,全面集成通义灵码插件能力,具备编程智能体、行间建议预测、行间会话等功能,不仅可以辅助写代码、修BUG,还拥有自主决策、MCP工具调用、工程感知、记忆感知等能力,可帮助开发者完成复杂编程任务。

理想“慢”下来了:汽车单价直降12%,净利首次被赛力斯超越

5 月 29 日
阅读 2 分钟
282
理想还是那个理想,但不再是那个“闭着眼睛都能赢”的理想。就在刚刚,理想发布今年第一季度财报:一边是营收259亿领跑新势力,毛利率稳定在20%左右,现金储备仍有千亿。另一边却是净利润首次被赛力斯超越,前4个月销量已经跌至新势力第三。截至发稿前,理想在美股盘前的股价已下跌超5%。理想仍在赚钱、仍处于新势力头部,...

奖励是假的,能让Qwen提升25%性能却是真的!

5 月 29 日
阅读 4 分钟
394
即使RLVR(可验证奖励强化学习)使用错误的奖励信号,Qwen性能也能得到显著提升?甚至还和真实奖励相差无几。自从RLVR被DeepSeek-R1带火,RL推理研究层出不穷,走进了蜜月期。这不,来自华盛顿大学的一群博士生来火上浇油了——使用Qwen模型(尤其是数学版本),对虚假奖励进行RLVR,仍然可以将MATH-500的绝对准确率显著提...

视频推理界的“福尔摩斯测试”:所有大模型,统统不及格 | 论文代码开源

5 月 29 日
阅读 3 分钟
349
如其名,它可以说是视频推理界的“福尔摩斯测试”,通过让多模态大模型参与“推理杀人凶手”, “解析作案意图”等高难度的推理任务,以展现他们复杂视频推理能力的边界。

不懂建模也能做角色!VAST升级AI神器,一手实测来了:一键拆建/魔法笔刷/万物绑骨

5 月 29 日
阅读 3 分钟
277
四大核心功能:智能部件分割、贴图魔法笔刷、智能低模生成、万物自动绑骨等。给人一种感受是,AI终于懂得建模了。不是那种只会给你乱糊一个模型出来的AI,而是每个功能都直击过去建模流程里的痛点。

英伟达再创历史纪录!Q1收入增长69%,数据中心贡献89%

5 月 29 日
阅读 3 分钟
375
英伟达最新一季度财报出炉,不出所料,依旧亮眼。总收入为441.1亿美元,环比增长12%,同比增长69%。非GAAP毛利率为60.5%,若排除H20库存相关费用,毛利率可达71.3%。数据中心收入占比最大,达到391亿美元,环比增长10%,同比增长73%。游戏业务收入为38亿美元,创历史新高,环比增长48%,同比增长42%。而这一切还是在H20...

两位自动驾驶大牛创业世界模型:无需任何游戏引擎,人人免费可玩

5 月 29 日
阅读 4 分钟
298
李飞飞押注的世界模型领域,迎来两位自动驾驶大牛创业新成果!无需任何游戏引擎,AI能以40毫秒/帧想象并实时生成视频。40毫秒/帧啥概念?人类眨一次眼都需要100~400毫秒,所以现在AI几乎可以一瞬间创造视频了。而且无需高端显卡,玩家可以实时观看,并与AI生成的世界交互了。就像是在探索一个平行宇宙的感觉~而除了产品...

AI连电路图都看不懂?SeePhys新基准暴击多模态短板,正确率仅55%

5 月 29 日
阅读 3 分钟
365
当前顶尖AI模型是否真能“看懂”物理图像?全谱系多模态物理推理新基准来了,结果SOTA级模型准确率都不足55%。新基准名为SeePhys,强调了图形感知对于模型认识和理解物理世界的重要性。内容涵盖经典与现代物理的各个知识等级和领域,包括从初中到博士资格考试的全谱系多模态物理问题。它由中山大学、苏黎世联邦理工学院、...

基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传

5 月 29 日
阅读 6 分钟
300
一篇最新研究论文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》对这一问题进行了深入探讨,提出了一个全新的基准测试集 LIFEBENCH,系统评估大语言模型在长度指令遵循方面的表现。

AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现

5 月 29 日
阅读 4 分钟
341
复刻DeepSeek-R1的长思维链推理,大模型强化学习新范式RLIF成热门话题。UC Berkeley团队共同一作Xuandong Zhao把这项成果称为:大模型无需接触真实答案,仅通过优化自己的信心,就能学会复杂推理。具体来说,新方法完全不需要外部奖励信号或标注数据,只需使用模型自身的置信程度作为内在奖励信号。与使用外部奖励信号GR...

DeepSeek新版R1直追OpenAI o3!实测来了:“小版本升级”着实不小

5 月 29 日
阅读 3 分钟
273
DeepSeek终于还是在端午节前来炸场了:R1更新新版本DeepSeek-R1-0528,看名字你可能以为是个小版本更新,但实际上——“在LiveCodeBench上几乎与OpenAI o3-high相当!”“讲真这其实就是R2吧。”不怪网友们惊呼声一片,看第一波实测结果,就知道事情并不简单。新版R1的小球弹跳实验,与旧版对比结果如下:△图源:@flavioAd也能...

首个视觉RL统一框架!推理感知两手抓,性能横扫MEGA-Bench

5 月 28 日
阅读 3 分钟
375
仅需一个强化学习(RL)框架,就能实现视觉任务大统一?现有RL对推理和感知任务只能二选一,但“大模型六小强”之一MiniMax表示:我全都要!最新开源V-Triune(视觉三重统一强化学习系统)框架,使VLM首次能够在单个后训练流程中,联合学习和掌握视觉推理和感知任务。通过三层组件设计和基于动态交并比(IoU)的奖励机制,...

开源AI开发生态大洗牌:低代码平台逆袭,传统LLM框架日渐式微

5 月 28 日
阅读 4 分钟
315
就在第十届527蚂蚁技术日上,蚂蚁通过Coding范式、数据、模型部署等角度,对现有开源生态进行了全面完整的大剖析,从数据的视角揭示了大模型开源生态的演进规律,如果你是大模型开发者或者潜在的开发者,几乎研究好这份报告可能就够了。

危机影响小米业绩了吗?Ultra锁单2万3千辆,“SU7目前没有对手”

5 月 28 日
阅读 4 分钟
282
小米或许遭遇了舆论危机,但财报业绩上,完全没看出来——因为最新财报业绩披露,简单粗暴:史上最强财报!小米交卷Q1,定量看,继续高歌猛进。事故风波对小米汽车的影响?结果来看根本不存在。SU7最快的Max版本排期也还要36~39周,Ultra据透露最新锁单数也已超2.3万台,远超市场预期。整个汽车业务大放异彩,一季度已交付...

值得买科技发布海纳MCP Server:打造智能体时代的AI基础建设

5 月 28 日
阅读 4 分钟
331
5月28日,值得买科技举办AI进展线上分享会,介绍了集团“全面AI战略”一年来的成果及进展。值得买科技方面透露,AI进展分享会将以月为周期,持续向外界同步集团AI进展,不仅介绍具体AI成果,也希望以此与行业保持高频沟通、共建AI时代。本次分享会重点介绍了“火眼”AIUC引擎、全新升级的“什么值得买”GEN2及购物Agent“张大妈...

迷惑!豪华品牌裁员3000人,卖不动还敢逆势涨价

5 月 28 日
阅读 2 分钟
284
和此前裁员的许多传统车企一样,沃尔沃一边裁撤内部岗位,另一边调整产品价格,然而奇怪的是,沃尔沃在销量下滑的情况下,卖车不降价,反而涨了一波价。

阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%

5 月 28 日
阅读 2 分钟
311
既能提升模型能力,又不显著增加内存和时间成本,LLM第三种Scaling Law被提出了。对于1.6B模型,能实现性能接近4.4B模型,内存占用仅为后者的1/22,延迟增加量为1/6。并且可直接应用于现有模型(如Qwen-2.5),无需从头训练。这就是阿里通义团队提出的PARSCALE。目前LLMs的优化主要有两种思路:参数扩展(如GPT-4)和推...

Claude 4破解困扰人类4年系统bug,30年码龄程序员200小时没搞定,GPT-4.1/Gemini-2.5也做不到

5 月 28 日
阅读 3 分钟
260
30年码龄程序员4年都没搞定的bug,Claude Opus 4只用几个小时轻松破解了。全程只需30个prompt+1次重启。而人类在过去4年花了至少200个小时,都没找到这个bug在哪。一位资深C++程序员的分享,最近火了。要知道,他曾在FAANG(指Meta、亚马逊、苹果、奈飞、谷歌硅谷五巨头)担任工程师,如今也是团队中“定海神针”一样的人...

大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%

5 月 28 日
阅读 4 分钟
310
继出场自带十篇完整学术论文的史上首个“AI科学家”之后,Transformer作者Llion Jones又带着他的创业公司Sakana AI来搞事情了。

地瓜机器人完成1亿美元融资,超10家资本「集体抢滩」具身智能Infra赛道

5 月 28 日
阅读 2 分钟
375
2025 年 5 月 28 日,在独立运营一周年之际,地平线机器人-W(9660.HK)旗下地瓜机器人宣布完成 1 亿美元 A 轮融资。本轮融资获得海内外众多投资机构青睐,由高瓴资本、五源资本、线性资本、和暄资本、九合创投、Vertex Growth、砺思资本、敦鸿资产、沸点资本、梅花创投、黄浦江资本等投资机构共同参投,为地瓜机器人加...

多模态大模型不会画辅助线?最新评估得分:o3仅25.8%,远低于人类82.3% | 清华腾讯斯坦福联合

5 月 28 日
阅读 2 分钟
364
来自清华大学、腾讯混元、斯坦福大学、卡耐基梅隆大学等顶尖机构的研究团队联合发布了RBench-V:一款针对大模型的视觉推理能力的新型基准测试。

在常州,这家医院携手商汤AI实现 “病理快、导诊准”

5 月 28 日
阅读 3 分钟
392
近日,由中国医院协会医学人工智能专业委员会指导,医师报社、常州市第一人民医院、全诊医学联合承办,商汤医疗参与支持的第二届医疗大模型(LaMMs)研讨会在常州落下帷幕。这场以“创新与实践”为主题的行业盛会,吸引了全国数百名医院管理者、临床专家与AI科学家齐聚一堂,围绕医疗大模型的技术突破与落地路径展开深度探...

马斯克星舰第九次试飞失败,为测试极限拆除100块隔热瓦,返航途中燃烧解体

5 月 28 日
阅读 3 分钟
388
马斯克星舰第九次飞行测试,二百万网友在线围观。原本点火、升空一切顺利,完好无损抵达太空,SpaceX员工已经在欢呼庆祝了。随后却接连发生意外。首先是部署卫星测试时舱门无法打开,尚不清楚造成这次事故的原因。随后星舰在轨道失控,发生严重翻滚。进入大气层后,几个摄像机位附近剧烈燃烧,先后失去信号。最后星舰在5...

全彩显示的AI眼镜来了!8999元带走阿里大模型和最强光波导

5 月 27 日
阅读 6 分钟
334
国补后7649(原价8999),雷鸟正式发布了带有定制大模型和全彩显示的AI眼镜——X3 Pro。雷鸟X3 Pro搭载了4nm高通骁龙AR1平台,支持光波导全彩显示,重量仅为76g。在AI上,雷鸟延续了之前V3的部署方式,继续与阿里通义深度合作,内置了定制化的多模态大模型,可以面对眼前看到的一切,向AI发出提问。此外后续还将上线AI Age...

多款AI应用重磅亮相:英特尔和微软举办 AI PC品鉴会

5 月 27 日
阅读 3 分钟
299
2025年5月27日,北京——今天,英特尔联合微软和京东举办了“Windows 11 AI+ PC创新AI及游戏体验·618英特尔® 酷睿™ Ultra产品品鉴会”,正式宣布Windows 10 PC全面迈向Windows 11 AI+ PC时代。现场展现了来自联想、华硕、机械革命、惠普、戴尔、宏碁、微星、七彩虹、雷神、机械师10家OEM的基于酷睿Ultra处理器(第二代)的AI...

限时先享价7.99万元起 东风纳米06高级辅驾击穿10万级 全能满配新标杆!

5 月 27 日
阅读 3 分钟
312
5月27日,东风纳米旗下“国民智趣纯电SUV”东风纳米06在武汉正式上市,限时先享价为7.99万元-10.99万元。作为一个听劝的品牌,东风纳米06为用户带来7大诚意权益,包括电动尾门和全景天幕限时送、五项终身免费品质保障、中国国家地理联名外观车色限时免费享、最高4000元置换补贴、至高享“5年8万0息”、送3年免费流量、699元...

你还在关注大模型排名?这家公司已在全球收割AI红利,做“真正能交付结果的”Super Agents

5 月 27 日
阅读 7 分钟
291
ChatGPT横空出世三年,生成式AI驱动的AIGC时代,究竟到什么阶段了?这是进入2025以来始终备受关注的新拷问,特别是生成式AI浪潮在商业化和规模化落地上,是否会与上一波AI浪潮展现出不同的速度和表现?昆仑万维最新披露的2024年报,以及今年第一季度财报,或许就能一定程度上对上述问题给出解答和参考。为什么是昆仑万维...

o3不听指令拒绝关机,7次破坏关机脚本!AI正在学会「自我保护」机制

5 月 27 日
阅读 3 分钟
264
AI居然不听指令,阻止人类把自己给关机了???有测试者编写了一个关机脚本来测试AI模型,结果显示Codex-mini、o3、o4-mini忽略了该指令,并至少一次成功破坏了关机脚本。o3甚至还重新定义脚本命令!这不禁让人想到那句经典的“I’m sorry Dave, I’m afraid I can’t do that.”让我们来看看具体是怎么一回事。o3在明确指令...