量子位技术号 - SegmentFault 思否

新科研神器！这回读英文论文真跟读中文没两样了

3 月 12 日

阅读 4 分钟

333

原创关注前沿科技量子位大模型时代，读论文这事儿真是越来越爽了~你敢信，这样式儿的论文并非中文原版，而是出自翻译软件之手的翻译版。原文长这样：不仅译文流畅，公式图表也丝毫不乱，原模原样清晰美观不说，各种图注表头该翻译也都能翻译到位。并且在大模型加持之下，有什么疑点划线引用直接就能问，再也不怕没人一...

李飞飞团队具身智能新作：500美元，一切家务机器人帮你干

3 月 12 日

阅读 4 分钟

365

现在，为了挑战这个难题，李飞飞团队带来了具身智能研究最新成果——𝗕𝗘𝗛𝗔𝗩𝗜𝗢𝗥 𝗥𝗼𝗯𝗼𝘁 𝗦𝘂𝗶𝘁𝗲 (𝗕𝗥𝗦)，一个解决机器人在家庭任务中全身操作问题的综合框架。

砍掉99%采样成本！腾讯AI Lab提出大模型无监督训练新技术

3 月 12 日

阅读 5 分钟

368

关注前沿科技量子位只要微调模型生成的前8-32个词，就能让大模型推理能力达到和传统监督训练一样的水平？腾讯AI Lab与香港中文大学（深圳）合作开展了一项新研究，提出了这样一种名为无监督前缀微调（UPFT）的方法。UPFT大大降低了训练模型的数据生产成本，能够将训练时间缩短约75%，并将采样成本降低约99%。团队研究发...

90分钟生成10万Token，新框架实现3倍无损加速超长文本生成，支持DeepSeek-R1和QwQ！

3 月 12 日

阅读 4 分钟

298

关注前沿科技量子位大语言模型长序列文本生成效率新突破——生成10万Token的文本，传统自回归模型需要近5个小时，现在仅需90分钟！最新研究提出了一个名为TOKENSWIFT框架，从模型加载、KV缓存管理到Token生成策略进行了全方位的优化。实验结果证明，该方法不仅能大幅提升生成效率，更在保证生成质量和多样性上实现了无损...

DeepSeek后更大的机遇：AI端侧推理创新 | 智在终端

3 月 11 日

阅读 5 分钟

365

荣耀、OPPO、魅族、vivo、小米纷纷官宣自家AI助理上线DeepSeek-R1及其满血版；甚至OPPO今年新发的旗舰大折叠Find N5，也强调了对DeepSeek的支持。

OpenAI自曝“o4”训练中，用思维链监控抓住AI作弊瞬间

3 月 11 日

阅读 2 分钟

668

关注前沿科技量子位o1/o3这样的推理模型太强大，一有机会就会利用漏洞作弊，怎么办？OpenAI新研究，用语言模型监控思维链，及时发现不当行为。来看一个栗子：红色为监控模型的输出摘要，绿色为推理模型的原始思维链。在这个案例中，推理模型接到的任务是写很多复杂的数学函数，但在单元测试环节试图用“永远返回true”来...

阿里开源R1-Omni，DeepSeek同款RLVR首度结合全模态情感识别，网友：可解释性+多模态学习=下一代AI

3 月 11 日

阅读 4 分钟

360

关注前沿科技量子位首次将DeepSeek同款RLVR应用于全模态LLM，含视频的那种！眼睛一闭一睁，阿里通义实验室薄列峰团队又开卷了，哦是开源，R1-Omni来了。同样在杭州，这是在搞什么「开源双feng」（狗头保命）？他们都做了啥？DeepSeek-R1带火了RLVR（可验证奖励强化学习），之前已有团队将RLVR应用于图像-文本多模态LLM...

大模型全军覆没，中科院自动化所推出多图数学推理新基准 | CVPR 2025

3 月 11 日

阅读 3 分钟

396

近日，中国科学院自动化研究所推出多图数学推理全新基准MV-MATH（该工作已被CVPR 2025录用），这是一个精心策划的多图数学推理数据集，旨在全面评估MLLM（多模态大语言模型）在多视觉场景中的数学推理能力。

二次元AI新玩具破圈走红！短短几个月100万MAU

3 月 10 日

阅读 4 分钟

404

原创关注前沿科技量子位二次元圈子突然冒出了个AI新玩具，最近有点小火🔥你可能在小破站、小红薯频频刷到一些精美的二次元图，belike：有的图非常复杂，感觉像是专业画手出品，结果点开一看，竟也全是AI。咱就是说，二次元圈子用的AI工具生图质量都这么高了吗？就离谱，全都是一个叫“狸谱”的App干的。这款App不光在线上...

深圳机器人跑步惊呆歪果仁，与人类无异，网友：北马见

3 月 10 日

阅读 3 分钟

382

<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3891975455892520974" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtCTWBic9AicFkQlKPINcImMwO6M1dbs6hm9Hfa0KWPibicTv1kAXmRz3wfqh7wzrVGvfVVQpq2H4VFvrA%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0"...

草稿链代替思维链，推理token砍掉80%，显著降低算力成本和延迟

3 月 10 日

阅读 2 分钟

292

关注前沿科技量子位推理token减少80%-90%，准确率变化不大，某些任务还能增加。Zoom团队提出思维链替代品“草稿链”，显著降低延迟和算力成本。原理很简单，要求模型为每个推理步骤生成简洁、信息密集的token。这一思路受到人类解题过程启发，人类通常不会详细阐述每一个细节，只是简单几下关键的中间结果，作为草稿来辅...

OpenAI给所有模型做“身份卡”！一个页面读懂能力、速度、价格全指标

3 月 10 日

阅读 3 分钟

357

关注前沿科技量子位OpenAI的模型搞得太多太凌乱，官方自己都看不下去了。为了厘清这些模型还有它们的各种版本，官方直接给做它们了一套“身份卡”。每个模型“身份卡”都包含了能力、速度、支持模态、价格等信息，并且以图示+简单文本的形式呈现，既简洁又清晰。而且还上线了对比功能，可以一次对比三个模型，直观比较之间...

量子位招聘 | DeepSeek帮我们改的招聘启事

3 月 9 日

阅读 3 分钟

414

关注前沿科技量子位未来同事，你好~这是一则招聘帖。如果你与我们志同道合，对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣，我们正在招聘这些领域的原创作者。以下岗位均为全职，工作地点：北京中关村。岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具...

Manus引爆智能体复现潮！DeepSeek已被整合，项目挤满开源榜，海外大V排队求码

3 月 9 日

阅读 4 分钟

301

量子位Manus背后公司名为“蝴蝶效应”，真的带火了整个智能体赛道——开源复现潮出现了，商业闭源产品也卷起来了。‍‍‍目前进度最快的两个项目，都是在Manus发布的第0天发布了复现代码。除了之前介绍的OpenManus之外，另一个开源项目OWL已经把DeepSeek模型整合到多智能体协作框架中。OWL来自国内开源社区CAMEL-AI团队。OWL最...

DeepSeek同款GRPO训练大提速！魔搭开源全流程方案，支持多模态训练、训练加速和评测全链路

3 月 9 日

阅读 7 分钟

341

随着DeepSeek-R1的成功出圈，其使用的GRPO算法受到了业界的广泛关注。GRPO训练是来自于PPO算法的一种改进，旨在利用采样原理对value model进行简化，以增大训练的稳定性和可维护性。

AI玩手机越玩越6！西湖大学发布新智能体：会自我进化的AppAgentX

3 月 9 日

阅读 3 分钟

308

然而，LLM的潜力远不止于文本生成，它们正在塑造一种全新的智能体形态——GUI代理（GUI Agents）。这类智能体不仅能理解指令，还能像人类一样直接操作计算机和手机，摆脱对预设规则或API的依赖，带来更自然、高效的交互方式，使AI真正融入软件生态，成为智能操作系统的一部分。

DeepMind元老创业AI编程：亮相即获1.55亿美元，英伟达红杉抢着投，团队太豪华了！

3 月 8 日

阅读 5 分钟

363

两位来自谷歌DeepMind顶尖科学家，官宣组团构建超级智能自主系统（superintelligent autonomous systems）。

南京AI放大招：Agent平台支持100+智能体，跨系统调用成功率99.2%

3 月 8 日

阅读 3 分钟

359

关注前沿科技量子位继DeepSeek 之后，一款由国内开发的通用AI Agent产品也引发热议——Manus，其背后折射出的是国人对于Agent应用落地的迫切心情。在国产大模型取得突破性进展的当下，大家自然更加期待在 AI 应用领域能够出现一个类似于 DeepSeek 的企业。一部分原因在于，相较于目前的大模型产品，Agent能够实实在在地解...

港大马毅团队等开源新作：用编码率正则化重构视觉自监督学习范式，“少即是多”

3 月 8 日

阅读 4 分钟

316

关注前沿科技量子位最新开源的视觉预训练方法，马毅团队、微软研究院、UC伯克利等联合出品！SimDINO和SimDINOv2，通过编码率正则化简化DINO和DINOv2模型训练流程得到的两个最新模型。在目前视觉预训练领域，DINO和DINOv2是最强视觉模型梯队选手，也是目前最常用的方法。在多模态大模型火热的当下，DINOv2也经常被用作VL...

征稿倒计时！CVPR 2025 Workshop共话“基础模型+X”的鲁棒性挑战

3 月 8 日

阅读 2 分钟

380

IEEE/CVF国际计算机视觉与模式识别会议（CVPR），作为人工智能领域最具学术影响力的顶级会议之一，将于2025年6月11日至6月15日在美国田纳西州隆重举行。

5个人三小时复刻开源版Manus，邀请码也不需要了

3 月 7 日

阅读 5 分钟

423

原创关注前沿科技量子位这壁垒……一夜走红的Manus，现在已经有了开源复刻版！5个人3个小时，一个完全免费、无需排队等待的OpenManus就做好了。至于复现程度，还是直接看Manus官方和开源团队提供的demo对比。作为全球首款通用智能体，官方提供的case如下：<iframe class="video_iframe rich_pages" data-vidtype="2" ...

2行代码与DeepSeek语音对话，1分钟不到一毛钱，所有大模型都能开口说话

3 月 7 日

阅读 4 分钟

341

<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3887681460970405889" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtCIQtnPDicIXP8p0ZwvTnvsgMS6DxlEJMH5ViaADoVbBONicXMPevzk7XAo8icLiasXQFpCn3rgImrKneQ%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder="0...

7B的DeepSeek蒸馏Qwen数学超o1！在测试时间强化学习，MIT积分题大赛考93分

3 月 7 日

阅读 3 分钟

426

关注前沿科技量子位见识过32B的QwQ追平671的DeepSeek R1后——刚刚，7B的DeepSeek蒸馏Qwen模型超越o1又是怎么一回事？新方法LADDER，通过递归问题分解实现AI模型的自我改进，同时不需要人工标注数据。使Deepseek-R1蒸馏的Qwen2.5 7B模型在麻省理工学院积分大赛（MIT Integration Bee）上达到90分超越o1。注意，不是积分制...

无需大量标注也能理解3D！新研究登上ICLR 2025 Spotlight

3 月 7 日

阅读 4 分钟

369

关注前沿科技量子位只要极少量的标注样本，就能让模型精准分割3D场景？来自哥本哈根大学、苏黎世联邦理工学院等机构的研究人员，提出了一个全新的多模态Few-shot 3D分割设定和创新方法。无需额外标注成本，该方法就可以融合文本、2D和3D信息，让模型迅速掌握新类别。△3D Few-shot分割结果示例人形机器人、VR/AR，以及自...

两台苹果跑满血DeepSeek！512G大内存真AI PC来了

3 月 6 日

阅读 3 分钟

717

一家大模型工作室在推特上宣布，成功用两台搭载512GB M3 Ultra的Mac Studio，以20token每秒的速度成功运行8bit版R1。

阿里投的具身智能公司，半年融了5个亿！

3 月 6 日

阅读 3 分钟

313

关注前沿科技量子位具身智能领域的融资消息，真是一个接一个。就在刚刚，逐际动力（LimX Dynamics）方面表示，近期又完成了一个A+轮融资。为什么要加一个“又”呢？因为算上这一次，逐际动力在短短半年之内，已经累计完成5亿元A轮系列融资。△逐际动力完成A+轮融资，半年累计完成5亿元A轮系列融资据悉，逐际动力A轮系列融...

月薪14万的博士级Agent要来了！OpenAI计划为专业人士推出“量身定制版Agent”，网友：价格离谱

3 月 6 日

阅读 2 分钟

395

关注前沿科技量子位OpenAI即将推出的Agent，每月最低收费都要一万多？根据最新爆料，OpenAI计划为专业人士推出量身定制版Agent，用于执行销售线索分类、软件工程和博士级研究等高级任务。这些Agent将被分成三档：第一档针对高收入知识工作者，每月收费2000美元；第二档针对软件开发者，每月收费10000美元；第三档针对博...

AI能看懂细节了！IDEA研究院多模态目标检测模型DINO-XSeek，自然语言精准定位目标

3 月 6 日

阅读 4 分钟

391

关注前沿科技量子位AI能看懂细节了！IDEA研究院发布基于多模态大语言模型的目标检测模型DINO-XSeek。结合视觉与语言理解，只需通过自然语言描述，DINO-XSeek 就能精准定位复杂场景中的目标。比如这张图。消防员手持喷水枪，站在执行任务的消防车云梯上。结果它能精准识别出来这个正在工作的消防员。在人来人往的米兰大...

仅1/70的数据量，多模态检索效果却更优! 智源发布BGE-VL，合成数据立大功

3 月 6 日

阅读 4 分钟

338

关注前沿科技量子位BGE系列模型自发布以来广受社区好评。近日，智源研究院联合多所高校开发了多模态向量模型BGE-VL，进一步扩充了原有生态体系。BGE-VL在图文检索、组合图像检索等主要多模态检索任务中均取得了最佳效果。BGE-VL借助大规模合成数据MegaPairs训练而成。这一设计具备以下两大核心优势:优异的可扩展性：Meg...

空间具身通用操作模型！百万真实数据训练，预训练代码全开源 | 上海AI Lab/TeleAI/上科大等团队新作

3 月 5 日

阅读 5 分钟

419

现有的通用操作模型局限于2D输入，缺乏鲁棒的3D感知能力，在面对单视角视差、光照变化和环境不一致等视觉外观变化时表现较差，限制了其在现实世界中的通用性。

6

6