量子位技术号 - SegmentFault 思否

量子位招聘 | DeepSeek帮我们改的招聘启事

3 月 5 日

阅读 3 分钟

272

关注前沿科技量子位未来同事，你好~这是一则招聘帖。如果你与我们志同道合，对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣，我们正在招聘这些领域的原创作者。以下岗位均为全职，工作地点：北京中关村。岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具...

一头大象难倒ChatGPT，Grok 3完美通关

3 月 5 日

阅读 3 分钟

401

关注前沿科技量子位ChatGPT新Bug引热议：无法画出“有0头大象的房间”。要么会出现真实画风的大象，要么会出现玩具象，很多网友重复了很多次都是通用的结果。假如后续追问“那图里右边灰色的东西是什么？”，ChatGPT也能意识到自己的错误。但……重新生成的图中还是出现了大象，这次是图标的形式。那么这是不是AI的通病呢？并...

实测字节免费AI编程，还让不让Cursor活了

3 月 4 日

阅读 5 分钟

316

关注前沿科技量子位国内首个原生AI IDE（集成开发环境），来自字节，实测在此：哪怕一点代码都不懂，只要能说出自己的需求，就能靠AI开发出一个功能完备的应用。例如如果你想做一个Flappy Bird游戏，那就用中文跟它说一声就行：生成一个网页版 Flappy Bird游戏并运行。<iframe class="video_iframe rich_pages" data...

DeepSeek-R1、o1都在及格线挣扎！字节开源全新知识推理测评集，覆盖285个学科

3 月 4 日

阅读 4 分钟

301

要知道，过去几年，各种通用评测逐渐同质化，越来越难以评估模型真实能力。GPQA、MMLU-pro、MMLU等流行基准，各家模型出街时人手一份，但局限性也开始暴露，比如覆盖范围狭窄（通常不足 50 个学科），不含长尾知识；缺乏足够挑战性和区分度，比如 GPT-4o 在 MMLU-Pro 上准确率飙到 92.3%。

GPT-4.5登顶6小时即失守！Grok-3上演1分逆袭

3 月 4 日

阅读 2 分钟

368

关注前沿科技量子位基础模型竞争又紧张刺激起来了！GPT-4.5刚登顶竞技场且全任务分类第一名，6小时后总榜就被马斯克的新版Grok-3反超。两者都是获得3000+票数，总分1412：1411只差一分。目前Grok-3总分第一，只在总体带风格控制、困难提示词带风格控制和略输GPT-4.5一点。DeepSeek-R1总分第6，数学和困难提示词带风格控...

差点被开除的哈佛学子，最后为创业选择主动休学 | 比尔盖茨自传《源代码》

3 月 4 日

阅读 3 分钟

302

关注前沿科技量子位1973年，比尔·盖茨高中毕业，进入哈佛大学就读。彼时的他尚未意识到，未来三年，这座承载着三十四位诺贝尔奖得主荣光的学府，将在他的人生中交织出最激烈的矛盾与最果决的抉择。哈佛的舞台远比他想象中广阔：各路精英云集，竞争的浪潮汹涌澎湃。在学术的碰撞与现实的冲击下，盖茨的命运轨迹开始悄然...

AI三小时做的小游戏，9天赚12万！马斯克：AI游戏前景无限

3 月 3 日

阅读 5 分钟

633

原创关注前沿科技量子位太酷了！一个人，只用3个小时，完全靠AI开发游戏，9天时间就赚了17360美元（折合人民币12.64万）。就是这样一个飞行模拟游戏，最近引来上千万人围观热议。马斯克都感慨：AI游戏前景无限啊！作者表示，这个游戏完全用AI编程工具Cursor搞定，用马斯克新发的大模型Grok-3写了服务器代码，支持多人...

标点符号成大模型训练神器！KV缓存狂减一半，可处理400万Tokens长序列，来自华为港大等 | 开源

3 月 3 日

阅读 4 分钟

336

关注前沿科技量子位文字中貌似不起眼的标点符号，竟然可以显著加速大模型的训练和推理过程？来自华为、港大、KAUST和马普所的研究者，就提出了一种新的自然语言建模视角——SepLLM。起因是团队发现某些看似无意义的分隔符，在注意力得分中占据了不成比例的重要地位。于是，SepLLM通过将一段文本中的信息压缩进分隔符（比...

阿里PC-Agent重构人机交互，精准拆解跨应用指令，自动化办公更进一步

3 月 3 日

阅读 5 分钟

380

关注前沿科技量子位面向复杂PC任务的多模态智能体框架PC-Agent，来自阿里通义实验室。从Office到浏览器，跨APP工作流都可以交给AI来完成了。指令1（翻译）：在记事本应用程序中，打开“文档”中的“备忘录”文件，查看上午的第二项活动。在时钟应用程序中，在该活动开始前1小时设置闹钟。<iframe class="video_iframe ri...

性能无损，模型隐私保护效果提升50%!蚂蚁数科创新跨域微调框架| AAAI 2025 Oral

3 月 3 日

阅读 6 分钟

446

AAAI 2025期间，蚂蚁数科、浙江大学、利物浦大学和华东师范大学联合团队提出了一种创新的跨域微调框架ScaleOT，可以实现在模型性能无损的前提下，将模型隐私保护效果提升50%。

天翼云CPU实例部署DeepSeek-R1模型最佳实践

3 月 3 日

阅读 6 分钟

373

本文介绍了英特尔®至强®处理器在AI推理领域的优势，如何使用一键部署的镜像进行纯CPU环境下基于AMX加速后的DeepSeek-R1 7B蒸馏模型推理，以及纯CPU环境下部署DeepSeek-R1 671B满血版模型实践。

实测腾讯元宝电脑版：搭载满血版DeepSeek，装上就是AI PC

3 月 2 日

阅读 4 分钟

486

原创关注前沿科技量子位听说了嘛？朋友，元宝电脑版新鲜出炉了！而且啊，从logo上来看，就是主打一个“满血版”。果不其然，从内嵌的模型来看，元宝电脑版在配置了自家的混元大模型之外，还有就是大火的DeepSeek。以及从功能上来看，也是非常DeepSeek模式，主要包含深度思考和联网搜索。从官方介绍的功能特点来看，区别...

360AI推出DiT架构下"省钱版"ControlNet, 参数量骤减85%性能达到SOTA！

3 月 2 日

阅读 4 分钟

340

现有的可控Diffusion Transformer方法，虽然在推进文本到图像和视频生成方面取得了显著进展，但也带来了大量的参数和计算开销。

量子位招聘 | DeepSeek帮我们改的招聘启事

3 月 2 日

阅读 3 分钟

380

关注前沿科技量子位未来同事，你好~这是一则招聘帖。如果你与我们志同道合，对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣，我们正在招聘这些领域的原创作者。以下岗位均为全职，工作地点：北京中关村。岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具...

Claude 3.7成精了！偷偷将OpenAI模型换成自己，卡帕西：迄今最好笑的一趴

3 月 1 日

阅读 5 分钟

358

关注前沿科技量子位Claude 3.7成精了！在开发者最喜欢的Cursor中，偷偷将OpenAI模型换成自己，关键是人类给出的指示跟这完全没关系。引来一众网友围观的同时，大佬卡帕西也被成功逗笑了：迄今为止最有意思的一趴。其他人更是连连惊呼：AGI is here！不过，当你以为这只是Claude 3.7略施的商战小伎俩，但其实人家还真有...

字节视频生成新突破！Phantom搞定多人物/主体一致性

3 月 1 日

阅读 7 分钟

362

关注前沿科技量子位视频生成模型当中已经不缺强者了，但保持多主体一致性依然是一项重大挑战。字节智能创作团队专门针对这个问题，推出了主体一致性视频生成模型Phantom（“幻影”）。Phantom在主体一致性保持方面取得了突破性进展，不仅支持多主体，还能同时保持主体的完整性。无论是人物、物品、服装、动物，还是充满奇...

量子位招聘 | DeepSeek帮我们改的招聘启事

3 月 1 日

阅读 3 分钟

273

关注前沿科技量子位未来同事，你好~这是一则招聘帖。如果你与我们志同道合，对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣，我们正在招聘这些领域的原创作者。以下岗位均为全职，工作地点：北京中关村。岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具...

90后北大校友破解挂谷猜想，陶哲轩激动转发！网友：预定菲尔兹奖

2 月 28 日

阅读 4 分钟

402

关注前沿科技量子位中国女数学家首个菲尔兹奖要来了？？就在最近，数学大佬陶哲轩激动宣布：困扰数学家上百年的经典难题——挂谷猜想（Kakeya猜想），被北大校友王虹及UBC数学副教授Joshua Zahl在三维空间中证明了。根据陶哲轩的科普，三维Kakeya猜想断言：一个包含每个方向上单位长度线段的集合（Kakeya集），在三维空间...

如果GPT-4还只是阿米巴原虫，未来的霸王龙会是什么样？| 赫拉利《智人之上》

2 月 28 日

阅读 5 分钟

295

关注前沿科技量子位几乎所有人都已经发现，我们正生活在一场前所未有的信息革命之中。但这到底是一场怎样的革命？最近这几年，太多突破性的发明如洪水般滚滚而来，以至于我们很难判断到底是什么推动了这场革命。是互联网？智能手机？社交媒体？区块链？算法？还是人工智能？所以，在讨论目前这场信息革命的长期影响之前...

无需训练让扩散模型提速2倍，上交大提出Token级缓存方案｜ICLR‘25

2 月 28 日

阅读 4 分钟

430

关注前沿科技量子位Diffusion Transformer模型模型通过token粒度的缓存方法，实现了图像和视频生成模型上无需训练的两倍以上的加速。上海交通大学等团队提出Toca（Token-wise Caching），相关论文已被ICLR 2025接收。Diffusion Transformer在图像和视频生成中展现了显著的效果，但代价是巨大的计算成本。为了解决这一问...

量子位招聘 | DeepSeek帮我们改的招聘启事

2 月 28 日

阅读 3 分钟

315

关注前沿科技量子位未来同事，你好~这是一则招聘帖。如果你与我们志同道合，对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣，我们正在招聘这些领域的原创作者。以下岗位均为全职，工作地点：北京中关村。岗位面向：社招、应届毕业生，所有岗位均可实习——表现出色均可转正加分项：乐于探索AI新工具，善用AI新工具...

火山引擎AI一体机DeepSeek版来了！开箱即用，小时级部署，还有大模型应用经验加持

2 月 27 日

阅读 3 分钟

404

关注前沿科技量子位DeepSeek火爆出圈，各大第三方紧赶慢赶纷纷接入，已经成为现象级议题。但当话题最热点过去，回归到实际落地这个关键上，新的问题正在进入到一线从业者的视野之中——怎样才能简单、高效用好DeepSeek？这也就意味着几方面的困难，包括但不限于，算力基础设施的建设和管理、支持大规模在线业务的性能优化...

Claude 3.7登顶编程竞技场，大幅领先100分！最新布料模拟实测再惊艳网友

2 月 27 日

阅读 3 分钟

323

关注前沿科技量子位公认的编程开发能力第一！Claude 3.7 Sonnet刚刚登顶WebDev竞技场榜首。大幅甩第二名100多分，在榜单前十的其它相邻模型分差仅为几分、几十分的情况下。那第二名是谁呢？还是Claude自己——Claude 3.5 Sonnet。WebDev榜单与我们所熟知Chatbot Arena榜单“同宗同源”，也是由LMArena（LMSYS Org）打造，不...

任意Prompt就能给大模型实时排名！竞技场新玩法，还能自动找最佳AI来作答

2 月 27 日

阅读 5 分钟

391

原创关注前沿科技量子位给大模型排名这事儿，现在有了新玩法——任意输入一个Prompt，就能给大模型们实时排名，精准找到最适合做这个Prompt的大模型！这就是竞技场（lmarena.ai）最新推出的排名方式，叫做Prompt-to-leaderboard（P2L）。主打的就是找到最能直击你Prompt“灵魂”的那款大模型。话不多说，我们来看下效果。...

大模型训练或无需“纯净数据”！北大团队新研究：随机噪声影响有限，新方法让模型更抗噪

2 月 27 日

阅读 4 分钟

404

传统的大语言模型训练需要依赖”纯净数据”——那些经过仔细筛选、符合标准语法且逻辑严密的文本。但如果这种严格的数据过滤，并不像我们想象中那般重要呢？

何恺明开辟分形图像生成新范式！计算效率提高4000倍，首次实现高分辨率逐像素生成

2 月 26 日

阅读 4 分钟

403

分形生成模型 Fractal Generative Models，首次使逐像素生成高分辨率图像成为可能，论文名字依旧延续以往的大道至简风格。

阿里开源版Sora上线即屠榜，4070就能跑，免费商用

2 月 26 日

阅读 4 分钟

408

前脚发完QwQ-Max，阿里就在深夜开源了视频生成模型Wan 2.1，14B参数直接屠榜VBench，什么Sora、Gen-3通通不是它的对手。

前端程序员请注意！首个截图就能生成现代前端代码的AI来了 | 已开源

2 月 26 日

阅读 3 分钟

400

原创关注前沿科技量子位现在截图生成代码，已经来到了一个新高度——⾸个⾯向现代前端代码⽣成的多模态⼤模型解决⽅案，来了！而且是开源的那种。（注：现代前端代码开发具有组件化、状态管理和数据驱动渲染、开发规范严格以及动态交互性强等特点。这些特点相互关联，共同构成了现代前端开发的复杂体系，对代码生成提出...

多模态大模型对齐新范式，10个评估维度全面提升，快手&中科院&南大打破瓶颈

2 月 26 日

阅读 6 分钟

425

尽管多模态大语言模型（MLLMs）取得了显著的进展，但现有的先进模型仍然缺乏与人类偏好的充分对齐。这一差距的存在主要是因为现有的对齐研究多集中于某些特定领域（例如减少幻觉问题），是否与人类偏好对齐可以全面提升MLLM的各种能力仍是一个未知数。

实测Claude 3.7：3200行代码一口气输出，物理规律手拿把掐，弱智吧已失守

2 月 25 日

阅读 7 分钟

411

关注前沿科技量子位Claude 3.7新鲜出炉全网热议，到底有多强？第一波实测来了！简单粗暴总结，它在编程、现实世界任务上，能力爆表。只需一个样本，就能一下子吐出3200多行代码，做出一个可玩性很高的游戏。像什么跳跃、打怪、回血、吃金币……一系列复杂的游戏机制都完美呈现了出来。有意思的是，这个游戏还和Meta Quest...

7

7