AI说书媲美真人!豆包语音大模型升级长上下文理解

2 月 25 日
阅读 2 分钟
334
实际上这两个小说片段都是AI合成的,方案来自于豆包语音模型团队。为了逼近一流真人主播的演播效果,豆包语音模型基于原有Seed-TTS框架进一步加入上下文理解,最终实现了高表现力、高自然度、高语义理解的小说演播效果。

AI蛋白质设计前沿教程,AAAI'25三大机构携手4小时全面剖析

2 月 25 日
阅读 3 分钟
436
在即将举行的AAAI 2025会议上,加拿大魁北克省人工智能研究所Mila、美国东北大学和MIT的学者将组织一场主题为“人工智能在蛋白质设计中的应用”的教程。

只给一张图,AI找到对应合适BGM,央音清华等构建全球化音乐信息检索新范式

2 月 25 日
阅读 6 分钟
367
<iframe class="video_iframe rich_pages" data-vidtype="2" data-mpvid="wxv_3867690323610386441" data-cover="http%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FYicUhk5aAGtAZoBoWFtNkYJW3ic5Yviciap6DADiaQyNjK2riaZNaPJlDictC15fB3KVraOHdKmMuOLGibqVuhCRCHsILA%2F0%3Fwx_fmt%3Djpeg" allowfullscreen="" frameborder=...

量子位招聘 | DeepSeek帮我们改的招聘启事

2 月 25 日
阅读 3 分钟
290
关注前沿科技 量子位未来同事,你好~这是一则招聘帖。如果你与我们志同道合,对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣,我们正在招聘这些领域的原创作者。以下岗位均为全职,工作地点:北京中关村。岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正加分项:乐于探索AI新工具,善用AI新工具...

Zero-shot重建物理高斯资产,清华&光轮视觉大模型让机器人理解物理属性|ICRA 2025

2 月 24 日
阅读 4 分钟
452
关注前沿科技 量子位理解物体的物理属性,对机器人执行操作十分重要,但是应该如何实现呢?光轮智能与清华AIR、同济大学等机构联合提出了一种基于3D高斯溅射的方法——PUGS(Zero-shot Physical Understandingwith Gaussian Splatting)无需训练、零样本,它就能够从多视角图像中重建物体,并对各种指定的物理属性进行密集...

量子位招聘 | DeepSeek帮我们改的招聘启事

2 月 24 日
阅读 3 分钟
338
关注前沿科技 量子位未来同事,你好~这是一则招聘帖。如果你与我们志同道合,对AI大模型、具身智能、终端硬件、AI新媒体编辑感兴趣,我们正在招聘这些领域的原创作者。以下岗位均为全职,工作地点:北京中关村。岗位面向:社招、应届毕业生,所有岗位均可实习——表现出色均可转正加分项:乐于探索AI新工具,善用AI新工具...

全球最快AI视频生成火了,5秒让老黄马斯克拥抱,Made in China

2 月 24 日
阅读 7 分钟
396
原创 关注前沿科技 量子位国产AI上大分的节奏,根本停不下来——就在刚刚,全球最快的AI视频生成,正式来袭!有多快呢?数个1、2、3、4、5(五秒钟),啪的一下,一个高质量的AI视频就生成出来了。划重点:这次还不只是速度,这个国产AI还做到了把声音还给视频——是人声、背景声……声声不息的那种。现在,我们就来听一段视频...

DeepSeek一夜把百度干回20年前,网友:还有这好事?

2 月 24 日
阅读 4 分钟
309
原创 关注前沿科技 量子位没完了,刚刚接入DeepSeek的百度,又双叒叕搞事情了。最新消息,“百度一下 你就知道”这条2005年开始伴随着中国用户度过了互联网黄金岁月的Slogan,回归了。有意思的是,这种“炒冷饭”的行为在大厂中已经出现了人传人的现象。我们还观察到,淘宝重提“万能的淘宝”、京东重温“又好又便宜”……大厂集体...

如何让大模型感知知识图谱知识?蚂蚁联合实验室:利用多词元并行预测给它“上课”

2 月 24 日
阅读 4 分钟
348
大语言模型的飞速发展打破了许多自然语言处理任务间的壁垒。通常情况下,大语言模型以预测下一个词元(Token)为训练目标,这与许多自然语言处理任务十分契合。

还得是上海!百亿级大模型项目现场对接,只用3天

2 月 23 日
阅读 3 分钟
335
原创 关注前沿科技 量子位DeepSeek彻底引爆大模型应用落地。国民级APP争相接入,手机、汽车、甚至扫地机器人都来凑热闹,借着DeepSeek的东风,不断刷新自身“AI浓度”。当然,还有普通人的主动拥抱。医生、老师等来自各个行业的个体也都在尝试AI能给自己的工作、生活带来怎样的改变。一场波及全社会范围的AI风暴,正在快速...

中科闻歌发布智川X-Agent平台、优雅音视频大模型更新,领先技术加速AI普惠落地

2 月 23 日
阅读 7 分钟
435
2月22日,中科闻歌2025 AI新产品线上发布会成功举办,升级发布“智川”企业智能体平台1.0与“优雅”音视频大模型平台1.5,助力政企极速落地AI应用与创意灵感,让AI技术精细化满足真实业务场景,加速AI普惠落地。

多模态大模型事实正确性评估:o1最强,模型普遍过于自信,最擅长现代建筑/工程技术/科学

2 月 23 日
阅读 4 分钟
320
该基准测试包含2200个高质量问题,覆盖了8个主要话题和56个子话题,这些问题涉及从人文到科学和工程等多个领域,由淘天集团未来生活实验室团队推出。

AI写代码新姿势:一个截图,代替千行代码

2 月 22 日
阅读 7 分钟
389
原创 关注前沿科技 量子位现在写代码,最fashion的“姿势”应该是什么?答案或许就是:截图。没错,就像这样,先随便找个网页,截取想要的那部分界面,然后“喂”给AI,并附上一句Prompt:参考这个页面,生成一个类似的HTML页面。只是一张图和一句话,AI就“唰唰唰”的把代码给写出来了。有了这个功能,前端程序员搞简单的页面...

1/30训练步骤复刻DeepSeek-R1-Zero,沈向洋姜大昕张祥雨等开源推理模型RL训练方法

2 月 22 日
阅读 2 分钟
397
关注前沿科技 量子位DeepSeek啥都开源了,就是没有开源训练代码和数据。现在,开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。国内大模型六小强之一的阶跃星辰联与清华联合发布Open Reasoner Zero(ORZ),由AI大拿沈向洋、阶跃星辰创始人/CEO姜大昕、ResNet作者张祥雨等一众大佬亲...

DeepSeek、OpenAI、Kimi视觉推理到底哪家强?港中文MMLab推出推理基准MME-COT

2 月 22 日
阅读 4 分钟
480
OpenAI o1和DeepSeek-R1靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢?

阶跃Agent生态首曝光:手机汽车IoT机器人全覆盖,千行百业唰唰落地

2 月 21 日
阅读 5 分钟
400
原创 关注前沿科技 量子位扳指头一算,DeepSeek“哪吒闹海”到现在,居然才刚刚1个月整?!这场春节暴击的余波未平,就在今天,国内大模型六小强之一的阶跃星辰,用一场Step UP生态开放日来回应被搅动的风云——卷技术,更要卷落地。“要期待明年春节的AI可能更强。”生态开放日上,阶跃星辰创始人兼CEO姜大昕调侃呼吁,但最好...

OpenAI实名举报Grok3作弊,一题答64次踩着台阶和o3-mini比

2 月 21 日
阅读 3 分钟
549
关注前沿科技 量子位Grok-3才发布3天,就陷入作弊风波。隔壁OpenAI应用主管火速掀桌:每次评估中o3-mini都要比Grok-3好,看到Grok团队作弊真是令人失望。咋回事?在Grok-3的Blog中有一张AIME 2025评估图令人印象深刻,两个新版本模型都超过o3-mini高配版。但注意看,Grok-3两个模型的柱状图中都有1段颜色更浅的部分。Ope...

单张3090让大模型“看”《黑悟空》,港大百度发布VideoRAG

2 月 21 日
阅读 7 分钟
376
关注前沿科技 量子位处理数百小时超长视频,单张3090就够了?!这是来自香港大学黄超教授实验室发布的最新研究成果——VideoRAG。具体而言,VideoRAG可以在单张RTX 3090 GPU (24GB)上高效处理长达数百小时的超长视频内容。这意味着只需要一张普通的显卡,就能一口气完整观看一部《黑悟空》这样的长视频。此外,VideoRAG还...

视觉定位新范式!清华团队推出Migician,支持任意形式多图定位

2 月 21 日
阅读 5 分钟
511
关注前沿科技 量子位一个眼神锁定你!多模态视觉定位能力升级——由单张图像拓展至多图像应用场景。比如,在复杂的相册中自动识别出Luigi并在第二张图中找到他,或是根据钢铁侠剧照自动在合影中找到对应的演员唐尼。Q:Image-1 is the photo album of someone in Image-2, please find and locate this person.回答:(371,...

Nature认证DeepSeek成科研工具全能者,国内高校如何借力大模型?

2 月 20 日
阅读 6 分钟
371
原创 关注前沿科技 量子位DeepSeek的风,也是飘到了科研领域——最新消息,同济大学通过百度智能云千帆大模型平台接入并调用DeepSeek-R1/V3系列模型;包括浙大、北大清华等知名高校也是纷纷出动,要么接入模型推出智能体,又或者出品干货课程、使用手册《从入门到精通》等等,几度都登上热搜。Nature更是几度发文,因为Dee...

手掌大小芯片碾压全球算力!微软量子计算核弹级突破,纳德拉:构建全新物质状态

2 月 20 日
阅读 4 分钟
465
关注前沿科技 量子位想象一下,一个放在手掌上的芯片,能解决当今地球上所有计算机加起来都无法解决的问题。Nature报道:量子计算,再迎新突破——微软推出Majorana 1,这是首款基于新型拓扑核心架构的量子芯片。官方称,有望在数年内实现能够解决工业级别规模问题的量子计算机。这里官方还特意标注了下:不是几十年,而是...

简单示例提升DeepSeek-R1美国数学邀请赛AIME分数:以步骤为粒度对齐上下文学习与推理

2 月 20 日
阅读 4 分钟
372
关注前沿科技 量子位仅需简单提示,满血版DeepSeek-R1美国数学邀请赛AIME分数再提高。上海交大、港中文、上海AI实验室等带来最新成果BoostStep对齐推理和上下文学习粒度,大幅提升上下文学习性能,突破少样本学习上限。大语言模型使用多步推理解决复杂数学问题,即先将复杂问题分解为多个步骤并逐步进行推理。研究人员实...

小红书等给AI图像检测上难度!数据集均通过人类感知“图灵测试” | ICLR 2025

2 月 20 日
阅读 5 分钟
485
关注前沿科技 量子位AI生成内容已深度渗透至生活的方方面面,从艺术创作到设计领域,再到信息传播与版权保护,其影响力无处不在。然而,随着生成模型技术的飞速发展,如何精准甄别AI生成图像成为业界与学界共同聚焦的难题。来自小红书生态算法团队、中科大、上海交通大学联合提出行业稀缺的全人工标注Chameleon基准和行...

报名启动!今年最值得关注的AIGC企业/产品正在评选中

2 月 20 日
阅读 2 分钟
371
时值第三届中国AIGC产业峰会,量子位将根据过去一年里AIGC企业、产品的表现与反馈,结合对2024年技术与场景的观察,评选出年度AIGC奖项:

DeepSeek满血微调秘籍开源!站在巨人肩膀打造私有模型,一手教程在此

2 月 19 日
阅读 3 分钟
527
关注前沿科技 量子位DeepSeek爆火甚至引发API低价内卷……但是别忘了开源模型的最大好处是提供了“巨人的肩膀”啊!微调DeepSeek-V3/R1,低成本打造高质量私有模型、提高业务竞争力,或许才是当下行业内更迫切的需求。就在刚刚,已收获近4万GitHub StarColossal-AI发布开源大模型后训练工具箱,它包含:DeepSeek-V3/R1满血67...

宇树机器人跳舞被疑AI合成,王兴兴发新视频自证,小红书:还是疑似AI合成

2 月 19 日
阅读 4 分钟
410
原创 关注前沿科技 量子位“这机器人绝对是AI或CG合成的!”“这也太假了。”在一片质疑声之下,宇树科技CEO王兴兴在小红书上发了段自家机器人的最新视频:这段视频是宇树G1机器人的实拍,最大特点就是在机器人后边放了块大镜子。而且视频没有配任何BGM,纯纯现场实录,来感受一下这个feel:<iframe class="video_iframe ...

Llama都在用的RoPE有了视频版,复旦上海AI Lab等提出长视频理解/检索绝佳拍档

2 月 19 日
阅读 4 分钟
373
关注前沿科技 量子位Llama都在用的RoPE(旋转位置嵌入)被扩展到视频领域,长视频理解和检索更强了。复旦大学、上海AI实验室等提出VideoRoPE,并确定了将RoPE有效应用于视频所需的四个关键特性。在长视频检索、视频理解和视频幻觉等各种下游任务中,VideoRoPE始终优于先前的RoPE变体。用三维结构保留时空关系RoPE是一种...

全球最大开源视频模型,现在也Created in China了,阶跃出品

2 月 18 日
阅读 6 分钟
441
原创 关注前沿科技 量子位刚刚,阶跃星辰联合吉利汽车集团,开源了两款多模态大模型!新模型共2款:全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型,其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议,可任意编辑和商业应用。...

嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁

2 月 18 日
阅读 4 分钟
442
关注前沿科技 量子位用扩散模型替代自回归,大模型的逆诅咒有解了!人大高瓴人工智能研究院、蚂蚁共同提出LLaDA(a Large Language Diffusion with mAsking)。LLaDA-8B在上下文学习方面与LLaMA3-8B能力相当,而且在反转诗歌任务中超越GPT-4o。在大语言模型领域,反转诗歌是一个特殊任务,它用来评估模型在处理语言模型的...

OpenAI突宣开源计划:端侧模型or小模型二选一!奥特曼在线征集投票

2 月 18 日
阅读 3 分钟
433
关注前沿科技 量子位就在刚刚,奥特曼发了个推特,轻描淡写透露了个大消息:For our next open source project……读到第一句,咱就眼前一亮,OpenAI居然又要有开源项目了?!仔细读完整条推文,居然是真的。奥特曼这条推文就是向大家征集,OpenAI的下一个开源项目,到底是做啥更好。方案1,做一个非常小,仍需要在GPU上运...