SF
量子位
量子位
注册登录
关注博客
注册登录
主页
关于
RSS
苹果发现模型蒸馏Scaling Law!教师模型并非越强越好
量子位
2 月 14 日
阅读 3 分钟
大模型蒸馏也有Scaling Law了!苹果最新研究,发现了蒸馏过程中学生模型和教师模型能力之间的幂律关系。值得关注的是,蒸馏过程当中的教师模型,并不是越强越好。他们发现,学生模型的损失随教师模型损失降低整体呈下降趋势,但如果教师模型能力过强,学生模型性能反而会恶化。并且存在一个学生模型相对教师模型学习能力...
配这种CPU,GPU单卡就能跑满血DeepSeek-R1,至强+AMX让预填充速度起飞
量子位
2 月 14 日
阅读 4 分钟
而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。
Claude 4被曝发布在即!被DeepSeek逼得都把大招拿出来了
量子位
2 月 14 日
阅读 2 分钟
简单来说,就是既带有推理能力,会使用更多的算力来思考和解决难题;在面对简单问题的时候,又能像传统大模型一样短平快地轻巧处理,无需多费不必要的功夫。
学而思今天正式发布接入DeepSeek的全新“随时问”APP
量子位
2 月 14 日
阅读 2 分钟
学而思今天正式发布接入DeepSeek的全新“随时问”APP。该产品深度融合DeepSeek R1智能推理,依托学而思22年教研沉淀,现面向全国中小学生免费开放,提供苏格拉底式启发学习模式,支持题目分步解析、无限追问和智能错题管理,助力构建科学学习体系。
国产4D雷达迎来芯玩家!首次发声即回片成功,文远知行旧部创办
量子位
2 月 14 日
阅读 4 分钟
智能驾驶DeepSeek时刻,“激光雷达杀手”迎来新玩家。蛇年开年,比亚迪和长安振臂一呼,各路巨头纷纷响应“全民智驾”。普及智驾,关键在于成本,这也是行业长期关注的热点话题。4D毫米波雷达应运而生,有人将其视为激光雷达的“平替”,也有人说这是激光雷达的“兄弟”。而且这个领域,现在聚光灯外的产业链上下游,也正在实现...
DeepSeek缝合Claude,比单用R1/o1效果都好!GitHub揽星3k
量子位
2 月 14 日
阅读 3 分钟
让思考,缝合怪玩法火了。原因无它:比单独使用DeepSeek R1、Claude Sonnet 3.5、OpenAI o1模型的效果更好。先来看一段VCR:视频链接:[链接]\_CN再来看一个测评结果:在代码编辑基准Polyglot Benchmark上,缝合模型效果小超o1-high和R1一头。在这个测试中,R1扮演架构师,描述如何解决代码问题。而Claude扮演程序员,按...
达摩院开源VideoLLaMA3:仅7B大小,视频理解拿下SOTA | 在线可玩
量子位
2 月 14 日
阅读 5 分钟
7B大小的视频理解模型中的新SOTA,来了!它就是由达摩院出品的Video LLaMA 3,以图像为中心构建的新一代多模态视频-语言模型。在通用视频理解、时间推理和长视频理解三个核心维度进行评估的过程中,VideoLLaMA 3均取得优异成绩,超越多数基线模型。不仅如此,适用于端侧的2B大小的Video LLaMA 3,在图像理解上的表现也是...
百度决定背叛闭源大模型,李彦宏重新拥抱开源
量子位
2 月 14 日
阅读 2 分钟
继昨天决定免费之后,百度刚刚又发布一则重磅消息——下一代文心模型,决定开源!而且官宣内容只有一句话(字少事大的感觉):我们将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。从收费到免费,从闭源到开源……嗯,DeepSeek带来的冲击着实是有亿点点大。从闭源到开源的文心一言回顾文心一言的发展历...
昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代
量子位
2 月 14 日
阅读 4 分钟
2月14日,昆仑万维正式推出Matrix-Zero世界模型,成为中国第一家同时推出3D场景生成、可交互视频生成模型的探索空间智能的企业。Matrix-Zero世界模型包含两款子模型:013D场景生成大模型昆仑万维自研3D场景生成大模型,支持将用户输入的图片转化为可自由探索的真实合理的3D场景,比World Labs生成场景的探索范围更大更自...
谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧
量子位
2 月 13 日
阅读 3 分钟
史上最大规模视觉语言数据集:1000亿图像-文本对!什么概念?较此前纪录扩大10倍。这就是由谷歌推出的最新数据集WebLI-100B。它进一步证明,数据Scaling Law还远没有到上限。在英文世界之外的多元文化、多语言维度,1000亿规模数据集能更好覆盖长尾场景,由此带来明显性能提升。这意味着,想要构建更加多元的多模态大模...
Karpathy大神问懵DeepSeek!一个emoji竟藏了53个Token,思考10分钟没解释出来
量子位
2 月 13 日
阅读 3 分钟
注意看,这个(笑脸emoji)竟然占了53个token!Karpathy大神又带来他的新实验新发现了,结果直接问懵DeepSeek和ChatGPT。思考过程be like:DeepSeek硬是思考了十分钟也还是没有答上来,觉得要是“lol”这个答案就太简单了。Karpathy表示:但其实就是这么简单。随后他进一步解释了这背后的原因——提示词注入。将一些信息注入...
智驾一标配,比亚迪市值破万亿
量子位
2 月 13 日
阅读 3 分钟
“开天眼”的比亚迪,市值再破万亿。短短5天,比亚迪的股价上涨超20%,市值暴涨近2000亿。回溯第一次市值破万亿,是在2022年6月。那时的比亚迪,毅然决定All in新能源,带着DM4.0和刀片电池,从此与燃油车割袍,刚成为唯一月销破10万的车企。这次时隔三年,再次站上万亿市值高度,比亚迪甩出三张王炸:全系高阶智驾彻底掀...
全平台搭载旭日5!科沃斯GOAT智能割草机器人全新系列正式开售
量子位
2 月 13 日
阅读 2 分钟
近日,科沃斯全新发布的GOAT A Series 和 GOAT O Series割草机器人,将在多国市场正式上市发售。作为业界最强的割草机器人产品之一,GOAT致力为割草机带来基于机器人视觉的专业定位解决方案。GOAT全新系列产品全平台搭载地瓜机器人全新推出的旭日5智能计算芯片,具备10 TOPs 算力,拥有丰富的异构计算资源,可支持机器人...
文心一言全面免费了,深度搜索功能同时上线,第一手实测在此
量子位
2 月 13 日
阅读 5 分钟
所有PC端和APP端用户均可体验文心系列最新模型。文心一言将于4月1日零时起,全面免费! 所有PC端和APP端用户均可体验文心系列最新模型。
腾讯元宝接入DeepSeek-R1满血版,首次引入第三方模型,能联网能调用微信独家生态
量子位
2 月 13 日
阅读 4 分钟
刚刚,腾讯主力AI应用「元宝」宣布接入Deepseek-R1满血版!现在打开腾讯元宝,它已经可以在模型选择框中,自由切换混元模型和满血版DeepSeek-R1。而且切换到满血版DeepSeek的腾讯元宝,支持联网搜索。这下,它已经是——支持双模型+可联网搜索+整合微信公众号、视频号等腾讯生态信息源的钮祜禄·腾讯元宝了!值得注意的是,...
你的新Model Y都有这些全新设计,七座版也被官方确认了
量子位
2 月 13 日
阅读 3 分钟
新款Model Y做了哪些改动?现在有官方的完整介绍了。特斯拉车辆工程副总裁现身说法,透露为了FSD,Model Y重新设计了一个关键硬件。对此,网友激动直呼:这可比激光雷达对FSD有用多了。改版的更多细节,也随“揭秘”一同曝光。就连推出Model Y七座版,也敲定时间了。“比激光雷达更有用的硬件”变化来自Model Y的侧中继摄像...
本想去谷歌捞一笔就跑,却成了改变AI历史的人|Transformer作者对话Jeff Dean
量子位
2 月 13 日
阅读 6 分钟
现任首席科学家Jeff Dean、出走又回归的Transformer作者Noam Shazeer,与知名播客主持人Dwarkesh Patel展开对谈。
听力熊Teeni.AI全面接入DeepSeek大模型,顶尖科学家张驰加盟强化技术壁垒
量子位
2 月 13 日
阅读 2 分钟
近日,国内青少年智能硬件头部品牌听力熊 (Teeni.AI)宣布两大重要进展:全面接入DeepSeek大模型,并引入西湖大学AGI实验室创始人、AI科学家张驰出任首席科学家兼CTO。
GPT-4.5马上发布,GPT-5免费畅聊!奥特曼剧透大动作,网友:让DeepSeek整破防了
量子位
2 月 13 日
阅读 5 分钟
GPT-4.5将在未来几个周/月内发布!GPT-5也快了,且是免费用户也能无限聊的那种!这是奥特曼刚刚在最新推文中放出的豪言。这篇推文短短216个单词,但包含了巨大的信息量:GPT-4.5/5将很快陆续发布,ChatGPT免费用户能享受GPT-5的无限制聊天;几周/月内发布的GPT-4.5,是OpenAI最后一个非推理模型;o3不会作为独立模型发布...
奥特曼再谈DeepSeek:每天醒来都有压力
量子位
2 月 12 日
阅读 3 分钟
关乎当红炸子鸡DeepSeek,奥特曼最新观点出炉:对DeepSeek的出现并不意外,而且类似的情况会越来越多。这就是奥特曼在最新一期《泰晤士报》科技播客节目中所提及的内容之一。并且在被问及是否担心OpenAI会成为AI界的Napster(首个P2P音乐共享平台,后因商业压力以失败告终)时,他表示:唯一不让这种事发生的方法就是每...
o3拿下IOI 2024金牌!新论文公布RL秘诀:AI自己设计测试时推理策略,无需人类干预
量子位
2 月 12 日
阅读 6 分钟
刚刚,OpenAI发布了关于推理模型在竞技编程中应用的研究论文报告,论文中放出了OpenAI家推理模型三兄弟在IOI和CodeForce上的具体成绩。
奥特曼公开回怼马斯克,OpenAI董事会成员:说要收购,没收到报价啊?
量子位
2 月 12 日
阅读 3 分钟
马斯克此举只是压制竞争的小伎俩,我希望他能通过打造更好的产品来竞争;可能他的一生都处于不安全状态,我为这个人感到难过…我不认为他是个快乐的人。OpenAI不打算出售。
免费!满血版DeepSeek丝滑畅玩,低门槛实现671B-R1/V3自由
量子位
2 月 12 日
阅读 2 分钟
想快速顺畅上手DeepSeek还不踩坑?“真·满血DeepSeek-671B-R1/V3解决方案”来了!它能解决的问题包括:服务器总繁忙充了钱却被残血模型欺骗费力拉新,遇上代金券失效背刺不懂代码,不会使用API接口模型不能联网查询实时信息数据隐私要求高,不想上传外网潞晨云官方现在提供以下服务:免费通道:不用拉新、不计代金券、不用...
4090单卡跑满血版DeepSeek-R1,清华团队开源项目再破大模型推理门槛
量子位
2 月 12 日
阅读 3 分钟
而市面上所谓“本地部署”方案,多为参数量缩水90%的蒸馏版,背后原因是671B参数的MoE架构对显存要求极高——即便用8卡A100也难以负荷。因此,想在本地小规模硬件上跑真正的DeepSeek-R1,被认为基本不可能。
啊?7B的DeepSeek反超R1满血版,上海AI Lab周伯文团队新成果
量子位
2 月 12 日
阅读 3 分钟
除此之外,0.5B模型超过GPT-4o,1.5B的DeepSeek蒸馏Qwen超过o1-mini和o1-preview,3B的Llama超过405B的Llama……
推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025
量子位
2 月 12 日
阅读 4 分钟
字节出了个全新架构,把推理成本给狠狠地打了下去!有多狠?推理速度相比MoE架构提升2-6倍,推理成本最高可降低83%。这个全新的稀疏模型架构叫做UltraMem,有效地解决了目前主流的MoE架构和PKM架构所存在的局限性。例如MoE在做推理时,较小的batch size会激活全部专家,导致访存急剧上升,推理延迟增加;而PKM虽然减少了...
微信小程序如何调用 DeepSeek?腾讯云开发:最少仅需3行代码
量子位
2 月 12 日
阅读 6 分钟
2月11日,腾讯云开发宣布能力上新,开发者能够基于最新的小程序基础库,最少仅需输入3行代码,就可以将满血版 DeepSeek 大模型能力接入到小程序中,快速实现智能对话、文本生成等功能。其中,云开发新用户首月套餐免费,并享有100万token。
马蜂窝AI智能体成首个接入DeepSeek的旅游行业应用
量子位
2 月 12 日
阅读 2 分钟
随着DeepSeek的爆火,其技术能力迅速被引入各个领域,近日,马蜂窝宣布其自研的AI智能应用正式接入DeepSeek大模型,首阶段将优先应用于已上线发布的“AI游贵州”、“AI游黔西南”、“AI游西江” 省市景区三级AI应用生态,进一步优化和提升贵州旅游服务的智能化水平。
北京市级政府引导基金领投!玻色量子获A+轮融资
量子位
2 月 12 日
阅读 2 分钟
近日,量子计算产业链长企业北京玻色量子科技有限公司(以下简称“玻色量子”)完成A+轮融资。此次融资由北工投资管理的北京市级政府引导基金——北京高精尖产业发展投资基金(有限合伙)(简称“高精尖实体化基金”)领投。
只需一句话,AI调用多个应用为你打工!三星S25系列国行版发布,AI功能大升级
量子位
2 月 11 日
阅读 3 分钟
刚刚,三星S25系列(S25、S25+、S25 Ultra)国行版正式亮相!内置的Galaxy AI功能也一同升级,能够跨越APP的界限,调用不同应用来完成操作。并且部分AI功能支持在端侧运行,隐私安全更有保证。当然了,想在端侧流畅地运行AI模型,必然离不开算力的支持,再通俗些,芯片要足够强才行。S25系列采用了3nm的高通骁龙8至尊版...
1
(current)
2
3
4
5
…
More
下一页
1
(current)
下一页