开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的观点」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、Qafind 实验室发布 ChatDLM:2800 tokens/秒的极速扩散语言模型
Qafind 实验室推出 ChatDLM,官方号称世界上最快的扩散语言模型,在 A100 GPU 上可达到 2,800 tokens/秒(约 DeepSeek 7B 的 30 倍),拥有 131,072 tokens 上下文窗口,可以处理非常长的文本。
它采用并行块级扩散、动态专家路由、超大上下文窗口,能在 NVIDIA A100 GPU 上达到 2800 tokens/s 推理速度,支持 131,072 tokens 的超长上下文。
该模型由中国公司 Qafind Labs 开发。(@三花 AI、@XiaoHu.AI 学院)
2、freepik 联合 FAL 开源 F-Lite:10B 的文生图模型
F-Lite 是一个 10B 参数的 DiT 模型,采用 T5-XXL 作为文本编码器,但这里抽取第 17 层特征而不是最后一层特征,文本特征通过交叉注意力注入 DiT 中。同时采用可学习的 register tokens、residual value connections 以及μ-Parameterization 来提升训练效果。
F-Lite 的训练包括 256 和 512 分辨率的预训练,以及 1024 分辨率的后训练,后训练包括简单 SFT,以及基于 GRPO 的 RL 训练。训练成本需要使用 64 张 H100 训练 2 个月。
目前模型在 HuggingFace 上提供了在线 demo:https://huggingface.co/spaces/Freepik/F-Lite。(@AI 小小将)
3、马斯克:Grok 3.5 将于下周发布,能用第一性原理给出互联网上不存在的答案
马斯克强调,这次 Grok 3.5 的突出之处在于它能推导出网络上根本不存在的新知识,就是马斯克让 Grok 学会了「原创」。
这意味着用户再也不是简单地问一个 AI 它在网上查到的答案,而是让它通过自身的理解和推理能力,帮你解答火箭发动机设计、电化学反应机制等极度专业的问题。(@AGI Hunt)
4、小米正式开源其首个专注于推理的大模型「Xiaomi MiMo」
小米公司于 2025 年 4 月 30 日正式开源其首个专注于推理的大模型「Xiaomi MiMo」,该模型以 7B 参数规模在数学推理和代码生成领域实现了对行业标杆的超越,成为 AI 推理领域的重要突破。
在数学推理(AIME 24-25)和 代码竞赛(LiveCodeBench v5)公开测评集上,MiMo 仅用 7B 的参数规模,超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。
小米 MiMo 通过预训练阶段的三阶段渐进式难度设计,模型在 25T tokens 的训练中逐步构建起类人的推理逻辑链。后训练阶段创新的 Test Difficulty Driven Reward 机制,不是粗暴灌输知识,而是通过动态调整奖励函数引导 AI 自主突破认知边界。这种「结构优化替代规模扩张」的路径,让 7B 参数的 MiMo 在奥赛级数学题解答中超越 o1-mini,代码生成成本降至后者 1/3。(@Xiaomi MiMo)
02 有亮点的产品
1、NotebookLM Audio Overviews 支持生成中文音频
NotebookLM 的Audio Overviews 现在可以使用多种语言。Audio Overviews 可将信息源转化为类似播客的引人入胜的对话。现在,得益于 Gemini 的本地音频支持,更多的用户可以用他们选择的语言使用 Audio Overviews 功能,如中文、南非、荷兰语、印地语、土耳其语等。(@Google Labs)
2、Meta 推出独立 AI 助手应用,融合社交元素融合社交元素,支持语音交互;扎克伯格:语音当下被低估了
4 月 29 日消息,Meta 正式发布了其独立的 AI 助手应用——Meta AI,旨在与 ChatGPT 等竞争对手抗衡。该应用具备当前 AI 助手的典型功能,用户可以通过文字输入或语音对话与其交互,生成图像,并获取实时网络搜索结果。
据了解,Meta AI 应用程序由该公司的 Llama 4 AI 系统构建。Meta AI 应用的最大创新之处在于其「发现」(Discover)信息流功能,在「发现」信息流中,用户可以看到其他用户(包括 Instagram 和 Facebook 上的朋友)选择分享的与 Meta AI 的交互内容,这些内容是基于一个个具体的提示词(prompt)进行展示的。用户可以对这些共享的 AI 帖子点赞、评论、分享,甚至将其重新混合(remix)为自己的内容。Meta 公司产品副总裁康纳・海耶斯(Connor Hayes)表示,这一设计旨在「揭开 AI 的神秘面纱,向人们展示他们可以用它做些什么」。
在交互方式上,Meta AI 应用特别强调语音模式,其可选的测试版语音模式非常类似 ChatGPT 的高级语音模式,更具对话性。不过,目前 Meta 的语音模式还无法访问网络信息。目前,标准语音模式和全双工语音模式已在美国、加拿大、澳大利亚和新西兰上线。
马克·扎克伯格(Mark Zuckerberg)今天在 LlamaCon 上说:「我确实认为语音在今天的指数还不够高。现在 95% 的互动都是文字,我认为语音在未来会有更大的发展空间。」(@IT 之家、jffwng@X)
03 有态度的观点
1、阿里通义负责人:大模型不管什么方面仍有提升空间
日前,阿里通义发布新一代模型 Qwen3,而通义实验室负责人周靖人也在近日接受了《晚点对话》的采访,并在采访中透露了阿里通义对于模型发展的看法、模型的未来走向。
主持人在开头谈到,阿里今年发布的大模型被多次「抢头条」,如基座模型 Qwen2.5-Max 被 DeepSeek-R1 抢风头;推理模型 QwQ-32B 与大火的 Agent 产品 Manus 同天发布。对此,周靖人认为「某一天的流量其实没有那么重要」,他强调,模型发布真正重要的部分在于更前瞻性地思考,以及更笃定地坚持自己的技术路径和节奏。
对于阿里走向 AGI 的路径,周靖人则表示「大模型发展和云体系的支撑不可分割。」对于模型能力与 AGI 的发展,周靖人则认为:推理模型应该像人那样去思考,未来甚至能自我反思、自我纠错等。而多模态也是通向 AGI 的重要途径,大模型需要像人脑一样,分模块进行思考、处理各模态内容。
对于常谈的「Scaling Laws 到头」问题,周靖人表示「只看文本、数据的上线是可以看到,但多模态(如视觉数据)还有很多没被用到。」
同时,预训练和后训练乃至推理的边界正在模糊,整合这些阶段也有可能带来提升。周靖人还透露,在学习方式上,除了离线训练,大家也都在探索在线学习、持续学习等。
因此,周靖人认为无论是看数据、训练方式还是学习机制,基座模型的能力都有提升空间。(@APPSO)
2、AI 独角兽华裔创始人:算法的一切认知都来自数据;AI 可稍微自我改进,但主要进步仍来自于人
Alexander Wang,19 岁创立 Scale AI 公司(最新估值 140 亿美元),这是一个为 AI 程序提供数据训练的平台。2021 年,他被《福布斯》杂志评为全球最年轻的白手起家亿万富翁,当时他只有 24 岁。
- 这就是为什么数据被称作「新石油」或「新黄金」——它极其珍贵,因为算法的一切认知都来源于输入的数据。无论是知识储备、学习能力还是回答方式,AI 的所有行为都完全依赖于它「吸收」的数据质量。
- 每个公司都必须弄清楚如何用好互联网,如何聪明地处理互联网和数字内容一样,每个公司都必须聪明地使用 AI,如何利用 AI,如何赋予它独特的风格,以便他们的东西在竞争中脱颖而出。
- AI 相关的工作会成为未来几年世界上增长最快的工作,未来的工作会变成另一种形式,每个人应该学习如何最好的利用 AI 这个机会,最终每个人都将升级为管理者。
- AI 在某些方面非常擅长,因为它已经吸收了大量的事实信息,这并不意味着它在所有领域都超越人类,它只是数据,人类把数据处理之后,得到一些算法。我们应该时刻保持警惕,确保人类始终掌握控制权。
- AI 能够帮助你做事,成为你的思想伙伴,成为你的助手,这就是 AI 的核心价值。(@Z Potentials)
3、语言学习平台多邻国宣布「AI 优先」战略,AI 驱动的 Video Call 等创新功能,让教学效果媲美顶尖人类导师
科技媒体 The Verge(4 月 29 日)报道,语言学习平台多邻国(Duolingo)联合创始人兼首席执行官 Luis von Ahn 发布全员邮件,宣布公司将采取「AI 优先」(AI-first)战略,逐步停止使用承包商完成 AI 能够胜任的工作。von Ahn 表示,AI 不仅提升生产力,更能帮助 Duolingo 接近其「优质教学」的核心使命。
多邻国需要海量内容来满足学习者需求,而手动创建内容无法实现规模化。他透露,近期用 AI 替代缓慢的手工内容创建流程是最佳决策之一,AI 还促成了 Video Call 等创新功能,让教学效果媲美顶尖人类导师。
von Ahn 在全员信中表示,AI 正在改变工作方式,这种转变已成定局。信中回顾了 2012 年公司押注移动端(mobile-first)的成功经验,认为如今押注 AI 同样至关重要。(@产业深度报告)
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。