NotebookLM 音频概览支持中文；扎克伯格 LlamaCon 发言：语音当下被低估了，未来语音交互将占据更大比重丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、Qafind 实验室发布 ChatDLM：2800 tokens/秒的极速扩散语言模型

Qafind 实验室推出 ChatDLM，官方号称世界上最快的扩散语言模型，在 A100 GPU 上可达到 2,800 tokens/秒（约 DeepSeek 7B 的 30 倍），拥有 131,072 tokens 上下文窗口，可以处理非常长的文本。

它采用并行块级扩散、动态专家路由、超大上下文窗口，能在 NVIDIA A100 GPU 上达到 2800 tokens/s 推理速度，支持 131,072 tokens 的超长上下文。

该模型由中国公司 Qafind Labs 开发。（@三花 AI、@XiaoHu.AI 学院）

2、freepik 联合 FAL 开源 F-Lite：10B 的文生图模型

F-Lite 是一个 10B 参数的 DiT 模型，采用 T5-XXL 作为文本编码器，但这里抽取第 17 层特征而不是最后一层特征，文本特征通过交叉注意力注入 DiT 中。同时采用可学习的 register tokens、residual value connections 以及μ-Parameterization 来提升训练效果。

F-Lite 的训练包括 256 和 512 分辨率的预训练，以及 1024 分辨率的后训练，后训练包括简单 SFT，以及基于 GRPO 的 RL 训练。训练成本需要使用 64 张 H100 训练 2 个月。

目前模型在 HuggingFace 上提供了在线 demo：https://huggingface.co/spaces/Freepik/F-Lite。（@AI 小小将）

3、马斯克：Grok 3.5 将于下周发布，能用第一性原理给出互联网上不存在的答案

马斯克强调，这次 Grok 3.5 的突出之处在于它能推导出网络上根本不存在的新知识，就是马斯克让 Grok 学会了「原创」。

这意味着用户再也不是简单地问一个 AI 它在网上查到的答案，而是让它通过自身的理解和推理能力，帮你解答火箭发动机设计、电化学反应机制等极度专业的问题。(@AGI Hunt)

4、小米正式开源其首个专注于推理的大模型「Xiaomi MiMo」

小米公司于 2025 年 4 月 30 日正式开源其首个专注于推理的大模型「Xiaomi MiMo」，该模型以 7B 参数规模在数学推理和代码生成领域实现了对行业标杆的超越，成为 AI 推理领域的重要突破。

在数学推理（AIME 24-25）和代码竞赛（LiveCodeBench v5）公开测评集上，MiMo 仅用 7B 的参数规模，超越了 OpenAI 的闭源推理模型 o1-mini 和阿里 Qwen 更大规模的开源推理模型 QwQ-32B-Preview。

小米 MiMo 通过预训练阶段的三阶段渐进式难度设计，模型在 25T tokens 的训练中逐步构建起类人的推理逻辑链。后训练阶段创新的 Test Difficulty Driven Reward 机制，不是粗暴灌输知识，而是通过动态调整奖励函数引导 AI 自主突破认知边界。这种「结构优化替代规模扩张」的路径，让 7B 参数的 MiMo 在奥赛级数学题解答中超越 o1-mini，代码生成成本降至后者 1/3。(@Xiaomi MiMo)

02 有亮点的产品

1、NotebookLM Audio Overviews 支持生成中文音频

NotebookLM 的Audio Overviews 现在可以使用多种语言。Audio Overviews 可将信息源转化为类似播客的引人入胜的对话。现在，得益于 Gemini 的本地音频支持，更多的用户可以用他们选择的语言使用 Audio Overviews 功能，如中文、南非、荷兰语、印地语、土耳其语等。(@Google Labs)

2、Meta 推出独立 AI 助手应用，融合社交元素融合社交元素，支持语音交互；扎克伯格：语音当下被低估了

4 月 29 日消息，Meta 正式发布了其独立的 AI 助手应用——Meta AI，旨在与 ChatGPT 等竞争对手抗衡。该应用具备当前 AI 助手的典型功能，用户可以通过文字输入或语音对话与其交互，生成图像，并获取实时网络搜索结果。

据了解，Meta AI 应用程序由该公司的 Llama 4 AI 系统构建。Meta AI 应用的最大创新之处在于其「发现」（Discover）信息流功能，在「发现」信息流中，用户可以看到其他用户（包括 Instagram 和 Facebook 上的朋友）选择分享的与 Meta AI 的交互内容，这些内容是基于一个个具体的提示词（prompt）进行展示的。用户可以对这些共享的 AI 帖子点赞、评论、分享，甚至将其重新混合（remix）为自己的内容。Meta 公司产品副总裁康纳・海耶斯（Connor Hayes）表示，这一设计旨在「揭开 AI 的神秘面纱，向人们展示他们可以用它做些什么」。

在交互方式上，Meta AI 应用特别强调语音模式，其可选的测试版语音模式非常类似 ChatGPT 的高级语音模式，更具对话性。不过，目前 Meta 的语音模式还无法访问网络信息。目前，标准语音模式和全双工语音模式已在美国、加拿大、澳大利亚和新西兰上线。

马克·扎克伯格（Mark Zuckerberg）今天在 LlamaCon 上说：「我确实认为语音在今天的指数还不够高。现在 95% 的互动都是文字，我认为语音在未来会有更大的发展空间。」（@IT 之家、jffwng@X）

03 有态度的观点

1、阿里通义负责人：大模型不管什么方面仍有提升空间

日前，阿里通义发布新一代模型 Qwen3，而通义实验室负责人周靖人也在近日接受了《晚点对话》的采访，并在采访中透露了阿里通义对于模型发展的看法、模型的未来走向。

主持人在开头谈到，阿里今年发布的大模型被多次「抢头条」，如基座模型 Qwen2.5-Max 被 DeepSeek-R1 抢风头；推理模型 QwQ-32B 与大火的 Agent 产品 Manus 同天发布。对此，周靖人认为「某一天的流量其实没有那么重要」，他强调，模型发布真正重要的部分在于更前瞻性地思考，以及更笃定地坚持自己的技术路径和节奏。

对于阿里走向 AGI 的路径，周靖人则表示「大模型发展和云体系的支撑不可分割。」对于模型能力与 AGI 的发展，周靖人则认为：推理模型应该像人那样去思考，未来甚至能自我反思、自我纠错等。而多模态也是通向 AGI 的重要途径，大模型需要像人脑一样，分模块进行思考、处理各模态内容。
对于常谈的「Scaling Laws 到头」问题，周靖人表示「只看文本、数据的上线是可以看到，但多模态（如视觉数据）还有很多没被用到。」

同时，预训练和后训练乃至推理的边界正在模糊，整合这些阶段也有可能带来提升。周靖人还透露，在学习方式上，除了离线训练，大家也都在探索在线学习、持续学习等。

因此，周靖人认为无论是看数据、训练方式还是学习机制，基座模型的能力都有提升空间。(@APPSO)

2、AI 独角兽华裔创始人：算法的一切认知都来自数据；AI 可稍微自我改进，但主要进步仍来自于人

Alexander Wang，19 岁创立 Scale AI 公司（最新估值 140 亿美元），这是一个为 AI 程序提供数据训练的平台。2021 年，他被《福布斯》杂志评为全球最年轻的白手起家亿万富翁，当时他只有 24 岁。

这就是为什么数据被称作「新石油」或「新黄金」——它极其珍贵，因为算法的一切认知都来源于输入的数据。无论是知识储备、学习能力还是回答方式，AI 的所有行为都完全依赖于它「吸收」的数据质量。
每个公司都必须弄清楚如何用好互联网，如何聪明地处理互联网和数字内容一样，每个公司都必须聪明地使用 AI，如何利用 AI，如何赋予它独特的风格，以便他们的东西在竞争中脱颖而出。
AI 相关的工作会成为未来几年世界上增长最快的工作，未来的工作会变成另一种形式，每个人应该学习如何最好的利用 AI 这个机会，最终每个人都将升级为管理者。
AI 在某些方面非常擅长，因为它已经吸收了大量的事实信息，这并不意味着它在所有领域都超越人类，它只是数据，人类把数据处理之后，得到一些算法。我们应该时刻保持警惕，确保人类始终掌握控制权。
AI 能够帮助你做事，成为你的思想伙伴，成为你的助手，这就是 AI 的核心价值。(@Z Potentials)

3、语言学习平台多邻国宣布「AI 优先」战略，AI 驱动的 Video Call 等创新功能，让教学效果媲美顶尖人类导师

科技媒体 The Verge（4 月 29 日）报道，语言学习平台多邻国（Duolingo）联合创始人兼首席执行官 Luis von Ahn 发布全员邮件，宣布公司将采取「AI 优先」（AI-first）战略，逐步停止使用承包商完成 AI 能够胜任的工作。von Ahn 表示，AI 不仅提升生产力，更能帮助 Duolingo 接近其「优质教学」的核心使命。

多邻国需要海量内容来满足学习者需求，而手动创建内容无法实现规模化。他透露，近期用 AI 替代缓慢的手工内容创建流程是最佳决策之一，AI 还促成了 Video Call 等创新功能，让教学效果媲美顶尖人类导师。

von Ahn 在全员信中表示，AI 正在改变工作方式，这种转变已成定局。信中回顾了 2012 年公司押注移动端（mobile-first）的成功经验，认为如今押注 AI 同样至关重要。（@产业深度报告）