TEN 开源超轻量 VAD 和全双工对话轮次检测模型；Stability AI 发布全新端侧音频生成模型，无版权风险丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、TEN 开源超轻量 VAD 和全双工对话轮次检测模型

5 月 15 日，专注 Voice Agent 的开源系列 TEN 发布了 TEN VAD 和 TEN Turn Detection 两个新的开源模型。在效果对比中远超同类开源模型，令 Voice Agent 的体验更加自然拟人。

TEN VAD 以更低延迟、更高精度检测音频帧中是否存在人声。它是对话式 AI 的核心原子能力，极大的提升了语音的处理速度。同时，TEN VAD 非常轻量，与之前开发者常用的 Silero VAD 相比，TEN VAD 的 RTF 减少了 32%，library size 减少了大约 86%。

TEN Turn Detection 解决了人类与 AI 对话中最具挑战的问题：判断用户何时停止说话，使 AI 知道什么时候该说话，什么时候该倾听，实现对话的自然交替。目前 TEN Turn Detection 支持中英双语，测试表现，在中文对话中用户是否完成一轮对话的识别准确性高达 98.9%。

目前开发者可在 HuggingFace、GitHub 上下载使用 TEN VAD 和 TEN Turn Detection，并可以在 HuggingFace 的 TEN Framework 中体验 Demo。

TEN Turn Detection：

TEN VAD：

2、字节跳动 AttentionInfluence：无需训练、无需标签的弱到强数据选择新范式

字节跳动 Seed 团队在大型语言模型（LLMs）预训练数据筛选领域取得重要突破，发布了名为 AttentionInfluence 的研究成果。

这项创新方法提出了一种高效、无需训练且无需标注即可识别高质量预训练数据的新范式，并已在模型性能上展现出显著效果。

AttentionInfluence 方法的核心思想是通过比较基础模型和弱化参考模型之间的损失差异来评估训练数据的对推理的影响程度。

实现方法包含两个主要步骤：检测特定重要头部、计算 AttentionInfluence 分数。

AttentionInfluence 模型在整个预训练过程中始终优于基线，性能差距在训练早期（约 100B tokens 之前）就已显现，并在整个训练过程中保持稳定，即使在学习率衰减（LRD）阶段，性能优势仍然存在。（@量子位、@云智瞳）

3、Stability AI 发布全新音频生成模型，可在移动端运行

AI 初创公司 Stability AI 发布了名为 Stable Audio Open Small 的「立体声」音频生成 AI 模型，该公司宣称这是市场上速度最快的模型，且效率高到足以在智能手机上运行。

Stability 还宣称，Stable Audio Open Small 的训练集完全由免版税音频库 Free Music Archive 和 Freesound 中的歌曲构成。这与 Suno 和 Udio 的训练集形成对比——据报道后者包含受版权保护内容，存在知识产权风险。

Stable Audio Open Small 拥有 3.41 亿参数规模，并针对 Arm CPU 进行了优化。（参数有时被称为「权重」，是模型内部决定其行为的关键组件。）该模型专为快速生成短音频样本和音效（如鼓点与乐器即兴片段）设计。

Stability AI 宣称其能在智能手机上以不到 8 秒的时间生成最长 11 秒的音频。( @Z Potentials)

4、腾讯混元生图模型 2.0：毫秒级出图，支持语音即时生成图像

腾讯发布混元图像 2.0 模型（Hunyuan Image 2.0），首次实现毫秒级响应，支持边说边画，实时生成。

用户一边描述，它紧跟着绘制，不用等待，用户还可以手绘想要的元素，然后辅以文字说明，在另一半画板上它立刻就帮你按照草图绘制出来。

除了打字 Prompt，还支持中英文实时语音输入即时生成图像。

另外还支持上传参考图，可选择提取参考图的主体或轮廓特征，参考图片的约束强度也能调整。

该模型还支持「画面优化」，它可以帮用户自动优化画面构图、景深层次、光影效果等。

体验网址：https://hunyuan.tencent.com/ （@量子位）

5、Manus 更新文生图功能：理解画图目的，规划出生成方案

Manus 现支持生成图像，和一般 AI 绘图工具的「抽卡」模式不同，Manus 不只是生成图像，它能理解用户意图，规划解决方案，并知道如何有效地调用图像生成工具以及其他工具来完成你的任务。

在 Manus 工作过程中，可以随时发送修改任务，补充信息、或者叫停当前工作，也可以放心的离开此页面，Manus 工作完成后会发送通知，任务完成后支持生成报告。

除了生图较快之外，其他任务（创建部署网站）运行速度较慢，需要几分钟乃至十几分钟。

参考链接：https://x.com/ManusAI_HQ/status/1923048495310922028 （@量子位、@机器之心）

02 有亮点的产品

1、Novoflow：面向医疗行业的多语言智能体，支持自动安排预约

Novoflow 是一款面向医疗行业的自动化患者服务的多语言智能体，支持超过 25 种语言的语音 AI 处理患者接待，能够为用户提高呼叫到预约的转化率和患者满意度，同时简化预约管理和运营的流程。

多语言智能体：全天候语音 AI 以超过 25 种语言接待患者，实时验证保险并对意图分类；
自动安排预约：通用的 EHR（电子健康记录系统）可在任何系统内部写入、重新安排或取消预约；
使用简便：将 SIP trunk 指向诊所号码——无需新电话，无需代码；
量化绩效指标（KPIs）：量化呼叫放弃率、呼叫到预约转化率、服务提供者利用率、未赴约率等。(@Y Combinator)

2、mdhubSarah：针对心理健康诊所的智能体，能够追踪患者情况、安排预约和处理药物续方请求

Sarah 是一款面向心理健康诊所的患者服务与临床文档处理智能体，支持自动临床记录流程并且生成治疗计划，能够处理现有患者咨询，优化治疗工作效率。

全天候患者沟通： Sarah 全天候即时接听每一个电话（无语音信箱、无等待音乐），负责新患者的资格审核和预约登记，并管理现有患者的重新安排、取消、药物续方请求及预约确认。
自动化临床文档：能够在 30秒内生成临床笔记及其摘要，提供符合用户风格和需求的自定义模板、同时生成治疗计划并跟踪患者进展、自动发放会话资料以保持患者参与度，以及自动化医疗保险资格验证。
EHR 系统集成：与所有电子健康记录（EHR）系统实现无缝集成。

使用 Sarah 的诊所预计可实现新患者预约量增加高达 30%，同时确保 100%的现有患者咨询得到处理，且无需增加额外人员。(@Y Combinator)

03 有态度的观点

1、阿里：AI 将通过云端涉及各行各业

5 月 14 日，阿里巴巴集团正式公布 2025 财年第四季度及全年财报，其中阿里云表现突出：

截至 2025 年 3 月 31 日止的季度，阿里云收入 301.27 亿元同比增长 18%，AI 相关收入连续七个季度三位数增长。

阿里方面表示，这一增长势头主要由更快的公共云收入增长带动，包括 AI 相关产品的采用增加。AI 相关产品在众多的行业垂直领域获得更广泛应用，包括互联网、零售、制造业和媒体，并越来越侧重于增值应用。

而在随后的财报分析师电话会上，阿里云表示，目前仍有很多中小企业或者个人商户需要应用 AI，但本地布局成本较高，随着 AI 的强大动力搬迁至云端，像养殖业、制造业，甚至是义乌小商品城，都能够通过云端进行 AI 布局从而帮助自身。

阿里进一步表示，未来几个季度阿里云的营收增速还在处于一个上升通道。其认为，基于传统的 CPU 的计算在转向 AI 计算，就现在看到的情况而言，阿里云对未来几个季度阿里云的营收增速还在处于一个上升通道，还是抱有一个比较强的信心。

值得一提的是，今年 2 月阿里巴巴集团 CEO 吴泳铭宣布，未来三年，阿里将投入超过 3,800 亿元，用于建设云和 AI 硬件基础设施，总额超过去十年总和。

阿里云方面也强调，其正以 AI 为中心，全面重构底层硬件、计算、存储、大数据等各方面，并与 AI 场景有机适配、融合，加速模型的开发和应用，打造一个 AI 时代的最强 AI 基建。(@APPSO)

2、Dia 浏览器创始人：上下文规模是 AI 最大的发展瓶颈

近日，Dia AI 浏览器创始人 Josh Miller 宣布，该浏览器完成了对数千名大学生的 alpha 测试，同时，Miller 也在这次测试中提取了一些自己的观点并与大家分享。

根据这次测试，Miller 发现了一件十分重要的事情，那就是模型的上下文内容。其引用 OpenAI 核心成员 Michelle Pokrass 的话来说：「AI 最大的瓶颈不在于模型性能，而是获取足够多的相关上下文内容。」

Miller 表示，Dia 浏览器中的标签页，恰好装满了用户的工作、学习、项目等各方面内容，而 Dia 能够很好的从标签页中提取到相关上下文内容，从而让 AI 变得更加聪明、个性化，甚至是贴心。Miller 也进一步表示，未来的浏览器不再只是工具，而是一个懂用户的助理「伙伴」。

Miller 提到，五年前说出「Google Chrome 以及 Google 搜索可能会被替代」这一观点，看起来十分荒谬。但如今，AI 浏览器让这种不现实变为了可能。

最后，Miller 还用自己与 Dia 有趣的小经历结束了全文。Miller 称自己近期被 Dia 狠狠「嘲笑」了，但这也引得他哈哈大笑，同时也令他自己感受到，未来的浏览器不只是工具，更可以是伙伴。(@APPSO)

更多 Voice Agent 学习笔记：

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么？丨Voice Agent 学习笔记

a16z合伙人：语音交互将成为AI应用公司最强大的突破口之一，巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密：技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代，每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司，举办了一场全球黑客松，冠军作品你可能已经看过

多模态 AI 怎么玩？这里有 18 个脑洞

AI 重塑宗教体验，语音 Agent 能否成为突破点？

对话 TalktoApps 创始人：Voice AI 提高了我五倍的生产力，语音输入是人机交互的未来

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

TEN 开源超轻量 VAD 和全双工对话轮次检测模型；Stability AI 发布全新端侧音频生成模型，无版权风险丨日报

01 有话题的技术

02 有亮点的产品

03 有态度的观点

RTE开发者社区

引用和评论

ElevenLabs 新 TTS 模型支持音频标签；NotebookLM 前产品经理新项目曝光：将邮件日历新闻转为互动音频丨日报

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略