头图

关键词:对话式 AI | 语音智能体 | Voice Agent | VAD | 轮次检测 | 声网 | TEN

GPT-4o 所展示对话式 AI 的新高度,正一步步把我们在电影《Her》中看到的 AI 语音体验变成现实。AI 的语音交互正在变得更丰富、更流畅、更易用,成为构建多模态智能体的重要组成部分。

但是,“最后一公里”的挑战仍然存在:Voice Agent 依然不像真人一样交谈。

在真实对话里,插话、停顿、甚至讲话重叠都很常见。如果语音 AI 的回应太早、太晚、或者干脆没有回应,整个用户体验就会变得很“出戏”。对话中的“怎么说”往往比“说了什么”更重要。一段停顿可能代表犹豫、礼貌、自信等不同含义。为了让语音 AI 真正像人类一样交谈,它不能只是“听见”并“答复”——它需要真正倾听、理解上下文、并自然地应对。

为了解决以上问题,为大家介绍最新开源的两款新模型:

  • TEN VAD(语音活动检测)
  • TEN Turn Detection(轮次检测)

这两个模型是由声网和RTE开发者社区主要支持,基于声网十余年实时语音深度研究成果与超低延迟技术积累所打造的 高性能模型,能够让 AI Agent 的交互体验更加自然。作为开源项目,任何人都可以自由使用、Fork 或为其贡献代码。这两款模型也将作为 开源对话式 AI 生态体系 TEN 的核心模块持续迭代优化。

TEN VAD:超低延迟、低功耗、高准确率的语音活动检测模型

TEN VAD 是一个基于深度学习的轻量级流式语音活动检测模型,具备低延迟、低功耗、高准确率等优势。它通常用于语音输入大语言模型(LLM)前的预处理步骤,准确识别是否音频中包含人声并过滤掉无效音频(例如背景噪音或静音段)。

虽然它的功能简单,但作用十分强大:

  • 准确识别音频帧中是否有人声;
  • 判断一句话的开始和结束位置;
  • 过滤掉无关音频(背景噪音、静音等);

这不仅提升了 STT 的准确性,还能显著降低处理成本--避免将无意义的声音送入到 STT 流程中从而产生费用。同时,如果你会用到“轮次检测(Turn Detection)”,那么 VAD 是你的必选项,它是轮次检测准确性的可靠保障。

性能对比

与目前常用的 WebRTC Pitch VAD 和 Silero VAD 相比,在公开的 TEN VAD 测试集上(来自多场景、逐帧人工标注),TEN VAD 展示出了更优的效果。

在延迟方面 TEN VAD 同样领先。它能快速检测语音与非语音之间的切换,而 Silero VAD 则存在数百毫秒的延迟,导致人机交互系统的端到端延迟和打断延迟增加。

开发者友好

TEN VAD 已在 Hugging Face 和 GitHub 上开源,并附带人工精标的数据集(TEN VAD Test Sample),开发者可以一键使用进行模型推理或模型评估。

实际应用效果

一个真实用户案例显示,使用 TEN VAD 后,音频传输数据量减少了 62% ,显著降低了语音服务成本。

👉 在 Hugging Face 和 GitHub 上试用 TEN VAD

TEN Turn Detection:让 Voice Agent 学会“何时说、何时听”

TEN Turn Detection 重在解决 人机对话中最难的部分 之一——判断用户何时停止说话。在真实交流中,AI 需要区分出“中途停顿”与“说完了”的差别。插话太早会打断人类思路,太迟回应则会显得迟钝、不自然。

TEN Turn Detection 支持 全双工语音交互 ,即允许用户和 AI 同时说话,就像两个人交流时那样自然。

工作原理

它不仅识别语音内容,还通过分析语言模式,判断说话者是在思考、犹豫,还是已经表达完毕;最终让 AI 更智能地决定“该说”还是“该听”,从而让对话更加流畅自然。

该模型支持 中英文 ,可供所有 Voice Agent 开发者自由使用。

效果表现

我们在多场景测试数据集上对比了 TEN Turn Detection 和其他同类开源模型,各模型的表现如下:

👉 在 Hugging Face 和 GitHub 上试用 TEN Turn Detection

为什么选择 TEN VAD 和 TEN Turn Detection?

当结合使用这两个模型时可以打造出更自然、反应更迅速、成本更低的 Voice Agent:

开源 + 高质量

  • 基于声网十多年实时语音深度研究经验;
  • 超低延迟、低功耗、高准确率;
  • 完全开源,Apache 2.0 许可证,欢迎使用、修改和贡献。

更自然的对话

  • 正确处理“打断”、“停顿”、“回应”等人类式交互;
  • 极大提升用户体验。

成本更低

  • VAD 准确识别语音帧,有效减少语音识别调用量;
  • 实测结果显示:两者合用能大幅降低总系统成本。

即插即用

  • 可作为 TEN Framework 的插件模块使用;
  • 对于已经使用 TEN Framework 的开发者,支持无缝集成;
  • 对于正在选型 AI Agent 框架的团队,TEN 是具备最佳 VAD 和轮次检测能力的选择之一。

使用 TEN VAD 和 TEN Turn Detection 的最佳实践

两款模型都可以搭配 TEN Agent(基于 TEN Framework 的 Voice Agent)使用:

Hugging Face 上快速运行(推荐)

1.登录 Hugging Face;

2.打开 TEN Agent Demo;

3.点击右上角设置 > Duplicate this Space;

4.即可用 Hugging Face 提供的 GPU 部署完整体验。

本地运行(自带 GPU)

1.登录 Hugging Face;

2.打开 Demo 页右上角设置 > Run Locally;

3.按照本地部署指南(https://github.com/TEN-AI/TEN)操作即可运行完整。

在对话式 AI 的新时代,打造真正“像人”的 Voice Agent!

欢迎关注 TEN 系列产品的更新:

  • X / Twitter : @TenFramework
  • LinkedIn : Ten Framework
  • Medium : ten-framework.medium.com

📢 欢迎开发者加入我们的社区,共建 TEN!

更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)


RTE开发者社区
663 声望976 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。