主题围绕 「Voice Agent+硬件」 ,2025 年第一期 RTE Meetup 成功落地硬件之都深圳。
来自讯飞、乐鑫、闪极科技、TEN、MiniMax、声网、小智 AI 聊天机器人等项目的开发者都到场分享或交流。主题领域覆盖 IoT、AI 眼镜、RTC、voice agent 构建框架、ESP32 等话题。
声网技术专家吴方方 以宏观视角剖析了 AIoT 行业从「听到」到「听懂」的演进历程,并着重强调了大模型对 AIoT 的变革以及 RTC 技术在解决延迟挑战中的关键作用。
TEN Framework 核心开发者 Jay 从实践出发,分享了如何运用 TEN 框架和 ESP32 打造低延迟的卓越语音 AI 硬件体验,TEN+EPS32 的方案也即将开源。
科大讯飞 AI 交互高级项目经理贺思源 阐述了讯飞在多模态语音增强、超拟人语音合成等前沿 AI 能力上的突破,以及这些技术在教育、医疗等领域的创新应用。
圆桌环节,包括 闪极科技 CTO 周万程 在内的嘉宾们围绕 大模型降本增效、端侧计算能力提升 以及 网络传输优化 等关键技术展开探讨,并讨论了 Always on 的环境式智能体 在 AI 硬件的发展。
我们整理了本次活动的核心分享,期待对你有所启发!也欢迎加入我们的「voice agent+硬件」微信群。
本次活动的微信群将持续开放, 作为「voice agent+硬件」主题的长期讨论场域,欢迎扫码申请加入我们的微信群。
注:扫码后,建议在浏览器中打开页面注册报名(微信内置浏览器不支持 Google 登录)如遇问题,可加小助手微信(Creators2022)协助报名❤️
Web 端也可直接访问网页报名:
https://www.rtecommunity.dev/t/t_HAaehj9mvyaF8n
吴方方:让万物「听说」,AI 对话式智能硬件方案和发展洞察
AIoT 行业演进:从「听到」到「听懂」
2017 年,AI 技术突破推动了语音识别(ASR)、语音合成(TTS)和自然语言理解(NLU)的发展,促成 AIoT 概念的兴起。2020 年,AIoT 快速发展,自然语言人机交互成为现实。ASR 准确率超 93%,TTS 自然度和情感表达显著提升, 智能音箱、手机助手、语音输入法等产品涌现。
大模型对 AIoT 的影响
大模型提升了 AI 助手理解用户意图的能力,使对话更自然,并具备多模态感知能力。此外,AI 的自学习能力使其能不断优化服务,满足个性化需求。具体表现为:
- 理解力增强: AI 更精准地理解用户指令。
- 生成式对话: 对话更具上下文理解,而非简单应答。
- 多模态感知: 整合文本、语音、图像等多维度信息。
- 自学习优化: 通过用户反馈不断迭代服务。
AIoT 产品形态变革
- 会议助手: 从记录升级为总结、提炼的智能助手。
- AI 实时翻译耳机: 实现跨语言实时同声传译。
- 机器人助手: 从简单执行指令升级为主动交互的个人助理。
挑战与应对
大模型部署成本高,对延迟敏感,依赖端云协同,且多模态数据传输压力大。为此,引入 RTC 技术势在必行。RTC 技术具有低延迟和灵活传输能力,可支持多模态数据传输,并将计算压力转移至云端,提升用户体验。
声网的 AI Agent x IoT 解决方案支持低功耗芯片快速接入大模型,实现低延时互动。开发者只需接入 RTC,其他计算由云端完成,降低开发成本。
Jay:TEN x ESP32 玩转 Voice AI,创造低延迟的 AI 硬件体验
IoT 设备接入大模型的挑战与痛点
- 语音交互体验至关重要: 低延迟和自然的打断是关键的用户体验指标。
- 多重因素影响交互效果: ASR(自动语音识别)、大语言模型 (LLM) 和TTS(文本转语音)的选择、三段式级联架构的延迟、网络协议的适用性以及延迟和打断优化等都是挑战。
- 技术交叉复杂性: 涉及 AI 和通信领域的交叉问题,需要开发者具备多领域知识。
- 网络协议选择: 传统的 WebSocket 在音视频传输方面存在延迟高、抗抖动性差的问题,而 RTC协议更适合复杂场景,因为它具有低延迟、抗抖动和内置音频处理功能。
TEN 框架的解决方案
基于 TEN 框架构建的对话 AI 引擎,TEN Agent 为开发者提供快速构建实时对话式 AI 智能体的工具。
插件式设计: 所有功能模块(如 RTC, ASR, LLM, TTS)均以插件形式存在,方便灵活编排组合。
内置 RTC: 具备低延迟、降噪等特性,简化了复杂音视频场景的处理。
开箱即用: TEN Agent 内置 RTC + STT + LLM + TTS 的完整流程,提供预设配置方便用户快速体验。
支持级联和语音到语音(V2V)两种模式: TEN 框架都能轻松实现,开发者可根据场景自由选择。
可与 Dify 和 Coze 集成: 如果已经在 Dify 或 Coze 上搭建了 Agent 的大脑,可以通过简单配置参数,让其在 TEN 上实现语音交互。
TEN + ESP32 方案
基于 ESP32 的对话助手: 结合 TEN Agent,实现低成本的语音交互设备。
架构: ESP32 通过 Agora 的 RTC SDK 连接到云端的 TEN Agent,完成语音/视频/文本传输,并在云端完成 ASR/LLM/TTS 处理。
关键实现: 包括集成 RTC SDK 和 TEN Agent 的控制 API,采集音频并传输,接收回复并播放。
Demo 展示: 现场演示了基于 iFLY(ASR)、阿里通义千问(LLM)和 MiniMax(TTS) 模型的语音交互,延迟约为 1.5-2 秒,打断自然。
开源计划: TEN + ESP32 方案将在未来 1-2 周内开源。
贺思源:新能力,新可能——AI 智能硬件创新场景探索
讯飞新能力:
- 多模语音增强: 结合视频和语音数据,提升高噪声环境下的语音识别准确率。
- 超拟人语音合成: 模拟人类发音特征,使合成语音更自然,可在线体验。
- 声音复刻: 仅需 30 秒录音即可复刻声音,支持跨语种。
- 智能问答库: 结合大模型,提升问答效果,支持实时搜索,解决大模型信息滞后问题。
- 回复风格自定义: 可为不同产品定制个性化回复风格,避免千篇一律。
- 端侧大模型: 为有数据安全需求的客户提供本地化大模型解决方案。
- 大模型提示词工程: 通过少量示例即可让大模型自动泛化语料,提高开发效率。
讯飞新场景应用:
- 教育领域: 讯飞学习机提供中英文作文批改、口语陪练和教师助手等功能。
- 医疗领域: 讯飞小医处理全链路用医请求,包括就诊前咨询、用药指导和体检报告解读。
- 办公领域: PPT 助手一键生成 PPT 大纲模板,帮助用户专注于内容创作。
AI 能力与硬件结合的思考:
- AI 能力定位影响未来机会:辅助作用 如语音遥控器,核心需求是观影,语音仅为辅助功能,创业公司机会较小。核心作用 如故事机,AI 能力是核心卖点,易催生新品类,带来新公司机会。
- 限制条件可促进新品类诞生: 如端侧大模型一体机源于央国企对数据安全的需求,闺蜜机源于电视便携性不足。
- 多模态交互在情感陪伴类产品(如机器人)中有巨大潜力。 避免将语音交互仅作为传统功能的辅助指令。
未来产品畅想:
- AI 动态相框: 用户可上传图片生成动态视频,或通过语音生成背景。
- AI 试衣镜: 通过实时扫描人体进行实时换装,并推荐服装搭配,满足用户释义需求。
圆桌讨论:把 GenAI 装进物理世界,一共分几步?
2025 年的关键技术突破
参与讨论的嘉宾们认为,在未来 1~2 年内,最重要的技术突破可能主要集中在以下方面:
- 大模型降本增效: 讯飞的贺思源指出,目前大模型的调用成本仍然是传统结构化对话的好几倍。「大模型不是成本越高越好,而是要让更多人用得起、用得好。」
- 端侧计算能力提升: 闪极科技的周万程强调,本地计算对于保护隐私数据、保证离线可用性至关重要,未来一定是端云结合的异构架构。高通最新发布的Snapdragon XR2 Gen 2 芯片就是一个重要进展,这标志着端侧计算能力的显著提升,为更安全、更可靠的 AI 应用奠定了基础。
- 网络传输优化: 声网的吴方方指出,大多数场景并非完全无网络,而是网络不稳定。如何在弱网环境下保证 AI体验的流畅性是一个重要课题。他们认为,优化网络传输,尤其是在不稳定的网络环境中,是确保 AI 应用流畅用户体验的关键。
Always on 的 Ambient Agent 的未来
对于 「Ambient Agent」(环境式智能体) 这一概念,嘉宾们认为这代表了 AI 硬件的重要发展方向。这种智能体能够全天候陪伴用户,但不会过度打扰,而是在适当时机主动交互。
贺思源打了个比方:「就像开车时的导航,它会在关键时刻提醒你 『前面 200 米有红灯』,但平时并不会喋喋不休。」同时,贺思源也表示,除了导航等传统场景外,大模型在 视觉分析等复杂场景 中将发挥更大价值。
周万程则指出了技术挑战:「Always on 是个好概念,但要考虑功耗。 在重要场景高帧率记录,不重要场景低帧率记录,这需要很好的场景感知能力。」
Ligntning Demo
心语心声:AI 驱动的智能陪伴玩具
具有特色的智能陪伴玩具,该产品的独特之处在于具备审描功能,特别适用于老人和儿童群体。通过分析用户的语音特征,系统可以对儿童的心智发育、情绪状况,以及老人的健康状况做出初步判断。目前由于数据量较小,还不能称为医疗诊疗,团队正在努力扩展数据库。
项目目前面临两个主要挑战:
1.电池续航问题:团队最初计划做 always on 项目,但在小型化过程中遇到了能量供给的困难
2.语音唤醒问题:正在探索通过分析说话者与老人、儿童交谈时的声音模式差异来作为唤醒的触发点
儿童 AI 体感互动&口语陪练
一位在基于儿童 AI 创业的创业者认为纯粹的儿童语音玩具可能是伪需求,市场上已有大量陪伴玩具,不一定需要实时的大模型陪伴。
目前她正在开展两个创新项目:
1.儿童 AI 体感项目:开发能够捕捉儿童动作的硬件设备,配合电视游戏实现互动陪伴;
2.儿童口语陪练项目:与科大讯飞合作,针对儿童口语训练的特定需求和具体痛点开发解决方案。
小智 AI 聊天机器人
小智 AI 聊天机器人的产品负责人现场 demo 了基于乐鑫 ESP32 方案的对话硬件。乐鑫工程师现场也参与了答疑和交流。
活动主办:RTE 开发者社区
场地支持方:亚马逊云科技 AWS
社区伙伴支持:有新 Newin、亚马逊云科技 User Group、LitGate、TEN Framework、讯飞开放平台、 ErroRight
本次活动的微信群将持续开放, 作为「voice agent+硬件」主题的长期讨论场域,欢迎扫码申请加入我们的微信群。
注:扫码后,建议在浏览器中打开页面注册报名(微信内置浏览器不支持 Google 登录)如遇问题,可加小助手微信(Creators2022)协助报名❤️
Web 端也可直接访问网页报名:
https://www.rtecommunity.dev/t/t_HAaehj9mvyaF8n
关于 RTE Meetup
Real-Time&Real Connection,RTE Meetup 是 RTE 开发者社区发起的小型开发者聚会,邀请开发者分享技术和产品的同时,也重视每个与会者的深度参与和交流体验。
RTE=Real-Time Engagement,即「实时互动」。
成为 RTE Meetup 组织者
欢迎联系我们申请成为 RTE Meetup 组织者,用你感兴趣的话题聚集同类人,分享新技术、新理念和新场景,一同探索实时互动新可能。有意者请加微信 Creators2022,备注身份和来意。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。