头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01.有话题的技术

1、阿里新一代通义模型 Qwen3 开源

4 月 29 日凌晨,阿里巴巴正式开源新一代通义千问模型 Qwen3,号称「全球最强开源模型」。
官方介绍,Qwen3 采用混合专家(MoE)架构,总参数量 235B(激活仅需 22B),仅为 DeepSeek-R1 的 1/3,并且性能全面超越 R1、OpenAI-o1 等全球顶尖模型。

  • 国内首个「混合推理模型」,「快思考」与「慢思考」集成进同一个模型;
  • 在多方面创下全球开源模型的性能新高:AIME25 测评中,Qwen3 斩获 81.5 分,刷新开源纪录;
  • 性能大幅提升的同时,Qwen3 的部署成本还大幅下降,仅需 4 张 H20 即可部署 Qwen3 满血版,显存占用仅为性能相近模型的三分之一;
  • 提供多个模型版本:包含 2 款 30B、235B 的 MoE 模型,以及 0.6B、1.7B、4B、8B、14B、32B 等 6 款密集模型;均斩获同尺寸开源模型 SOTA;
  • API 可按需设置「思考预算」(即预期最大深度思考的 tokens 数量),进行不同程度的思考。

另外,Qwen3 也对 Agent 和大模型应用提供了更好的支持。在评估模型 Agent 能力的 BFCL 评测中,Qwen3 创下 70.8 的新高,超越 Gemini2.5-Pro、OpenAI-o1 等模型。同时,Qwen3 原生支持 MCP 协议,并具备强大的工具调用(function calling)能力。

使用方面:

  • Qwen3 系列模型采用宽松的 Apache2.0 协议开源,并首次支持 119 多种语言,全球开发者、研究机构和企业均可免费在魔搭社区、HuggingFace 等平台下载模型并商用,也可以通过阿里云百炼调用 Qwen3 的 API 服务;
  • 个人用户可立即通过通义 App 及网页体验 Qwen3,夸克也即将全线接入 Qwen3。( @APPSO)

2、Muyan-TTS:一款完全开源、适合小型团队二次开发的语音合成模型

Muyan-TTS 是一款由北京沐言智语科技有限公司发布的、低成本、具备良好二次开发支持的模型,并且完全开源,以方便学术界和小型应用团队的音频技术爱好者。

Muyan-TTS 在建模架构上,延续了 GPT-SoVITS 的两阶段结构,并作出如下调整:

  • 语言模型部分以 Llama-3.2-3B 为 backbone 继续预训练,具备更强的语义建模能力。
  • 解码器部分使用 SoVITS 架构,在大规模高质量播客音频数据上进行了微调,提高合成音频表现力与保真度的同时,也保持了稳定性并削弱了因 LLM 所带来的幻觉。

这样的模型设计在保证合成质量的同时,兼顾了个性化能力和运行效率,适配多种音频内容形式,如主持人旁白、访谈复刻、语音摘要等。

开源了在多样化播客数据集上预训练的基础模型,能实现零样本 TTS 合成。同时开源了在单一说话人上进行监督微调(SFT)的模型,以此提升 TTS 性能。

该模型每 1s 语音生成仅需 0.33 秒推理时间,为所有开源模型中最快。同时词错率、语音质量评分都处于开源模型的一线水平。由于目前开源的 Muyan-TTS 版本训练数据规模较小,因此只对英语有较好的支持。但开发团队同步开源了数据处理流程和详细的训练方法 (https://github.com/MYZY-AI/Muyan-TTS ),可以基于自己实际的业务场景灵活升级和改造。

沐言智语由清华计算机专业出身的张月光于 2023 年末创立,半年斩获 4 轮近 3 亿元融资,估值超一亿美元。该公司目前在做 ChatPods,一款利用 AI 技术打造的,能实现主播与听众实时双向互动的创新型播客平台,截至 2025 年初,ChatPods 已在泛知识、娱乐、教育等多个场景中展现出广泛应用潜力。(@沐言智语、@Z Potential)

3、VoltAgent:专为构建和编排 AI 智能体而设计

(图片来源:GitHub)

VoltAgent 是一个开源的 TypeScript 框架,专为构建和编排 AI 智能体而设计。它提供了基础结构和工具,简化了 AI 智能体应用的开发过程。它提供现成模块和工具包,让开发者无需从零写代码就能创建由大语言模型驱动的智能系统。通过提供模块化构建块、标准化模式和抽象,VoltAgent 帮助开发者快速创建聊天机器人、虚拟助手、自动化工作流或复杂的多智能体系统。

它支持与 OpenAI、Google、Anthropic 等流行 AI 模型的兼容性,并提供了丰富的工具和集成选项,使智能体能够连接到外部 API、数据库和服务,执行实际任务。

VoltAgent 使用模块化构建块和标准化模式,支持与大语言模型的复杂交互、状态管理、外部工具和数据连接以及工作流编排。它提供了核心引擎、可扩展包、工具和集成选项,支持模型上下文协议(MCP)和数据检索与增强生成(RAG)。(@机器之心 SOTA 模型、@geek@X)

4、FantasyTalking:阿里最新逼真数字人框架

FantasyTalking:阿里巴巴和北京邮电大学联合提出的一种新的虚拟数字人框架。它是一款根据一张输入静态图片生成逼真的可动画化虚拟形象的框架,能够捕捉微妙的面部表情、相关全身运动以及动态背景。

FantasyTalking 是基于 Wan2.1 视频扩散 Transformer 模型构建,通过双阶段音视频对齐训练过程,有效捕捉音频信号与唇部运动、面部表情以及身体运动之间的关系。为了增强生成视频中的身份一致性,项目提出了一种专注于面部的方法,以准确保留身份特征。此外,还使用了运动网络来控制面部表情和身体运动的幅度,确保自然且多样化的动画效果。

FantasyTalking 能够生成高度逼真的唇部同步效果,确保角色的嘴部运动与音频匹配。它支持各种风格的虚拟形象,无论是写实风格还是卡通风格,都能生成高质量的对话视频。还支持生成各种身体范围和方向的逼真会话视频。以及 FantasyTalking 能够以各种风格动画化角色和动物,生成动态、富有表现力且自然逼真的风格化视频。(@破狼)

02.有亮点的产品

1、Ztalk.ai:实时语音到语音会议翻译,支持 30 多种语言

Ztalk.ai 是一款应用程序,旨在打破视频通话中的语言障碍。它由 OpenAI 的尖端实时翻译模型和 Meta 的无缝通信技术提供支持,可与 Google Meet、Zoom 和 Microsoft Teams 等流行平台无缝协作,提供流畅的集成和高度准确的翻译体验。

  • 支持 30 多种语言的即时语音到语音翻译,支持母语字幕,实时翻译延迟 < 100ms;
  • 可与 Zoom、Google Meet 等视频会议平台中使用;
  • 具备背景噪声消除功能;
  • 端到端加密和企业级安全协议,不存储对话数据。(@Product Hunt)

2、OpenAI 发布多个重磅更新

4 月 29 日凌晨,OpenAI 发布了 ChatGPT 的多项功能更新,具体如下:

购物体验: ChatGPT 中购物变得更简单、更快捷,方便查找、比较和购买产品。

  • 优化产品推荐结果,官方强调非广告;
  • 可视化呈现,包括产品介绍、实时价格和用户评价;
  • 用户可点击购买链接直接达到购买页面;
  • 官方强调,所有商品搜索结果保持独立客观,并非广告植入;
  • 购物体验的更新今天开始向所有可使用 ChatGPT 的地区的 Plus、Pro、免费及未登录用户开放;
  • 能够在短时间内完成部署。

引用功能更靠谱: 一个回答可以引用多个来源;高亮显示,超清晰地告诉你引用了哪部分内容;

搜索界面优化: 热门搜索趋势;自动补全搜索建议;

WhatsApp 一键搜索: 给 +1-800-242-8478 发消息,就能实时获取各种信息:如体育比分、热点新闻。(APPSO、AI 寒武纪)

03.有态度的观点

1、诺奖得主 Hinton:AI 可能会争夺人类手中的控制权

日前,诺贝尔奖得主 Geoffrey Hinton 接受 CBS 的采访,其在访谈中畅谈了自己对 AI 技术的期待,同时也警告了人类对 AI 的态度需要保持警惕。

Hinton 认为,当今 AI 发展速度比他预想的要快很多。Hinton 着重提到了 AI Agent(智能体),他认为 Agent 的出现比仅拥有简单聊天功能的 AI 机器人要更加具有危险性,因为 Agent 能够与现实世界的内容进行联动。而对于 AGI 何时到来,Hintion 改变了此前预测的「5-20 年」,而缩短至「10 年甚至更短时间」。

虽然忧虑很多,但是 Hinton 依然认为 AI 能够为人类带来许多好处:医疗技术的提升,家庭医生变为可能;教育效率飞速提升,个人学习速度大幅加快;对于气候问题能更高效、更有利地解决;通过 AI 对数据分析,从而促进各行各业提升生产力与效率。

最后,Hinton 也再次警告,如果任由 AI 胡乱发展,那么它将会导致无法预测的悲剧后果。Hinton 较为悲观地表示:「人工智能最终可能会超越人类的控制,而人类将会有 10%-20% 的风险,被 AI 夺取决策的控制权力」 ,他强调,之所以人们现在还没意识到,因为大家还没理解清楚即将到来的变化。(@APPSO)

2、谷歌:行政工作中使用 AI 平均每年可以节省 122 小时

谷歌表示,如果英国对其劳动力进行培训,那么英国有望从人工智能驱动的经济增长中获得 4000 亿英镑(约合 5330 亿美元)的收益。

此前,英国的一些试点项目表明,员工在行政工作中使用人工智能,每年可以节省 120 多个小时。谷歌欧洲、中东和非洲地区总裁黛比·温斯坦(Debbie Weinstein)称,在一个小型商业网络、教育信托机构和一个工会中开展的「人工智能助力工作」(Al Works)试点项目显示,员工在行政工作中使用人工智能,平均每年可以节省 122 个小时。(@新浪财经)

更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络


RTE开发者社区
663 声望973 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。