头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@qqq、@鲍勃

01 有话题的技术

1、阿里通义发布新一代端到端多模态模型,Qwen Chat 新增语音或视频聊天

今日凌晨,阿里通义发布了 Qwen2.5-Omni,其将作为 Qwen 模型家族中新一代端到端多模态旗舰模型。其主要特点如下:

  • 全能创新架构:通义团队提出了全新的 Thinker-Talker 架构,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。
  • 全新位置编码技术:同时团队还提出了新的位置编码技术「TMRoPE(Time-aligned Multimodal RoPE)」,通过时间轴对齐实现视频与音频输入的精准同步;
  • 实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出;
  • 自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

在模型性能表现上,Qwen2.5-Omni 在多方面表现优秀:

  • Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro;
  • 在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)等多个基准测试。
  • Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

目前,Qwen2.5-Omni 已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源开放,用户可以通过 Demo 体验互动功能,或是通过 Qwen Chat 直接发起语音或视频聊天。(@APPSO)

2、昆仑万维发布音乐推理大模型,同步开放语音合成 API Mureka TTS

3 月 26 日,昆仑万维正式发布全球首款音乐推理大模型 Mureka O1 与音乐生成模型 Mureka V6。具体来看:

  • Mureka V6 是当前 Mureka 的基座模型,支持纯音乐生成,还支持 10 种语言的 AI 音乐创作;团队还在 Mureka V6 中引入自研 ICL(in-context learning)技术,使得声场更加开阔,人声质感和混音设计进一步强化;
  • Mureka O1 模型是基于 Mureka V6 思维链的推理优化版本,也是全球范围内首个引入 CoT(思维链)的音乐模型,其包含了 Mureka 团队最新发布的音乐生成领域的创新研究成果 —— MusiCoT;
  • Mureka V6 和 O1 模式支持多元化的音乐创作风格及情感表达。

此外,Mureka 还提供「歌曲参考(Reference Fuction)」和「音色克隆(Vocal Fuction)」两个特色音乐生成功能。具体表现方面:

  • 通过 AI 基础设施深度优化,Mureka O1 实现了行业领先的低延迟音乐生成;
  • 实际测试中,在发音唱对率、乐段准确率、文本相关度、制作质量等客观指标,Mureka V6 都显著优于 Suno V4;同时在文本生成音乐的客观测评中,Mureka O1 在发音清晰程度、生成乐段的精准度上遥遥领先;
  • 在最新的音乐评测中,Mureka O1 展现出卓越的音乐品质,在最终的整体听感评测超过了 Suno V4。

目前,面向企业和开发者,Mureka 同时开放两大类灵活的 API 服务,不仅包括音乐音频生成 API,还有语音合成 API。同时,Mureka 同步开放基于 Mureka V6 的模型微调服务。

值得一提的是,Mureka 同步开放的语音合成 API —— Mureka TTS,在与 ElevenLabs、OpenAI、微软的横向评测表现出色:其在对话聊天类全场景效果测评中排名第一,总体得分 4.34,与一线厂商相比,各维度均表现优异。

(@APPSO、Mureka 官网)

3、奥特曼宣布:OpenAI 正式支持对手 MCP 协议

OpenAI 对其 Agents SDK 进行了重大更新,支持了对手 Anthropic 推出的 MCP 服务协议。

「大家都挺喜欢 MCP 的,我们也很兴奋能在我们的产品中支持它,」Altman 说。

「今天就可以在 Agents SDK 里使用,ChatGPT 桌面应用和 Responses API 也很快支持!」

OpenAI 负责 API 的研究员 Steven Heidel 还在 X 上贴出了一张现在最火的吉卜力风格图片,来解释 MCP 的用处。

图片展示了一个基于 MCP 协议的分布式系统架构。

左边有一个主机运行 MCP 客户端(例如 ChatGPT 等应用),通过 MCP 协议与三个不同的 MCP 服务器(A、B、C)通信。

MCP 服务器 A 和 B 分别连接到本地数据源,处理本地数据,而 MCP 服务 C 通过 Web API 与互联网上的远程服务 C 交互,获取外部数据。表明了 MCP 客户端可以根据需求从不同的服务器获取数据或服务。

MCP 允许 AI 模型从业务工具、软件、数据库以及应用开发环境等来源中获取数据完成任务。可以使开发者能够在数据源和 AI 应用(如聊天机器人)之间建立双向连接。

自从去年 11 月 Anthropic 把 MCP 服务协议开源后,几个月来,很多像 Block、Apollo、Replit 这样的公司都在自己的平台上支持了此协议。

到了今年 2 月,MCP 生态进一步爆炸增长,已有超过 1000 个由社区构建的 MCP 服务器可供使用。

而且这种网络效应会使 MCP 越来越有吸引力:通过 MCP 可用的工具越多,该标准的实用性就越大。(@新智元)

02 有亮点的产品

1、微软 Copilot 新增 AI 研究员 / 分析师智能体

3 月 26 日,微软发文宣布,旗下 AI 产品 Copilot 新增了两款 AI Agent(智能体),分别为 Researcher(研究员)和 Analyst(分析师)。两款智能体均基于 OpenAI o3 系列推理模型打造,能独立分析实时数据,并完成多步骤研究任务。

具体来看:

  • Researcher(研究员)定位深度研究助手,基于 OpenAI o3 Deep Research 模型,结合 Copilot 智能编排与搜索算法,支持多轮澄清提问。Researcher 能够显示思维链(CoT),并支持调用企业内外的数据内容,生成的研究报告还可一键共享协作;
  • Analyst(分析师)定位数据洞察专家,基于 o3-mini 模型打造,擅长处理 Excel 等原始数据,可以实时生成可视化图表,支持 Python 代码动态分析。
  • 两款智能体都将在 4 月上架 Copilot,但仅限 Microsoft 365 Copilot 会员使用。

(@APPSO)

2、Lemni:为所有企业客户互动设置自定义 AI 智能体

https://www.producthunt.com/products/lemni

Lemni 允许用户创建 AI 智能体,负责处理所有客户互动,并在无需增加人手的情况下,实现高度个性化的沟通——涵盖电话、邮件支持以及主动外联。使用 Lemni,你可以在不扩张团队的前提下扩展业务。

功能亮点:

  • 支持多种语言
  • 自动化流程,减轻团队沟通负担
  • 快速设置,几分钟即可完成
  • 为不同客户提供个性化互动

(@Product Hunt)

03 有态度的观点

1、《人类简史》作者:真正的 AI 具有主动性

3 月 24 日,《人类简史》作者尤瓦尔·赫拉利在出席中国发展高层论坛 2025 年年会期间,就关于人工智能的三个问题发表了主题演讲。赫拉利表示,尽管目前有许多关于 AI 的炒作,但 AI 并不只是自动化,它意味着一种主体性和主动性。他认为现阶段的 AI 都只是通过人类操作,而实现自动化操作的程序;真正的 AI 应该是预判、预测人类的行动和心理,去主动做出决定,同时,这也是 AI 学习跟创造新事物的必经之路。在赫拉利看来,AI 有着巨大的积极潜力,但 AI 具有了主动性之后,同时也带来很多挑战和威胁。赫拉利指出,由于 AI 能够学习和自己改变自己,因此存在以不可预测方式改变的可能。而对于不可预测的 AI 发展方向,赫拉利认为解决答案很简单:「人类团结在一起可以控制 AI」。赫拉利提出,在开发超级智能的 AI 之前,应该在人类之间建立更多信任。他在最后指出,想要在 AI 时代生存和繁荣,相比信任 AI,我们之间更要相互信任。(@APPSO)

更多 Voice Agent 学习笔记:

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
663 声望973 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。