CosyVoice 2.0 支持双向流式语音合成；无问芯穹开源全模态理解端侧模型丨RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、语音生成大模型 CosyVoice 升级 2.0 版本

CosyVoice 是阿里巴巴通义实验室语音团队于今年 7 月份开源的语音生成大模型，依托大模型技术，实现自然流畅的语音生成体验。与传统语音生成技术相比，CosyVoice 具有韵律自然、音色逼真等特点。自开源以来，CosyVoice 凭借高品质的多语言语音生成、零样本语音生成、跨语言语音生成、富文本和自然语言的细粒度控制能力获得了广大社区开发者们的喜爱和支持。

如今，CosyVoice 迎来全面升级，我们将发布 CosyVoice2.0 版本，提供更准、更稳、更快、更好的语音生成能力。

超低延迟：CosyVoice 2.0 提出了离线和流式一体化建模的语音生成大模型技术，支持双向流式语音合成，在基本不损失效果的情况下首包合成延迟可以达到 150ms。

高准确度：CosyVoice 2.0 合成音频的发音错误相比于 CosyVoice 1.0 相对下降 30%～50%，在 Seed-TTS 测试集的 hard 测试集上取得当前最低的字错误率。合成绕口令、多音字、生僻字上具有明显的提升。

强稳定性：CosyVoice 2.0 在零样本语音生成和跨语言语音合成上能够出色地保证音色一致性，特别是跨语言语音合成相比于 1.0 版本具有明显提升。

自然体验：CosyVoice 2.0 合成音频的韵律、音质、情感匹配相比于 1.0 具有明显提升。MOS 评测分从 5.4 提升到 5.53（相同评测某商业化语音合成大模型为 5.52）。同时， CosyVoice 2.0 对于指令可控的音频生成也进行了升级，支持更多细粒度的情感控制，以及方言口音控制。（@阿里语音 AI）

2、Nexa AI 发布 OmniAudio-2.6B：用于边缘部署的快速音频语言模型

Nexa AI 近日推出了其全新的 OmniAudio-2.6B 音频语言模型，旨在满足边缘设备的高效部署需求。与传统的将自动语音识别（ASR）和语言模型分开的架构不同，OmniAudio-2.6B 将 Gemma-2-2b、Whisper Turbo 以及定制的投影仪集成到一个统一框架中，这一设计消除了传统系统中各个组件链接所带来的低效率和延迟，特别适用于计算资源有限的设备。

主要亮点：

处理速度： OmniAudio-2.6B 在性能上表现出色。在 2024Mac Mini M4Pro 上，使用 Nexa SDK 并采用 FP16GGUF 格式时，模型可实现每秒 35.23 个令牌的处理速度，而在 Q4_K_M GGUF 格式下，可处理每秒 66
个令牌。与之对比，Qwen2-Audio-7B 在相似硬件上只能处理每秒 6.38 个令牌，展示出显著的速度优势。
资源效率： 该模型的紧凑设计有效减少了对云资源的依赖，使其成为功率和带宽受限的可穿戴设备、汽车系统及物联网设备的理想选择。这一特点使其能够在有限的硬件条件下实现高效运行。
高准确性和灵活性： 尽管 OmniAudio-2.6B 专注于速度和效率，其在准确性方面也表现不俗，适用于转录、翻译、摘要等多种任务。无论是实时语音处理还是复杂的语言任务，OmniAudio-2.6B
都能够提供精准的结果。（@ AIbase 基地）

3、微软推出基于合成数据集的新一代 Phi-4，小模型也可以擅长数学推理

根据 Tech Crunch 报道，微软宣布推出其 Phi 系列生成式 AI 模型的最新版本——Phi-4。据微软介绍，Phi-4 在多个领域相较于其前代模型都有所改进，尤其是在数学问题解决方面。这一进步部分得益于更高质量的训练数据。

从周四晚间开始，Phi-4 以非常有限的形式开放，仅在微软最近推出的 Azure AI Foundry 开发平台上可用，并且仅限于基于微软研究许可协议的研究用途。

这是微软最新的小型语言模型，参数规模为 140 亿，与其他小型模型如 GPT-4o Mini、Gemini 2.0 Flash 和 Claude 3.5 Haiku 竞争。这类小型语言模型运行速度更快，成本更低，但近年来小型语言模型的性能也在逐步提升。

微软表示，Phi-4 性能的提升得益于使用了「高质量的合成数据集」，以及高质量的人类生成内容数据集和一些未公开的后期训练改进。

值得注意的是，Phi-4 是微软自塞巴斯蒂安·布贝克（Sébastien Bubeck）离职后发布的首个 Phi 系列模型。布贝克此前是微软 AI 部门副总裁，也是 Phi 模型开发的核心人物，他于今年 10 月离开微软加入 OpenAI。(@ Z Finance)

4、无问芯穹发布全球首个全模态理解开源端模型：长语音自动总结，轻松处理图文音

无问芯穹宣布开源目前世界上首个端侧全模态理解的开源模型 Megrez-3B-Omni，不仅体积轻巧，速度飞快，更是一个多才多艺的全能选手，能够轻松处理图片、音频、文本三种模态数据。

在众多测评基准中，Megrez-3B-Omni 在图片、文本、音频三个模态中均取得了同尺寸下最优性能。作为一个 3B 模型，综合性能表现甚至能超过 34B 模型。

具体来说，Megrez-3B-Omni 采用了专为手机、平板等端侧设备量身定制的 30 亿参数黄金尺寸，其主干网络参数规模仅有 2.3B，精度超越了上一代 14B 模型，做到了最大推理速度比同精度模型快达 300%。（@ 量子位）

02有亮点的产品

1、Moonvalley：AI 视频生成黑马，获顶级机构近亿美金美元投资

Moonvalley 是一家新兴的生成式视频公司，在 Discord 上拥有超过 100,000 名用户，其核心产品先进的文本到视频生成平台，用户只需输入文本提示即可生成多种风格的视频，包括动漫、3D 动画和现实主义风格。

根据 CEO Talukdar 的说法，其核心视频生成模型尚未完全训练完成，预计将在今年晚些时候推出首个版本。公司特别强调其在数据使用方面的合规性，是少数严格采用「选择加入」授权数据的企业之一。

在技术创新方面，Moonvalley 正致力于解决视频 AI 领域的关键挑战，包括精确的对象控制、模型清洁度以及专业工作流程工具的开发，旨在为品牌广告和电影制作等创意产业打造一个功能强大的原生 AI 设计平台，以实现前所未有的精确度、协作效率和定制化能力。

这一愿景也得到了投资界的认可，公司于 2024 年 11 月 18 日宣布完成 7050 万美元融资，由 General Catalyst 和 Khosla Ventures 领投，Bessemer Ventures 参投，为其技术研发和市场拓展提供了强有力的资金支持。

CEO Talukdar 曾在 Zapier 负责产品增长，他招募了前 DeepMind 的科学家 Mateusz Malinowski 和 Mik Binkowski 一起创立 Moonvalley，后两者曾在 DeepMind 期间研究视频生成技术。公司有约 30 名员工，从公司披露的团队名单看，有 8 位来自前 DeepMind 的成员，另外还有多位来自 Google、meta、TikTok、Snap 公司的成员。(@ Z potentials)

2、OpenAI 计划推出 2000 美金/月的 AI Agent

据「彭博社」报道，OpenAI 首席财务官 Sarah Friar 表示，OpenAI 正在为其 AI 产品计划推出 2000 美元/月的订阅会员，并且由于其具备「博士级智能」，该产品可以作为雇用人类的「替代品」。

Sarah Friar 表示，OpenAI 即将推出的将会是一款 AI Agent，并且 Sarah Friar 认为软件可能会由此转向基于价值的定价模型，通过订阅这个 AI Agent 来让 AI 自主完成一些复杂任务，例如预定旅行，或者进行科研任务。(@ APPSO)