MiniMax 发布新 TTS 模型 Speech-02，轻松制作长篇有声内容；Meta 高端眼镜年底推出：售价上千美元丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

01.有话题的技术

1、Dolphin：支持东方 40 语种+中国 22 方言的新 SOTA 开源语音大模型

在当今数字化时代，语音识别技术已成为人机交互的关键桥梁，广泛应用于智能客服、语音助手、会议转录等众多领域。然而，对于东方语言的识别如越南语、缅甸语等，现有模型往往表现不佳，难以满足用户的需求。为解决这一难题，海天瑞声携手清华大学电子工程系语音与音频技术实验室，共同推出了 Dolphin —— 一款专为东方语言设计的语音大模型。

核心亮点

支持东方 40 个语种的语音识别，中文语种支持 22 方言（含普通话）；
训练数据总时长 21.2 万小时：其中海天瑞声高质量专有数据 13.8 万小时，开源数据 7.4 万小时；
在 3 个测试集（海天瑞声、Fleurs、CommonVoice）下，与 Whisper 同等尺寸模型相比：
- base 版本平均 WER 降低 63.1%；
- small 版本平均 WER 降低 68.2%；
- medium 版本平均 WER 降低 67.7%；
- large 版本平均 WER 降低 60.6%
base 与 small 版本模型与推理代码全面开源；Dolphin 开源的 small 版本与 Whisper large v3 相比，平均 WER 降低 54.1%。（@语音之家）

2、消息称阿里将在下周发布 Qwen3

据虎嗅获悉，阿里即将在 2025 年 4 月第二周（即下周）发布新模型 Qwen3，这将是阿里在 2025 年上半年最重要的模型产品，而距离 2024 年 9 月阿里在云栖大会上发布 Qwen2.5 ，已过去了大约七个月的时间。上月，通过 GitHub 信息显示，Qwen3 和 Qwen3 MoE 版本已经给 transformers 提了 PR。且阿里云通义千问团队早前透露，Qwen3 预计将于 2025 年第二季度正式发布。据了解，在发布 Qwen2.5 后，阿里云内部的基础模型团队已经开始推动 Qwen3 相关项目，但 2025 年初 DeepSeek 的火爆，改变了团队的部分思路与重心。知情人士透露，DeepSeek 火爆后，推理能力已经成为大模型绕不开的关键能力，并且阿里云基础模型团队把策略中心进一步向模型的推理能力倾斜。报道还透露，在阿里内部，基础模型团队最重要的考核维度是「模型影响力」：

高层希望团队可以在业内成功塑造「最强模型」的心智。阿里集团 CEO 吴泳铭同时兼任阿里云 CEO，据悉其频繁参与到基础模型团队的业务沟通之中，并密切留意模型团队的各种进展；
而「衍生模型量」和「开发者社区的受欢迎度（即下载量）」两个具体维度，被视为阿里基础模型团队的考核点。

另外，阿里模型团队也在今年注意到 AI Agent、AI 硬件、智驾等多个方面，为了更好地契合这些场景，基础模型团队依然会采取「多尺寸」策略。上年发布的 Qwen2 系列，共发布了 7 种不同的模型尺寸，而即将发布的 Qwen3 尺寸类型可能会更多。( @APPSO)

3、MiniMax 推出新一代 TTS 模型 Speech-02，轻松创建长篇有声读物和播客

MiniMax Audio 迎来重大升级，搭载全新 Speech-02 模型，能够即时将任何文件或 URL 转换为高度逼真的音频。现在，用户可以轻松创建包含多达 20 万字符的长篇有声读物和播客。新版本还支持超过 30 种语言的超逼真语音合成，具有地道的口音和表达方式，同时提供无限的语音克隆能力和亚秒级的流式传输速度，为用户带来极致的语音体验。

亮点

多语言无缝切换，告别生硬口音： 在英语、西班牙语等多种语言间自然流畅切换，如同母语般地道，再无尴尬的机械感。
电影级深沉低音，沉浸体验： 强大的音频增强器和丰富的自定义选项，让您尽享专业级音效，无论是电影、游戏还是播客，皆可完美驾驭。
30+ 种语言，自然流畅表达： 从日语到阿拉伯语，告别生硬的 AI 语音。我们提供流畅、情感丰富、充满人情味的表达，感受真实而动态的语言魅力。

(@MiniMax@X)

02.有亮点的产品

1、Meta 高端智能眼镜 Hypernova 将于年底推出：内置屏幕，售价超 1000 美元

4 月 2 日消息，据彭博社报道，科技巨头 Meta 正计划推出其 Ray-Ban Meta 智能眼镜系列的一款高端版本，该产品内置显示屏，预计最早可能在今年年底正式推出。

（图片来源：网络）

据了解，这款内部代号为「Hypernova」的新型智能眼镜，将具备运行应用程序和显示照片等功能。用户可以通过手势以及镜框侧面的电容触摸区域进行操控。彭博社的消息指出，该眼镜的屏幕仅在右镜片的右下角区域可见，并且在用户视线向下时观看效果最佳。当设备启动时，屏幕上会呈现一个主界面，图标以水平方式排列，这与 Meta Quest 头显的显示方式有相似之处。

报道还提到，与当前在售的型号相比，Hypernova 将配备性能更佳的摄像头，并将继续实践和深化「让 AI 聊天机器人常伴左右」的产品理念。

在价格方面，彭博社预计 Hypernova 的售价将超过 1000 美元，甚至可能达到 1300 至 1400 美元（约 9439 至 10165 元人民币）。相比之下，目前 Meta 与 Ray-Ban 合作的智能眼镜起售价为 299 美元（现汇率约合 2171 元人民币）。

在产品定位上，Meta 将 Hypernova 瞄准「中端」智能眼镜市场，意在与类似在 CES（国际消费电子展）上大量涌现的、具备文本显示功能的眼镜（如 Rokid Glasses）竞争。与此同时，Meta 正在开发中的 Orion 眼镜将保留更先进的增强现实技术。

尽管定位中端，Hypernova 的高定价可能与其捆绑销售一款代号为「Ceres」的「神经」腕带控制器有关，该控制器原本是为 Orion 眼镜设计的。（@IT 之家）

2、亚马逊推出浏览器 Agent「Nova Act」

近日，亚马逊正式公布了其通用 AI Agent「Nova Act」。据亚马逊介绍，Nova Act 能够替用户操控浏览器，同时收集、分析网页内容，并进行相对应的网页任务执行。未来，Nova Act 还将接入亚马逊旗下的生成式 AI 语音助手 Alexa+，为后者提供关键功能支持。

目前，Nova Act 已开放「研究预览版」，开发者可通过预览链接获取体验。性能方面，Nova Act 在亚马逊内部的多项测试中，均优于 OpenAI 和 Anthropic 的同类 Agent 产品。以衡量 AI 智能体与屏幕文本交互能力的 ScreenSpot Web Text 测试为例，Nova Act 得分高达 94%，超过了 OpenAI 的 CUA（88%）和 Anthropic 的 Claude 3.7 Sonnet（90%）。值得一提的是，Nova Act 由亚马逊在旧金山成立的 AGI（通用人工智能）实验室所研发，而该实验室由前 OpenAI 研究员 David Luan 和 Pieter Abbeel 共同领导。(@APPSO)

03.🤡愚人节特辑🤡

1、🐶 ElevenLabs 推出「Text-To-Bark」（文本转狗吠）模型，全球首个 AI 驱动的狗狗 TTS 模型

https://elevenlabs.io/text-to-bark

ElevenLabs 推出了最新的「Text-To-Bark」（文本转狗吠）模型，全球首个 AI 驱动的狗狗 TTS 模型，只需输入信息，选择品种，该模型就会将其转换为流畅的狗吠。

ElevenLabs 表示，独立基准测试显示，95%的狗无法区分 ElevenLabs AI 生成的狗吠声和真实的狗吠声，这一结果在国际 AI 社区中引起了轰动。商业客户将很高兴地听到，Text to Bark 将配备企业级安全和 2FP（2-Factor Pawthentication）作为标准。TTB 可以从所有主要的云狗架构提供商部署。

(@ElevenLabs@X)

2、🤩 OpenAI 推出 TTSTSTT，一种突破性的 AI 模型架构，让 AI 像人一样「听」懂语言

OpenAI 的 Real-Time AI 主管 Justin Uberti 宣布推出 TTSTSTT (发音为 /təˈtɪs.təˌstɪt/)，这是一种革命性的 AI 模型架构。与以往完全基于文本标记训练的 LLM (大型语言模型) 不同，文本到语音到语音到文本 (TTSTSTT) 模型 专注于在听觉领域内进行推理训练，并且在输入和输出层都具备文本转换功能。

Uberti 解释说：「我们这样做的理由很简单。在人类历史的大部分时间里，人类都是通过口头语言进行交流和推理的。因此，我们相信，通过关注听觉模式，TTSTSTT 可以利用语言以语音形式产生和感知时出现的自然模式，其中语调、节奏等细微之处可以提供更具情境意识的推理。就像人类一样，当 TTSTSTT 『阅读』文本时，它在心中『听到』这些词语。」

尽管这种架构比传统模型略微复杂，但 Uberti 强调，多阶段系统能在每个阶段识别和纠正错误。他补充说：「而且，我们认为如果一个 transformer 很好，那么三个肯定更好。」

TTSTSTT 可以直接替代任何当前的文本 LLM。OpenAI 非常期待与开发者、研究人员以及更广泛的社区合作，收集反馈并使这一架构尽可能有用。如果您有兴趣基于 TTSTSTT 进行开发，请与我们联系！ (@Justin Uberti @ X)

04.有态度的观点

1、李飞飞：AI 不应两极化

据联合早报消息，李飞飞日前在新加坡亚洲科技会展的一场炉边对话，分享了她所倡议的 AI 治理框架。李飞飞认为，许多关于 AI 的讨论和看法，都过于两极：一方面是来自硅谷的科技乌托邦，科技只会带来好处。另一方面，是彻底的反乌托邦，认为 AI 将导致人类灭绝。基于此观点，李飞飞提出了她形容为「最无聊乏味」的治理框架：我们缺少的是一个与人为善、以人为本的框架。对于上述框架内容，李飞飞分为了三个关键要素进行分析：

AI 是科学而不是科幻：AI 将改变许多事情，从治理的角度来看，人类须要用科学的方法来衡量进展或影响，而不是乌托邦或反乌托邦式的夸张说法；

务实面对，不被意识形态左右：当 AI 被认为不安全时，我们不应该极力阻碍或者大肆美化，而是要像福特汽车一样，在汽车被质疑安全性时，推出限速和系上安全带等方式，进行监管；

打造一个有助鼓励创新和人才发展的完整生态系统：教育、文化、科研、甚至商业的资源，都应该尽可能均衡协调，这样才能推进 AI 全面发展，而不是资源倾斜严重。最后，李飞飞还鼓励年轻人：保持对新鲜事物的热情，追寻内心的好奇心，以此去追求自己内心的梦想，直到找到属于自己的「北极星」，也不要放弃。(@APPSO)