头图

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

01.有话题的技术

1、Dolphin:支持东方 40 语种+中国 22 方言的新 SOTA 开源语音大模型

在当今数字化时代,语音识别技术已成为人机交互的关键桥梁,广泛应用于智能客服、语音助手、会议转录等众多领域。然而,对于东方语言的识别如越南语、缅甸语等,现有模型往往表现不佳,难以满足用户的需求。为解决这一难题,海天瑞声携手清华大学电子工程系语音与音频技术实验室,共同推出了 Dolphin —— 一款专为东方语言设计的语音大模型。

核心亮点

  • 支持东方 40 个语种的语音识别,中文语种支持 22 方言(含普通话);
  • 训练数据总时长 21.2 万小时:其中海天瑞声高质量专有数据 13.8 万小时,开源数据 7.4 万小时;
  • 在 3 个测试集(海天瑞声、Fleurs、CommonVoice)下,与 Whisper 同等尺寸模型相比:

    • base 版本平均 WER 降低 63.1%;
    • small 版本平均 WER 降低 68.2%;
    • medium 版本平均 WER 降低 67.7%;
    • large 版本平均 WER 降低 60.6%
  • base 与 small 版本模型与推理代码全面开源;Dolphin 开源的 small 版本与 Whisper large v3 相比,平均 WER 降低 54.1%。(@语音之家)

2、消息称阿里将在下周发布 Qwen3

据虎嗅获悉,阿里即将在 2025 年 4 月第二周(即下周)发布新模型 Qwen3,这将是阿里在 2025 年上半年最重要的模型产品,而距离 2024 年 9 月阿里在云栖大会上发布 Qwen2.5 ,已过去了大约七个月的时间。上月,通过 GitHub 信息显示,Qwen3 和 Qwen3 MoE 版本已经给 transformers 提了 PR。且阿里云通义千问团队早前透露,Qwen3 预计将于 2025 年第二季度正式发布。据了解,在发布 Qwen2.5 后,阿里云内部的基础模型团队已经开始推动 Qwen3 相关项目,但 2025 年初 DeepSeek 的火爆,改变了团队的部分思路与重心。知情人士透露,DeepSeek 火爆后,推理能力已经成为大模型绕不开的关键能力,并且阿里云基础模型团队把策略中心进一步向模型的推理能力倾斜。报道还透露,在阿里内部,基础模型团队最重要的考核维度是「模型影响力」:

  • 高层希望团队可以在业内成功塑造「最强模型」的心智。阿里集团 CEO 吴泳铭同时兼任阿里云 CEO,据悉其频繁参与到基础模型团队的业务沟通之中,并密切留意模型团队的各种进展;
  • 而「衍生模型量」和「开发者社区的受欢迎度(即下载量)」两个具体维度,被视为阿里基础模型团队的考核点。

另外,阿里模型团队也在今年注意到 AI Agent、AI 硬件、智驾等多个方面,为了更好地契合这些场景,基础模型团队依然会采取「多尺寸」策略。上年发布的 Qwen2 系列,共发布了 7 种不同的模型尺寸,而即将发布的 Qwen3 尺寸类型可能会更多。( @APPSO)

3、MiniMax 推出新一代 TTS 模型 Speech-02,轻松创建长篇有声读物和播客

MiniMax Audio 迎来重大升级,搭载全新 Speech-02 模型,能够即时将任何文件或 URL 转换为高度逼真的音频。 现在,用户可以轻松创建包含多达 20 万字符的长篇有声读物和播客。 新版本还支持超过 30 种语言的超逼真语音合成,具有地道的口音和表达方式,同时提供无限的语音克隆能力和亚秒级的流式传输速度,为用户带来极致的语音体验。

亮点

  • 多语言无缝切换,告别生硬口音: 在英语、西班牙语等多种语言间自然流畅切换,如同母语般地道,再无尴尬的机械感。
  • 电影级深沉低音,沉浸体验: 强大的音频增强器和丰富的自定义选项,让您尽享专业级音效,无论是电影、游戏还是播客,皆可完美驾驭。
  • 30+ 种语言,自然流畅表达: 从日语到阿拉伯语,告别生硬的 AI 语音。我们提供流畅、情感丰富、充满人情味的表达,感受真实而动态的语言魅力。

(@MiniMax@X)

02.有亮点的产品

1、Meta 高端智能眼镜 Hypernova 将于年底推出:内置屏幕,售价超 1000 美元

4 月 2 日消息,据彭博社报道,科技巨头 Meta 正计划推出其 Ray-Ban Meta 智能眼镜系列的一款高端版本,该产品内置显示屏,预计最早可能在今年年底正式推出。


(图片来源:网络)

据了解,这款内部代号为「Hypernova」的新型智能眼镜,将具备运行应用程序和显示照片等功能。用户可以通过手势以及镜框侧面的电容触摸区域进行操控。彭博社的消息指出,该眼镜的屏幕仅在右镜片的右下角区域可见,并且在用户视线向下时观看效果最佳。当设备启动时,屏幕上会呈现一个主界面,图标以水平方式排列,这与 Meta Quest 头显的显示方式有相似之处。

报道还提到,与当前在售的型号相比,Hypernova 将配备性能更佳的摄像头,并将继续实践和深化「让 AI 聊天机器人常伴左右」的产品理念。

在价格方面,彭博社预计 Hypernova 的售价将超过 1000 美元,甚至可能达到 1300 至 1400 美元(约 9439 至 10165 元人民币)。相比之下,目前 Meta 与 Ray-Ban 合作的智能眼镜起售价为 299 美元(现汇率约合 2171 元人民币)。

在产品定位上,Meta 将 Hypernova 瞄准「中端」智能眼镜市场,意在与类似在 CES(国际消费电子展)上大量涌现的、具备文本显示功能的眼镜(如 Rokid Glasses)竞争。与此同时,Meta 正在开发中的 Orion 眼镜将保留更先进的增强现实技术。

尽管定位中端,Hypernova 的高定价可能与其捆绑销售一款代号为「Ceres」的「神经」腕带控制器有关,该控制器原本是为 Orion 眼镜设计的。(@IT 之家)

2、亚马逊推出浏览器 Agent「Nova Act」

近日,亚马逊正式公布了其通用 AI Agent「Nova Act」。据亚马逊介绍,Nova Act 能够替用户操控浏览器,同时收集、分析网页内容,并进行相对应的网页任务执行。未来,Nova Act 还将接入亚马逊旗下的生成式 AI 语音助手 Alexa+,为后者提供关键功能支持。

目前,Nova Act 已开放「研究预览版」,开发者可通过预览链接获取体验。性能方面,Nova Act 在亚马逊内部的多项测试中,均优于 OpenAI 和 Anthropic 的同类 Agent 产品。以衡量 AI 智能体与屏幕文本交互能力的 ScreenSpot Web Text 测试为例,Nova Act 得分高达 94%,超过了 OpenAI 的 CUA(88%)和 Anthropic 的 Claude 3.7 Sonnet(90%)。值得一提的是,Nova Act 由亚马逊在旧金山成立的 AGI(通用人工智能)实验室所研发,而该实验室由前 OpenAI 研究员 David Luan 和 Pieter Abbeel 共同领导。(@APPSO)

03.🤡愚人节特辑🤡

1、🐶 ElevenLabs 推出「Text-To-Bark」(文本转狗吠)模型,全球首个 AI 驱动的狗狗 TTS 模型

https://elevenlabs.io/text-to-bark

ElevenLabs 推出了最新的「Text-To-Bark」(文本转狗吠)模型,全球首个 AI 驱动的狗狗 TTS 模型,只需输入信息,选择品种,该模型就会将其转换为流畅的狗吠。

ElevenLabs 表示,独立基准测试显示,95%的狗无法区分 ElevenLabs AI 生成的狗吠声和真实的狗吠声,这一结果在国际 AI 社区中引起了轰动。商业客户将很高兴地听到,Text to Bark 将配备企业级安全和 2FP(2-Factor Pawthentication)作为标准。TTB 可以从所有主要的云狗架构提供商部署。


(@ElevenLabs@X)

2、🤩 OpenAI 推出 TTSTSTT,一种突破性的 AI 模型架构,让 AI 像人一样「听」懂语言

OpenAI 的 Real-Time AI 主管 Justin Uberti 宣布推出 TTSTSTT (发音为 /təˈtɪs.təˌstɪt/),这是一种革命性的 AI 模型架构。与以往完全基于文本标记训练的 LLM (大型语言模型) 不同,文本到语音到语音到文本 (TTSTSTT) 模型 专注于在听觉领域内进行推理训练,并且在输入和输出层都具备文本转换功能。

Uberti 解释说:「我们这样做的理由很简单。在人类历史的大部分时间里,人类都是通过口头语言进行交流和推理的。因此,我们相信,通过关注听觉模式,TTSTSTT 可以利用语言以语音形式产生和感知时出现的自然模式,其中语调、节奏等细微之处可以提供更具情境意识的推理。就像人类一样,当 TTSTSTT 『阅读』文本时,它在心中『听到』这些词语。」

尽管这种架构比传统模型略微复杂,但 Uberti 强调,多阶段系统能在每个阶段识别和纠正错误。他补充说:「而且,我们认为如果一个 transformer 很好,那么三个肯定更好。」

TTSTSTT 可以直接替代任何当前的文本 LLM。OpenAI 非常期待与开发者、研究人员以及更广泛的社区合作,收集反馈并使这一架构尽可能有用。如果您有兴趣基于 TTSTSTT 进行开发,请与我们联系! (@Justin Uberti @ X)

04.有态度的观点

1、李飞飞:AI 不应两极化

据联合早报消息,李飞飞日前在新加坡亚洲科技会展的一场炉边对话,分享了她所倡议的 AI 治理框架。李飞飞认为,许多关于 AI 的讨论和看法,都过于两极:一方面是来自硅谷的科技乌托邦,科技只会带来好处。另一方面,是彻底的反乌托邦,认为 AI 将导致人类灭绝。基于此观点,李飞飞提出了她形容为「最无聊乏味」的治理框架:我们缺少的是一个与人为善、以人为本的框架。对于上述框架内容,李飞飞分为了三个关键要素进行分析:

AI 是科学而不是科幻:AI 将改变许多事情,从治理的角度来看,人类须要用科学的方法来衡量进展或影响,而不是乌托邦或反乌托邦式的夸张说法;

务实面对,不被意识形态左右:当 AI 被认为不安全时,我们不应该极力阻碍或者大肆美化,而是要像福特汽车一样,在汽车被质疑安全性时,推出限速和系上安全带等方式,进行监管;

打造一个有助鼓励创新和人才发展的完整生态系统:教育、文化、科研、甚至商业的资源,都应该尽可能均衡协调,这样才能推进 AI 全面发展,而不是资源倾斜严重。最后,李飞飞还鼓励年轻人:保持对新鲜事物的热情,追寻内心的好奇心,以此去追求自己内心的梦想,直到找到属于自己的「北极星」,也不要放弃。(@APPSO)

更多 Voice Agent 学习笔记:

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布

素材来源官方媒体/网络新闻


RTE开发者社区
663 声望973 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。