开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
01.有话题的技术
1、阿里通义「端到端多模态」大模型登顶 Hugging Face 全球趋势榜
昨天下午,阿里通义千问宣布,旗下端到端多模态大模型 Qwen2.5-Omni-7B 登顶 Hugging Face 全球趋势榜。据榜单显示,Qwen2.5-Omni-7B 超越 DeepSeel-V3 最新版本、自家 Qwen2.5-VL-32B 等一众火热大模型。Qwen2.5-Omni-7B 于 3 月 27 日发布,仅 7B 参数大小,支持文本 / 图像 / 音频 / 视频的跨模态理解;能够实时音视频交互,并且拥有自然流畅的语音生成。
性能表现上,Qwen2.5-Omni-7B 在各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro;在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。目前,Qwen2.5-Omni 已在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源开放,用户可以通过 Demo 体验互动功能,或是通过 Qwen Chat 直接发起语音或视频聊天。(@APPSO)
2、Kyutai Labs 推出 Moshi 微调工具包,仅需数小时即可完成
https://github.com/kyutai-labs/moshi-finetune
近日 Kyutai Labs 宣布推出「moshi-finetune」工具包,为用户提供了一个便捷的途径来定制语音 AI 模型 Moshi,从而实现个性化的语音交互体验。据 Kyutai Labs 介绍,用户可通过导入自定义数据集,灵活调整 Moshi 的声音、语调及个性特征。他们展示了一个案例:仅用公开的 DailyTalk 数据集进行 20 小时微调,Moshi 即可呈现显著的个性化效果。
Kyutai Labs 强调,微调过程高效便捷,借助 LoRA 技术,仅需数小时即可完成,且仅需单块 GPU 即可运行。为方便用户上手,他们在工具包中附带了一个示例 Colab 笔记本,直观演示了微调的简易流程。
Kyutai Labs 还指出,用户若拥有分离语音流的音频数据(如播客录音或客户互动记录),可训练专属的 Moshi 模型。目前,社区已涌现出多种 Moshi 扩展应用,例如由日本开发者开发的日语版 J-Moshi。(@Kyutai Labs@X)
3、科学家用 AI 模型研发脑-声神经假体,将失语症患者脑信号转为人声,语音解码能力媲美 Siri
(图片来源:Nature Neuroscience)
一名女子是患有失语症的瘫痪人士,她最近作为受试者参与了一项基于新技术的实验,在不依赖任何发声的前提下,该技术能够直接与她的发声意图同步合成语音。
在深度学习模型的帮助之下,本次技术能在 80 毫秒内合成语音,并能同时进行文本解码,语音解码能力媲美和 Siri 和 Alexa。利用受试者在无声尝试「模仿」或「张嘴」时的神经活动,无需任何发声即可合成来自于 1024 个单词词汇表的句子。即便在离线状态之下,解码器也能连续运行数分钟之久。相关论文于近日发表在 Nature Neuroscience。(@DeepTech 深科技)
02.有亮点的产品
1、实时语音智能体平台 Vapi 2.0 上线,集成 Langfuse 实现实时可观测性
Vapi 是一个专注于实时语音智能体的基础设施平台。
该平台支持开发者部署由 LLM 驱动的电话智能体,这些智能体能够交谈、倾听、推理和执行操作,响应延迟低于 500 毫秒,并支持超过 60 分钟的持续对话。
Vapi 2.0 版本带来了以下新功能:
- 超过 100 种模型集成(包括转录、LLM 和文本转语音)
- 全新对话工作流和知识库系统
- 更加拟人的 Vapi 语音
- 支持数百万通电话的企业级基础设施
- 通过 Langfuse 集成实现实时可观测性
- 丰富的语音智能体配置选项
目前,Vapi 已为医疗、客户支持、物流等行业提供了超过 4400 万通电话的服务支持。用户可拨打 1-844-HEY-VAPI 体验最新功能。(@Vapi@X)
2、第四范式旗下品牌推出 AI 手表,支持语音唤醒
昨日,Phancy 携手兰博基尼、李小龙推出的两款 AI 手表正式亮相。据悉,两款手表通过搭载 Phancy「AI 机芯」,即为用户提供 AI 智能体模组,以及 AI Agent 功能、操作系统等软硬件解决方案,让手表在轻奢、时尚的外表下,注入了丰富的 AI 能力。具体来看,兰博基尼、李小龙 AI 手表中的智能化能力均来源于 Phancy 所提供的 AI 智能体模组、 AI Agent 功能以及操作系统等软硬件解决方案。通过将 Phancy 智能体模组嵌入到手表中,保障大模型、Agent、以及各类 AI 功能在手表上稳定运行。
值得一提的是,Phancy AI 智能体模组可本地运行端侧大模型,无需调用云端。Phancy 介绍,用户可通过语音、按键等多种方式唤醒手表中的 AI 助手,体验天气、股票、资讯等信息查询、翻译、同声传译、会议速记及纪要整理、智能导航、运动助手等丰富的 AI 功能。未来,AI Agent 能力还会持续扩充。(@APPSO)
03.有态度的观点
1、微软 CEO:Scaling Law 正给 AI 带来巨大转变
3 月 27 日,微软 CEO Satya Nadella 在日本微软 AI 巡回活动中发表演讲。开篇,Satya Nadella 便聊到时下热门的 Scaling Law。他表示,伴随着深度学习带来的革命性突破,团队开始观察到一系列基础性的预训练 Scaling Law,正促使 AI 能力大约每六个月实现一次翻倍。Satya Nadella 还透露,计算领域所带来的 Scaling Law 也一同并入了发展的曲线中,事实上 AI 能力已缩短至「每三个月一次翻倍」。结合上述情况,Satya Nadella 指出,AI 快速发展带来了更低的使用价格,而真正问题在于,人类需要如何高效利用这些强大的 AI 能力。Satya Nadella 总结了三大根本性突破,来阐述了如何更好地发挥 AI 的能力,并重塑整个生活乃至社会领域:
第一大突破在于用户界面。随着多模态模型的能力日趋强大,交互方式也变得越来越自然流畅,用户将可以直接与 AI 进行对话;AI 将能融入人类的周遭世界,变得更加无感,同时能够渗透到每一个部分,无论虚拟还是现实;
第二点,人类还将获得在规划和推理方面强大的赋能。Satya Nadella 解释,AI 不再仅仅局限于处理输入和输出信息,用户可以让它进行长远规划、前瞻性思考以及复杂的逻辑推理;
基于第二点,用户甚至可以赋予 AI 更为复杂的长期记忆能力和更丰富的上下文信息,从而确保它的回应和行动都有可靠的事实依据,即让 AI 能够基于特定的背景知识以及过往的交互历史来进行思考和运作。因此 Satya Nadella 认为,上述三项核心能力——「自然的交互界面」「强大的规划与推理」「基于背景和记忆的事实依据」,将对整个技术栈产生极为深远的影响。此外,Satya Nadella 也表示,AI 应该予力全球每一个人、每一组织,并在所有人手上成就不凡。(@APPSO)
更多 Voice Agent 学习笔记:
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
g)
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。