Rime 最新 TTS 模型 Arcana：能听到呼吸声和轻微口腔音；Bubba AI：专为卡车司机打造的语音交互智能体丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01.有话题的技术

1、Rime 发布 TTS 模型 Arcana：捕捉语音、口音、笑声、叹息以及介于两者之间的细微差别

Rime 公司近日发布了 Arcana，一款号称「有史以来最逼真」的语音合成 TTS 模型。

Arcana 能从上下文中推断情感。它会笑、叹气、哼唱，甚至能让你听到呼吸声和轻微的口腔音。它自然地说「嗯」等语气词。借助 Arcana，开发者仅需简单描述或虚拟角色名字，即可即时生成无限多样的声音。

Arcana 是一个多模态、自回归的文本到语音（TTS）模型，能够从文本输入生成离散的音频标记。这些标记通过一种新颖的基于编解码器的方法解码为高保真语音，实现了快于实时的合成速度。

Rime 优先考虑训练数据的真实性和多样性。与许多依赖于网络抓取的朗读语音数据的模型不同，这些数据往往缺乏日常对话的细微差别，Rime 使用在旧金山工作室及美国其他地点与普通人真实对话时录制的全双工、多语言语音数据构建了 Arcana。

技术报告：https://www.rime.ai/blog/introducing-arcana/（@Rime）

2、Skywork-R1V 2.0：38B 参数推理模型，视觉链式思维突破，数学/图像理解

昆仑万维 Skywork-R1V 2.0 版本开源，多模态推理实现了再进化，成为最强高考数理解题利器，在视觉语言基准测试中表现领先。Skywork-R1V 是首个开源的多模态推理模型，具备先进的视觉链式思维能力。该模型能够在视觉输入上进行多步骤的逻辑推理，将复杂的图像问题分解为可管理的步骤。此外，它还能够解决视觉数学问题，并高精度地解释科学和医学图像。Skywork-R1V 无缝集成文本和图像，实现更丰富的上下文感知理解。（@机器之心 SOTA 模型）

3、字节最新开源模型 Phantom：多主体一致性参考视频生成

Phantom 是一个统一的视频生成框架，能够支持单主体和多主体参考，并且是基于现有的文本到视频和图像到视频架构。通过重新设计联合文本-图像注入模型。Phantom 能够利用文本-图像-视频三元组数据实现跨模态对齐。此外，该模型在人类生成中强调主体一致性，同时增强身份保持的视频生成能力。当前今发布了 Phantom-Wan 1.3B 模型，Phantom-Wan 14B 模型将在后续计划发布。

Phantom 能够快速实现如：电商直播带货、商品展示、虚拟数传、广告宣传、影视视频等视频生成领域。这就再次改变行业，将 AI 视频进入新的行业和领域。（@破狼）

4、Tavus 发布 SOTA 唇形同步模型 Hummingbird-0

Tavus 公司最新发布的 Hummingbird-0 是一款 SOTA 唇形同步模型，目前仅在 FAL 上提供 API 作为研究预览使用。

FAL 平台 Hummingbird-0 模型体验地址： https://fal.ai/models/fal-ai/tavus/hummingbird-lipsync/v0（@三花 AI、Tavus@X）

02.有亮点的产品

1、Bubba.ai：解放司机双手，专为卡车司机打造的智能体产品

Bubba 是一款专为卡车司机打造的、以语音交互为主的智能体产品，通过先进的语音交互技术，让司机无需动手即可高效完成工作。它利用 Live API 实现流畅的多语言对话，无论是查询货运信息、协商运费，还是预订停车位，都能快速响应，解放司机双手，让驾驶更专注、更安全。

主要功能包括：

货运信息搜索与详细信息提供；
主动呼叫货运经纪人/发货人；
基于市场数据进行运费协商；
货运预订与运费确认单验证；
卡车停车位查找与预订，包括致电酒店确认可用情况；
安排与发货人、收货人的预约。

Bubba 使用的 Gemini Live API 既支持司机与 Bubba 的语音交互（利用函数调用和上下文缓存处理未来提货等问题），也支持 Bubba 在通话过程中参与协商和货运预订。这使得 Bubba 成为服务于美国规模最大、从业人员最多样化的美国卡车运输业的智能体产品。（@Google 开发者网站）

2、欧盟禁止智能体参与内部虚拟会议