开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01.有话题的技术
1、Rime 发布 TTS 模型 Arcana:捕捉语音、口音、笑声、叹息以及介于两者之间的细微差别
Rime 公司近日发布了 Arcana,一款号称「有史以来最逼真」的语音合成 TTS 模型。
Arcana 能从上下文中推断情感。它会笑、叹气、哼唱,甚至能让你听到呼吸声和轻微的口腔音。它自然地说「嗯」等语气词。借助 Arcana,开发者仅需简单描述或虚拟角色名字,即可即时生成无限多样的声音。
Arcana 是一个多模态、自回归的文本到语音(TTS)模型,能够从文本输入生成离散的音频标记。这些标记通过一种新颖的基于编解码器的方法解码为高保真语音,实现了快于实时的合成速度。
Rime 优先考虑训练数据的真实性和多样性。与许多依赖于网络抓取的朗读语音数据的模型不同,这些数据往往缺乏日常对话的细微差别,Rime 使用在旧金山工作室及美国其他地点与普通人真实对话时录制的全双工、多语言语音数据构建了 Arcana。
技术报告:https://www.rime.ai/blog/introducing-arcana/(@Rime)
2、Skywork-R1V 2.0:38B 参数推理模型,视觉链式思维突破,数学/图像理解
昆仑万维 Skywork-R1V 2.0 版本开源,多模态推理实现了再进化,成为最强高考数理解题利器,在视觉语言基准测试中表现领先。Skywork-R1V 是首个开源的多模态推理模型,具备先进的视觉链式思维能力。该模型能够在视觉输入上进行多步骤的逻辑推理,将复杂的图像问题分解为可管理的步骤。此外,它还能够解决视觉数学问题,并高精度地解释科学和医学图像。Skywork-R1V 无缝集成文本和图像,实现更丰富的上下文感知理解。(@机器之心 SOTA 模型)
3、字节最新开源模型 Phantom:多主体一致性参考视频生成
Phantom 是一个统一的视频生成框架,能够支持单主体和多主体参考,并且是基于现有的文本到视频和图像到视频架构。通过重新设计联合文本-图像注入模型。Phantom 能够利用文本-图像-视频三元组数据实现跨模态对齐。此外,该模型在人类生成中强调主体一致性,同时增强身份保持的视频生成能力。当前今发布了 Phantom-Wan 1.3B 模型,Phantom-Wan 14B 模型将在后续计划发布。
Phantom 能够快速实现如:电商直播带货、商品展示、虚拟数传、广告宣传、影视视频等视频生成领域。这就再次改变行业,将 AI 视频进入新的行业和领域。(@破狼)
4、Tavus 发布 SOTA 唇形同步模型 Hummingbird-0
Tavus 公司最新发布的 Hummingbird-0 是一款 SOTA 唇形同步模型,目前仅在 FAL 上提供 API 作为研究预览使用。
FAL 平台 Hummingbird-0 模型体验地址: https://fal.ai/models/fal-ai/tavus/hummingbird-lipsync/v0(@三花 AI、Tavus@X)
02.有亮点的产品
1、Bubba.ai:解放司机双手,专为卡车司机打造的智能体产品
Bubba 是一款专为卡车司机打造的、以语音交互为主的智能体产品,通过先进的语音交互技术,让司机无需动手即可高效完成工作。它利用 Live API 实现流畅的多语言对话,无论是查询货运信息、协商运费,还是预订停车位,都能快速响应,解放司机双手,让驾驶更专注、更安全。
主要功能包括:
- 货运信息搜索与详细信息提供;
- 主动呼叫货运经纪人/发货人;
- 基于市场数据进行运费协商;
- 货运预订与运费确认单验证;
- 卡车停车位查找与预订,包括致电酒店确认可用情况;
- 安排与发货人、收货人的预约。
Bubba 使用的 Gemini Live API 既支持司机与 Bubba 的语音交互(利用函数调用和上下文缓存处理未来提货等问题),也支持 Bubba 在通话过程中参与协商和货运预订。这使得 Bubba 成为服务于美国规模最大、从业人员最多样化的美国卡车运输业的智能体产品。(@Google 开发者网站)
2、欧盟禁止智能体参与内部虚拟会议
(图片来源:politico.eu 官网)
欧盟委员会出台新规,禁止基于人工智能的虚拟助手参与欧盟内部的虚拟会议。
据 POLITICO 报道,该禁令影响了通常用于转录、做笔记,甚至录制视频和音频的 AI 助手。 此类 AI 智能体能够自主执行复杂任务,例如通过与视频会议软件交互,而 Salesforce 等公司已将其应用于联系销售线索等场景。
欧盟委员会确认,这是欧盟首次实施此类规定,但拒绝向 POLITICO 解释具体原因。(@TechRepublic)
3、Omakase AI :为电商网站提供 AI 驱动的零售对话解决方案
Omakase AI 是一款 AI 驱动的零售对话解决方案,旨在通过智能化的客户交互体验提升电商网站的销售转化率。
与传统的客服机器人不同,Omakase AI 定位为 AI 购物智能体,利用自然语音对话和高度个性化的对话流程,模拟专业店员的服务,引导用户完成购买决策。
其部署简单,无需编码或复杂配置即可快速上线。(@ProductHunt)
4、AI 应用编程软件 Lovable 更新 2.0:支持多人协作编辑,在线编辑项目代码
AI 应用编程软件 Lovable 发布了 2.0 版本,该版本支持邀请团队成员加入工作项目,实现多人协作编辑、或创建团队工作区跨项目进行协作。无论是初创团队还是大型企业,都能通过这一功能高效完成协同工作。开发者模式可直接在 Lovable 中编辑项目代码。(@ Loveable@X)
5、PlayAI 发布音频消除功能 Audio Cleaner:一键消除录音中的杂音
- 智能去除背景噪音;
- 强力处理极端场景(如大风环境);
- 保留人声原音质;
- 适合内容创作者、播客主播及团队使用。(@ PlayAI@X)
03.态度的观点
1、Sand.ai 创始人:AI 视频生成需要因果关系
日前,Sand.ai 公布了一款名为「Magi-1」的自回归视频生成模型,而创始人曹越接受《暗涌》采访,分享了他与团队在打造模型的历程。
为何选择视频生成这条赛道,曹越给出了很简单的理由:因为它是一个技术天花板和商业天花板都非常高的方向。曹越表示,如果以终为始地思考,AGI 也离不开对视频数据的压缩。而对于 OpenAI 的 Sora,曹越则认为其刚面世时,技术路线存在问题,因而选择了 AR(自回归)这一解决方案。
对于自回归路线,曹越透露,团队认为视频生成最终在时序上一定是因果关系。
他表示:
就像语言模型,只能是顺着,从左上到右下看文字,没有人会倒着看。视频也是如此。很多物理规律,本质是一个随着时间变化的函数。
他还吐槽了早期 Sora 的解决方案:人走路时,经常出现左腿接着左腿走动的现象。并表示这是因为模型训练时只学到时序上的相关性,而没有持续上的因果。
有趣的是,曹越在采访中透露了 Sand.ai 这一名字的来源:沙子的主要组成元素就是硅。碳基人的我们,现在本质上处在硅基前沿,而在猜想中,硅基生物都是以沙子为食物的。(@APPSO)
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式...语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。