开发者朋友们大家好
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、Agno Memory 2.0:智能体记忆交互历史,提升上下文感知和个性化
Agno Memory 2.0 发布全新记忆功能,让智能体存储和利用交互历史,实现上下文相关和个性化的响应。
记忆功能围绕三种机制展开:内置会话记忆、持久化会话记忆和用户个性化记忆,分别支持临时对话、跨会话连续性和用户定制化体验。
- 内置会话记忆(In-Memory Session Memory): 智能体默认的临时记忆,存储在内存中,仅当前会话有效,会话结束即清空,内置记忆适合开发测试;
- 持久化会话记忆(Persistent Session Memory): 通过「AgentStorage」将会话数据存储到数据库(如 SQLite、PostgreSQL),支持跨会话保存和恢复,持久化记忆支持连续对话;
- 用户个性化记忆(User-Specific Memory): 通过「AgentMemory」为特定用户存储个性化笔记和洞察,记录偏好和习惯,个性化记忆优化用户体验。( @meng shao@X)
2、英伟达发布事物描述多模态模型 DAM
「描述一切模型」(Describe Anything Model,简称 DAM),是英伟达(Nvidia)开发的一种架构,用于为图像和视频上的特定区域生成精确且详细的描述。
可以使用点、框、涂鸦或掩码来指定区域,能根据指令生成不同细节及风格的描述,可以进行零样本区域问答。
举个例子,让它描述照片里的一只狗,它可以告诉你:「这是一只中等大小的红棕色狗,有着白色的腹部和腿,尾巴浓密,耳朵尖尖,戴着带有银色标签的红色项圈……」
可以用来辅助视觉障碍人士、医学影像分析、电商商品描述等等
除了识别目标对象,它还能描述其纹理、颜色、形状、显著部分等细节特征。对于视频类输入也一样,除了描述单帧图像中的对象,还能跟踪对象在视频中的运动和变化,并描述变化。
DAM 主要依靠其架构中的两项创新来实现上述功能:
- 聚焦提示:将完整图像及其掩码与感兴趣的裁剪区域相结合,该区域经过扩展以捕获上下文信息(例如,将边界框放大三倍)。
- 局部视觉主干:有两个并行的编码器:全局编码器(处理整个图像)和区域编码器(分析聚焦提示)。它们通过交叉注意力机制进行合并,从而能够保留对象的细节及其与周围环境的关系。(@AIGCLINK@X、全球经济论坛)
3、字节推出 LiveCC,首个支持实时评论的视频模型
由字节跳动和新加坡国立大学共同合作的 LiveCC 推出 Learning Video LLM,该视频模型具有流式语音转录功能,可实时评论画面,采用新颖的视频 ASR 流式方法进行训练,在流式和离线基准测试中均达到 SOTA。(@AK@X)
4、Gemini Live API 更新:可配置 VAD 、支持 30 种全新语言
Gemini Live API 为开发者提供了开发应用程序和智能体所需的必要工具,使其能够以极低的延迟处理流式音频、视频和文本。
Live API 今天发布的更新内容:
- 支持 30 种全新语言并新增两种语音选项;
- 支持可配置的语音活动检测 (VAD),可更灵活地自定义 VAD 解决方案;
- 会话管理与可靠性显著增强。(@Google AI Developers@X、谷歌开发者)
02 有亮点的产品
1、YC 校友 Telli 为其 AI 语音智能体筹集 360 万美元预种子资金
Telli,一家由 Y Combinator 孵化的初创公司,正利用 AI 语音助手帮助企业解决客户服务瓶颈,例如处理大量预约。Telli 的 AI 语音助手可以处理基本操作,并将复杂流程转交人工客服。
这家总部位于柏林的初创公司已在由 Cherry Ventures 和 Y Combinator 领投的种子轮前融资中筹集了 360 万美元。
Telli 表示,其 AI 语音智能体能够执行自动回拨甚至完成交易等任务。
该公司声称其月收入环比增长超过 50%,并仅用六人团队在柏林办公室处理了近百万个电话。客户遍布德国、英国、拉丁美洲和美国,并计划进一步扩张。( @TechCrunch)
2、AI 客户访谈初创 Listen Labs 融资 2700 万美元,红杉领投,客户覆盖微软、Canva
Listen Labs 是一家由红杉资本支持的初创公司,利用 AI 同时进行数千次语音访谈,从而实现高效的客户研究。
该公司周三宣布已完成总计 2700 万美元的融资,种子轮和 A 轮均由红杉资本的 Bryan Schreier 领投,他也是客户体验平台 Qualtrics 的早期投支持的 AI 客户访谈公司。
微软、Canva 和 Chubbies 等客户已在使用 Listen 平台,在数小时内完成问题生成、参与者招募,并对不同人群和地区的受访者进行音频和视频访谈。 Listen 的跨文化能力尤为突出,能够以当地语言采访越南、马来西亚和意大利等地的受访者,帮助客户在非英语市场获得大规模的定性洞察。(@Alfred Wahlforss@X、FORTUNE)
3、Perplexity 更新语音助手功能:可控制您的 iOS 设备
Perplexity 语音助手现在可以控制您的 iOS 设备。
其功能包括:
- 播放媒体;
- 起草电子邮件;
- 移动会议;
- 预订车辆;
- 进行预订;
- 设置提醒等。(@TestingCatalog News@X)
03 有态度的观点
1、智元合伙人:具身智能淘汰赛即将开启
日前,智元机器人合伙人、具身业务部总裁姚卯青接受界面新闻采访,其谈及了目前具身机器人的现状以及未来发展。
作为曾经的智能驾驶从业者,姚卯青认为,与智能驾驶相比,具身智能虽然在硬件系统架构上非常类似,但在技术、场景和应用等方面都有更大的想象空间,大模型的突破则让大家看到了具身智能成功大规模落地的可能性。对于机器人何时能够走入家庭,姚卯青则乐观预测「再过五年」,或许机器人就能在家中出现了。
他坦言,现在处于第一阶段,而工厂仍然是具身智能最大的需求方。同时姚卯青还提到,具身智能真正的壁垒在于操控和大脑。而要完成这些,需要大量数据。姚卯青在采访中还表示,机器人不是大模型,最终还是要拼硬件、拼制造。他认为,机器人实际落地、实现规模化量产是一大难关。
在姚卯青看来,主流资本已经站好队,留给新成立的公司的机会已经不多,目前牌桌上的玩家要做的就是在更快的创业节奏下,做差异化、量产和商业闭环。( @APPSO)
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。