字节推出 LiveCC，首个实时评论视频模型；AI 客户访谈初创 Listen Labs 融资 2700 万美元，红杉领投丨日报

开发者朋友们大家好

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、Agno Memory 2.0：智能体记忆交互历史，提升上下文感知和个性化

Agno Memory 2.0 发布全新记忆功能，让智能体存储和利用交互历史，实现上下文相关和个性化的响应。

记忆功能围绕三种机制展开：内置会话记忆、持久化会话记忆和用户个性化记忆，分别支持临时对话、跨会话连续性和用户定制化体验。

内置会话记忆（In-Memory Session Memory）： 智能体默认的临时记忆，存储在内存中，仅当前会话有效，会话结束即清空，内置记忆适合开发测试；
持久化会话记忆（Persistent Session Memory）： 通过「AgentStorage」将会话数据存储到数据库（如 SQLite、PostgreSQL），支持跨会话保存和恢复，持久化记忆支持连续对话；
用户个性化记忆（User-Specific Memory）： 通过「AgentMemory」为特定用户存储个性化笔记和洞察，记录偏好和习惯，个性化记忆优化用户体验。( @meng shao@X)

2、英伟达发布事物描述多模态模型 DAM

「描述一切模型」（Describe Anything Model，简称 DAM），是英伟达（Nvidia）开发的一种架构，用于为图像和视频上的特定区域生成精确且详细的描述。

可以使用点、框、涂鸦或掩码来指定区域，能根据指令生成不同细节及风格的描述，可以进行零样本区域问答。

举个例子，让它描述照片里的一只狗，它可以告诉你：「这是一只中等大小的红棕色狗，有着白色的腹部和腿，尾巴浓密，耳朵尖尖，戴着带有银色标签的红色项圈……」

可以用来辅助视觉障碍人士、医学影像分析、电商商品描述等等

除了识别目标对象，它还能描述其纹理、颜色、形状、显著部分等细节特征。对于视频类输入也一样，除了描述单帧图像中的对象，还能跟踪对象在视频中的运动和变化，并描述变化。

DAM 主要依靠其架构中的两项创新来实现上述功能：

聚焦提示：将完整图像及其掩码与感兴趣的裁剪区域相结合，该区域经过扩展以捕获上下文信息（例如，将边界框放大三倍）。
局部视觉主干：有两个并行的编码器：全局编码器（处理整个图像）和区域编码器（分析聚焦提示）。它们通过交叉注意力机制进行合并，从而能够保留对象的细节及其与周围环境的关系。（@AIGCLINK@X、全球经济论坛）

3、字节推出 LiveCC，首个支持实时评论的视频模型

由字节跳动和新加坡国立大学共同合作的 LiveCC 推出 Learning Video LLM，该视频模型具有流式语音转录功能，可实时评论画面，采用新颖的视频 ASR 流式方法进行训练，在流式和离线基准测试中均达到 SOTA。(@AK@X)

4、Gemini Live API 更新：可配置 VAD 、支持 30 种全新语言

Gemini Live API 为开发者提供了开发应用程序和智能体所需的必要工具，使其能够以极低的延迟处理流式音频、视频和文本。

Live API 今天发布的更新内容：

支持 30 种全新语言并新增两种语音选项；
支持可配置的语音活动检测（VAD），可更灵活地自定义 VAD 解决方案；
会话管理与可靠性显著增强。（@Google AI Developers@X、谷歌开发者）

02 有亮点的产品

1、YC 校友 Telli 为其 AI 语音智能体筹集 360 万美元预种子资金

Telli，一家由 Y Combinator 孵化的初创公司，正利用 AI 语音助手帮助企业解决客户服务瓶颈，例如处理大量预约。Telli 的 AI 语音助手可以处理基本操作，并将复杂流程转交人工客服。

这家总部位于柏林的初创公司已在由 Cherry Ventures 和 Y Combinator 领投的种子轮前融资中筹集了 360 万美元。

Telli 表示，其 AI 语音智能体能够执行自动回拨甚至完成交易等任务。

该公司声称其月收入环比增长超过 50%，并仅用六人团队在柏林办公室处理了近百万个电话。客户遍布德国、英国、拉丁美洲和美国，并计划进一步扩张。( @TechCrunch)

2、AI 客户访谈初创 Listen Labs 融资 2700 万美元，红杉领投，客户覆盖微软、Canva

Listen Labs 是一家由红杉资本支持的初创公司，利用 AI 同时进行数千次语音访谈，从而实现高效的客户研究。

该公司周三宣布已完成总计 2700 万美元的融资，种子轮和 A 轮均由红杉资本的 Bryan Schreier 领投，他也是客户体验平台 Qualtrics 的早期投支持的 AI 客户访谈公司。

微软、Canva 和 Chubbies 等客户已在使用 Listen 平台，在数小时内完成问题生成、参与者招募，并对不同人群和地区的受访者进行音频和视频访谈。 Listen 的跨文化能力尤为突出，能够以当地语言采访越南、马来西亚和意大利等地的受访者，帮助客户在非英语市场获得大规模的定性洞察。(@Alfred Wahlforss@X、FORTUNE)

3、Perplexity 更新语音助手功能：可控制您的 iOS 设备

Perplexity 语音助手现在可以控制您的 iOS 设备。

其功能包括：