C.AI 推出 AvatarFX 模型：让图片角色开口说话；Grok 升级视觉理解，支持多语种语音和语音实时搜索丨日报

开发者朋友们大家好

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、OpenBMB 开源社区上线代码 Agent「卷姬」

昨日，OpenBMB 开源社区上线代码 Agent 新成员 SurveyGO「卷姬」，官方介绍其能够「高效获取有价值的内容」。具体来看，用户只需要在「卷姬」官网输入想要提取的内容，便可在等待后获取到综述报告。而「卷姬」拥有两种处理模式：

普通模式：输出标题和关键词描述，提交并等待生成；
专业模式：可进一步自定义素材来源，选择「在线检索」或「上传文件」。

据悉，卷姬 SurveyGO 采用 LLMxMapReduce-V2 长文本整合生成技术。该技术由 AI9Star、OpenBMB、清华大学团队联合研发，核⼼在于借助⽂本卷积算法实现多篇参考⽂献的聚合来代替现有⽅法中常⻅的检索，从⽽实现对全部参考⽂章的充分利⽤。目前，卷姬已上线官网，LLMxMapReduce-V2 的相关论文和开源内容也已公布。(@APPSO)

2、字节 AI 工程师「Trae」发布全新版本

昨日，字节跳动旗下 AI 工程师「Trae」发布全新版本，更新了多个功能：

支持智能协作模式：召唤需要的 Agent 并给予上下文内容，AI 便可主动理解快速响应；
智能体生态升级：Trae 打造开放智能体生态，面对不同需求场景，用户可自由配置智能体体系；
上下文理解能力提升：Trae 理解能力升级，支持理解代码仓库等 IDE 内信息，支持联网搜索、上传文档等外部信息，通过上下文内容，AI
将从中自动拼接完整的需求拼图；
Trae IDE 支持多种外部工具的集成，如通过 MCP 调用外部资源。

据了解，Trae 于 3 月正式推出国内版，其配置 Doubao-1.5-pro 模型，并支持切换满血版 DeepSeek R1、V3 模型。据官方介绍，Trae 定位「智能协作 AI IDE」，以「人机协同、互相增强」为核心理念，对代码补全、代码理解、Bug 修复、基于自然语言生成代码等开发过程全场景都有非常好的适应性。(@APPSO)

02 有亮点的产品

1、Grok 发布 Vision 视觉版本，同时支持多语言音频和语音实时搜索

xAI 推出 Grok Vision（视觉功能）功能。可以通过手机摄像头「看到」并分析现实世界的物体、文本和环境（支持联网）。

同时支持多语言语音：Grok 语音功能现支持多种语言，支持西班牙语、法语、土耳其语、日语、印地语。

同时语音模式下支持实时搜索，可以使用语音命令进行搜索，Grok 能够实时提供答案。（@小互@X）

2、Kortix Suna：全球首个开源通用智能体

Kortix Suna 是首个开源的通用智能体，能够轻松帮助你完成现实世界中的各种任务。通过自然对话，Suna 成为你的数字伙伴，协助你进行研究、数据分析以及应对日常挑战——它将强大的功能与直观的界面相结合，能够理解你的需求并提供结果。

Suna 的强大工具包包括无缝的浏览器自动化功能，可以浏览网页并提取数据，文件管理功能用于文档的创建和编辑，网络爬虫和扩展搜索能力，命令行执行用于系统任务，网站部署以及与各种 API 和服务的集成。这些功能协同工作，使 Suna 能够通过简单的对话解决你的复杂问题并自动化工作流程！（@AI 小小将）

3、Character.AI 推出 AvatarFX 模型：AI 实现静转动，让图片角色开口说话

4 月 23 日消息，Character.AI 公司今天（4 月 23 日）在 X 平台发布推文，宣布推出 AvatarFX 模型，能够让静态图片中的人物「开口说话」。

用户只需上传一张图片并挑选一个声音，平台即可生成会说话、会移动的形象。这些形象还能展现情感，呈现出令人惊叹的真实感和流畅度。

公司表示，这得益于一种名为「SOTA DiT-based diffusion video generation model」的先进 AI 模型。该模型经过精心训练，结合音频条件优化技术，能高效生成高质量视频。

AvatarFX 的技术亮点在于其「高保真、时间一致性」的视频生成能力。即便面对多角色、长序列或多轮对话的复杂场景，它也能保持惊人的速度和稳定性。与 OpenAI 的 Sora 和 Google 的 Veo 等竞争对手相比，AvatarFX 并非从零开始或基于文本生成视频，而是专注于将特定图片动画化。（@依次努科技）

03 有态度的观点

1、Google DeepMind CEO（诺奖得主）Hassabis：AI 十年治愈所有疾病

日前，Google DeepMind CEO Demis Hassabis 在《60 分钟》节目中接受采访，并发表了自己对 AI 未来的憧憬。Demis Hassabis 在采访中坦言，AI 正在以惊人的指数级速度发展，人类正处于一条几乎垂直的进步曲线 —— 一路向上，而且速度不断加速。

同时，Hassabis 也认为 AI 具有两面性：它可以超越人类，甚至做出意想不到的事，而研发人员、科学家们必须清晰地认识到 AI 自建的知识库里面到底有什么。

对于 AGI（通用人工智能），Hassabis 预测将在未来 5-10 年内实现。Hassabis 还认为，「机器人会是下一个巨大的突破。在未来几年里，我们可能会看到人形或其他形态的机器人真正开始完成有用的工作」。

此外，Hassabis 还讨论到了「AI 自我意识」的相关话题。至于 AI 是否提出过出乎意料的问题，Hassabis 表示，就个人经历而言，目前还没有。这恰恰说明了 AI 的局限：缺乏真正的好奇心、想象力、直觉，无法提出未有的新问题或猜想。

不过，Hassabis 乐观地预测，未来 5-10 年，我们将看到 AI 不仅能破解科学难题，还能提出科学猜想。他表示，目前的 AI 称不上「有意识」，而理论上是能够实现 AI 的自主意识，但可能会以「隐性」的方式出现。Hassabis 进一步解释，当 AI 开始理解用户、自我、他人的关系，这可能就是「自我意识」发展的开端了。

有趣的是，Hassabis 还提醒，如果 AI 或者机器人真的有意识了，人类也未必能识别出来，毕竟 AI 能够学习人类并做出几乎一样的行为，并且 AI 同样具有「大脑」。（@APPSO、新智元）