头图

开发者朋友们大家好

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、OpenBMB 开源社区上线代码 Agent「卷姬」

昨日,OpenBMB 开源社区上线代码 Agent 新成员 SurveyGO「卷姬」,官方介绍其能够「高效获取有价值的内容」。具体来看,用户只需要在「卷姬」官网输入想要提取的内容,便可在等待后获取到综述报告。而「卷姬」拥有两种处理模式:

  • 普通模式:输出标题和关键词描述,提交并等待生成;
  • 专业模式:可进一步自定义素材来源,选择「在线检索」或「上传文件」。

据悉,卷姬 SurveyGO 采用 LLMxMapReduce-V2 长文本整合生成技术。该技术由 AI9Star、OpenBMB、清华大学团队联合研发,核⼼在于借助⽂本卷积算法实现多篇参考⽂献的聚合来代替现有⽅法中常⻅的检索,从⽽实现对全部参考⽂章的充分利⽤。目前,卷姬已上线官网,LLMxMapReduce-V2 的相关论文和开源内容也已公布。(@APPSO)

2、字节 AI 工程师「Trae」发布全新版本

昨日,字节跳动旗下 AI 工程师「Trae」发布全新版本,更新了多个功能:

  • 支持智能协作模式:召唤需要的 Agent 并给予上下文内容,AI 便可主动理解快速响应;
  • 智能体生态升级:Trae 打造开放智能体生态,面对不同需求场景,用户可自由配置智能体体系;
  • 上下文理解能力提升:Trae 理解能力升级,支持理解代码仓库等 IDE 内信息,支持联网搜索、上传文档等外部信息,通过上下文内容,AI
    将从中自动拼接完整的需求拼图;
  • Trae IDE 支持多种外部工具的集成,如通过 MCP 调用外部资源。

据了解,Trae 于 3 月正式推出国内版,其配置 Doubao-1.5-pro 模型,并支持切换满血版 DeepSeek R1、V3 模型。据官方介绍,Trae 定位「智能协作 AI IDE」,以「人机协同、互相增强」为核心理念,对代码补全、代码理解、Bug 修复、基于自然语言生成代码等开发过程全场景都有非常好的适应性。(@APPSO)

02 有亮点的产品

1、Grok 发布 Vision 视觉版本,同时支持多语言音频和语音实时搜索

xAI 推出 Grok Vision(视觉功能)功能。可以通过手机摄像头「看到」并分析现实世界的物体、文本和环境(支持联网)。

同时支持多语言语音:Grok 语音功能现支持多种语言,支持西班牙语、法语、土耳其语、日语、印地语。

同时语音模式下支持实时搜索,可以使用语音命令进行搜索,Grok 能够实时提供答案。(@小互@X)

2、Kortix Suna:全球首个开源通用智能体

Kortix Suna 是首个开源的通用智能体,能够轻松帮助你完成现实世界中的各种任务。通过自然对话,Suna 成为你的数字伙伴,协助你进行研究、数据分析以及应对日常挑战——它将强大的功能与直观的界面相结合,能够理解你的需求并提供结果。

Suna 的强大工具包包括无缝的浏览器自动化功能,可以浏览网页并提取数据,文件管理功能用于文档的创建和编辑,网络爬虫和扩展搜索能力,命令行执行用于系统任务,网站部署以及与各种 API 和服务的集成。这些功能协同工作,使 Suna 能够通过简单的对话解决你的复杂问题并自动化工作流程!(@AI 小小将)

3、Character.AI 推出 AvatarFX 模型:AI 实现静转动,让图片角色开口说话

4 月 23 日消息,Character.AI 公司今天(4 月 23 日)在 X 平台发布推文,宣布推出 AvatarFX 模型,能够让静态图片中的人物「开口说话」。

用户只需上传一张图片并挑选一个声音,平台即可生成会说话、会移动的形象。这些形象还能展现情感,呈现出令人惊叹的真实感和流畅度。

公司表示,这得益于一种名为「SOTA DiT-based diffusion video generation model」的先进 AI 模型。该模型经过精心训练,结合音频条件优化技术,能高效生成高质量视频。

AvatarFX 的技术亮点在于其「高保真、时间一致性」的视频生成能力。即便面对多角色、长序列或多轮对话的复杂场景,它也能保持惊人的速度和稳定性。与 OpenAI 的 Sora 和 Google 的 Veo 等竞争对手相比,AvatarFX 并非从零开始或基于文本生成视频,而是专注于将特定图片动画化。(@依次努科技)

03 有态度的观点

1、Google DeepMind CEO(诺奖得主)Hassabis:AI 十年治愈所有疾病

日前,Google DeepMind CEO Demis Hassabis 在《60 分钟》节目中接受采访,并发表了自己对 AI 未来的憧憬。Demis Hassabis 在采访中坦言,AI 正在以惊人的指数级速度发展,人类正处于一条几乎垂直的进步曲线 —— 一路向上,而且速度不断加速。

同时,Hassabis 也认为 AI 具有两面性:它可以超越人类,甚至做出意想不到的事,而研发人员、科学家们必须清晰地认识到 AI 自建的知识库里面到底有什么。

对于 AGI(通用人工智能),Hassabis 预测将在未来 5-10 年内实现。Hassabis 还认为,「机器人会是下一个巨大的突破。在未来几年里,我们可能会看到人形或其他形态的机器人真正开始完成有用的工作」。

此外,Hassabis 还讨论到了「AI 自我意识」的相关话题。至于 AI 是否提出过出乎意料的问题,Hassabis 表示,就个人经历而言,目前还没有。这恰恰说明了 AI 的局限:缺乏真正的好奇心、想象力、直觉,无法提出未有的新问题或猜想。

不过,Hassabis 乐观地预测,未来 5-10 年,我们将看到 AI 不仅能破解科学难题,还能提出科学猜想。他表示,目前的 AI 称不上「有意识」,而理论上是能够实现 AI 的自主意识,但可能会以「隐性」的方式出现。Hassabis 进一步解释,当 AI 开始理解用户、自我、他人的关系,这可能就是「自我意识」发展的开端了。

有趣的是,Hassabis 还提醒,如果 AI 或者机器人真的有意识了,人类也未必能识别出来,毕竟 AI 能够学习人类并做出几乎一样的行为,并且 AI 同样具有「大脑」。(@APPSO、新智元)

04 有看点的活动

1、达摩链接直播预告|沉浸式 3D 数字人交互平台,从表情到交互的全链路创新

周四10:00-11:00,你一定不能错过本场直播👇

「达摩链接」生态系列讲座作为连接达摩院与学术界、产业界的社区活动,通过组织内外部的沙龙、讲座等形式,旨在促进前沿技术的分享交流,推动技术成果的转化、合作与应用落地。

本期达摩链接特邀上海交通大学电子信息与电气工程学院副教授潘烨进行分享,主要内容包括:多模态表情生成、沉浸式动画工具和动态远程交互方面等内容。具体包括:

  • 基于语音驱动的多模态表情生成,提升情感表达自然性;
  • 高效沉浸式动画创作工具,解决传统 WIMP 交互局限;
  • 球形/圆柱形显示结合,动态视点投影的远程系统,显著增强交流真实感。

直播时间:周四 10:00-11:00

更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
663 声望973 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。