头图

bba5885df414741f8dd45a40dfecdab.png

开发者朋友们大家好:

这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。

本期编辑:@赵怡岭、@鲍勃

01 有话题的技术

1、豆包·语音播客模型:基于流式模型构建,支持时事热点话题跟随

5 月 20 日,火山引擎正式推出豆包·语音播客模型,作为豆包大模型语音语言技术的重大场景化升级成果,该模型基于流式模型构建,能够实现从文本创作到双人对话式播客的秒级转化。同时无需复杂剪辑,热点内容就能转化为播客。

  • 双人对话自然流畅:以往的 AI 生成语音往往生硬死板,像机器人在说话,而豆包·语音播客模型凭借高度拟人的语音效果,结合真人专业播客中自然附和等口语习惯,让对话效果达到了专业播客录制的水准;
  • 播客创作高效快捷:传统播客制作可能需要耗费大量的时间和精力,而豆包·语音播客模型构建了端到端的便捷链路,一气呵成地完成整个创作过程;
  • 时事热点跟随:在信息更新换代极快的当下,紧跟时事热点是播客保持吸引力的关键。豆包·语音播客模型具备深度搜索功能,用户只需输入热点话题,5 秒即可听到利用最新信息生成的播客音频。(@火山引擎)

2、SEELE LMM,首个端到端的多模态游戏大模型

全灵 SEELE 推出 SEELE LMM ——端到端的多模态游戏模型。

SEELE LMM 只需要一句话指令,即可生成、编辑 3D 互动游戏内容,通过开放式 Prompt 实现动态 Remix 体验。

去年底,全灵 SEELE 宣布完成了千万美元 Pre-A 轮融资。本轮融资由百度战投领投,投资方包括美图投资、富坤创投等机构,老股东 Webtime Information S&T 持续加持。

公司创始人兼 CEO 王诗沐是前网易云音乐创始人,曾担任腾讯 NBase 创新业务总经理、腾讯新闻负责人。

体验链接:https://www.seeles.ai/(@全灵、SEELE)

3、字节跳动 Seed 团队开源统一多模态模型 BAGEL ,性能超越顶级开源视觉-语言模型

BAGEL 是一款由字节跳动 Seed 团队开源的统一多模态模型,7B 活跃参数,通过大规模交错多模态数据(语言、图像、视频、网络)训练,性能超越顶级开源视觉-语言模型(如 Qwen2.5-VL、InternVL-2.5),并在图像生成质量上媲美专业生成模型(如 SD3、FLUX.1)。

核心功能:

  • 生成:生成高保真图像、视频帧及交错内容,如三个标有 「SDXL」、「BAGEL」、「FLUX」 的魔法药水瓶,展示细节化生成能力;
  • 编辑:支持复杂图像编辑(如风格转换、3D 动画风格、Jellycat 毛绒玩具风格),通过视觉-语言推理超越基础编辑任务;
  • 导航:从现实世界视频数据中学习导航知识,适应科幻、艺术画等多样化环境;
  • 多轮对话:通过统一多模态接口,支持多轮交互、物理动态建模和未来帧预测;
  • 思考模式:利用多模态推理(CoT),将简短提示转化为详细、逻辑一致的输出,如将「由小车组成的大车」细化为逼真图像描述。(@
    shao__meng@X)

4、Google 最新发布多模态模型 Gemma 3n,支持音视频输入,可在仅 2GB 内存的设备上运行

Google 最新发布的 Gemma 3n 是一款高效、轻量、多模态的 AI 模型,专为移动设备优化,兼具强大性能和低资源需求。

模型特点:

  • 高效轻量:Gemma 3n 使用创新的逐层嵌入技术,内存占用低至 2-4B 参数模型水平,可在仅 2GB 内存的设备上运行;
  • 多模态能力:支持文本、图像等多种输入,音频和视频输入也即将支持。适用于图像描述、OCR、对象检测等任务;
  • 高性能:性能接近 Claude 3.7 Sonnet,优于 GPT-4.1-nano、Llama-4-Maverick 和 Phi 4 等模型。

技术与合作:

  • Google 联合 Qualcomm、MediaTek 和 Samsung 开发新架构,优化移动端性能;
  • 支持通过 Google AI Edge 在移动和 Web 应用上部署。

Gemma 3n 目前处于早期预览阶段,可通过 Google AI Studio 进行测试,同时提供便捷的微调功能,支持在 Google Colab 等平台上操作。( @ shao__meng@X)

5、Gemini 2.5 引入新功能:原生音频输出功能&Live API 改进

Gemini Live API 推出了音频视频输入和原生音频输出对话的预览版,因此您可以直接构建对话体验,使用更自然、更具表现力的 Gemini。

它还允许用户控制其语气、口音和说话风格。例如,用户可以让模型在讲故事时使用生动的声音。它还支持使用工具,以便能够代表用户进行搜索。

现在,可以供用户尝试的一系列早期功能包括:

  • 主动视频,模型能够检测并记住关键事件;
  • 情感对话,模型可以检测用户声音中的情感并做出适当的反应;
  • 主动音频,模型选择不响应无关的音频信号并知道何时做出回应;
  • 在 Live API 中思考,其中模型利用 Gemini 的思考能力来支持更复杂的任务。

谷歌还将为 2.5 Pro 和 2.5 Flash 版本发布全新的 TTS 功能预览版。这些功能首次支持多人对话,能够通过原生音频输出实现双声道文本转语音。

与 Native Audio 对话一样,文本转语音功能富有表现力,能够捕捉到非常细微的差别,例如低语。它支持超过 24 种语言,并可在多种语言之间无缝切换。( @InfoQ)

02 有亮点的产品

1、Google Meet:支持实时双语翻译配音,并保留对话双方的音色,超低延迟、无字幕

视频会议 Google Meet,支持实时的双语翻译配音,超低延迟、无字幕,并保留对话双方的音色、语调,目前支持英语-西班牙语支持已上线,后续将添加更多语言。(@GoogleWorkspace@X、@量子位)

2、Google 多模态 AI 助手「Project Astra」:作为 Gemini 应用的新功能正式推出

Google 的 Project Astra 升级了语音输出,使其通过原生音频输出听起来更自然;同时改进了记忆功能并增加了计算机控制。

「我们的终极愿景是将 Gemini 应用打造成一个通用的 AI 助手,它可以为我们执行日常任务,处理日常的日常管理,并提供令人愉悦的新建议,从而提高我们的工作效率,丰富我们的生活。」

现在 Project Astra 能够实时观察周围环境,例如搜索资料指导小哥修自行车,零件不够还能自动电话询问周边商店有没有货。(@机器之心、@量子位)

3、Google Beam:AI 驱动的 3D 视频通信平台,能够将 2D 视频流转化为逼真的 3D 体验

Google Beam 是一款 AI 驱动的 3D 视频通信平台,由原裸眼 3D 视频通话 Project Starline 升级而来。

现在的 Google Beam 平台利用 AI 赋能新一代设备,帮助人们无论身在何处都能建立有意义的联系。

Google Beam 借助最先进的视频模型,通过一个由六个摄像头组成的阵列并结合 AI 技术,将标准的 2D 视频流转化为逼真的 3D 体验,让用户以更自然、更直观的方式进行连接。

据介绍,该产品拥有「近乎完美」的毫米级头部追踪和 60fps 的视频流传输。与 Google Meet 配合使用时,Beam 提供 AI 驱动的实时语音翻译功能,可保留原始说话者的声音、语调和表情。(@机器之心)

4、谷歌搜索引入 AI Mode,预计今夏上线 Search Live 功能

谷歌搜索 AI 模式是对搜索的彻底重新构想,可以提出更长、更复杂的查询。用户已经提出 2-3 倍长的问题。今天,它作为搜索中的新标签,为美国市场的所有用户提供。

AI 模式将能够为用户提供更个性化的建议,包括学习用户在餐厅偏好户外座位的喜好、查看收件箱以获取用户访问特定地点的具体时间和日期,用户能够随时管理这些功能集成。

谷歌还演示了谷歌搜索 AI 模式的多个应用示例,包括生成图表;以及输入「帮我找两张周六比赛的票」,谷歌搜索就会去很多票务网站查找票务,然后呈现给用户多个选项,方便用户购买想要的票。

Search Live 功能也将在今年夏天登陆谷歌搜索的 AI 模式。Search Live 实时互动搜索,用户只需在 AI Mode 下轻触「Live」图标,对着手机摄像头提问,AI 就能看懂画面内容并给出实时的语音解答和相关资源链接。(@乾智 AI、@量子位)

03 有态度的观点

1、富士康董事长:AI 难以替代人类工人

日前,富士康董事长刘扬伟在 2025 COMPUTEX 大会上发表个人演讲,谈及 AI 制造工厂时,其对「AI 是否取代人类工人」这一话题进行了讨论。

刘扬伟在演讲中指出,虽然 AI 在近几次的迭代中可以达到 80% 的准确率,但此后其发展进展会显著放缓。

对于 AI 与人类的在「富士康构思的下一代工厂」中的运用比例,刘扬伟则预测将会是:AI 帮助完成 80% 的工作,剩下的 20% 则需要熟练的工人、技术人员来进行完成。

刘扬伟进一步分析,AI 虽然提升了工作效率,但对于精准且复杂的任务,人类的专业知识仍然是必不可少的一部分。 另外,本次演讲中刘扬伟还公布了富士康在未来的「3+3+3=∞」的战略(即智能制造、智能电动汽车、智能城市,并由与英伟达合作开发的最新 AI 工厂提供支持)。其中刘扬伟提到,目前就谈 AI 的计算需求顶峰,似乎还太早,「现在只是一个开始」。(@ APPSO)

更多 Voice Agent 学习笔记:

级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记

a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记

a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记

端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记

世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过

多模态 AI 怎么玩?这里有 18 个脑洞

AI 重塑宗教体验,语音 Agent 能否成为突破点?

对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来

a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)

写在最后:

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。

对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻


RTE开发者社区
663 声望976 粉丝

RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。