开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、谷歌推出 LightLabAI 全新技术精确操控单图光影
2025 年 5 月 17 日,谷歌联合特拉维夫大学、瑞克曼大学与希伯来大学的研究团队正式推出 LightLab,这是一种基于扩散模型的人工智能图像编辑方法,可以在单张图像中实现物理可信的、精细化的光照操控。
LightLab 依托扩散模型,通过成对图像隐式建模光照变化。这些成对数据包括两种来源:600 对真实图像与大规模的合成图像。真实图像由移动设备固定拍摄完成,通过切换光源记录同一场景「有光-无光」的对照,利用自动曝光和后期校准确保曝光一致性。而合成图像则基于 20 个艺术家设计的室内 3D 场景生成,使用 Blender 进行物理渲染,随机采样相机视角并程序化调整光源参数(如强度、色温、面积与锥角)。这一合成数据管线有效增强了模型的泛化能力。
研究团队为局部空间信号和全局控制信号使用了不同的条件方案。空间条件包括输入图像、输入图像的深度图,以及两个空间分割掩码,分别用于目标光源的强度变化和颜色。
全局控制(环境光强度和色调映射策略)被投影到文本嵌入维度,并通过交叉注意力机制插入。
- 论文地址:
https://arxiv.org/abs/2505.09608
- 项目主页:
https://nadmag.github.io/LightLab/
- HuggingFace:
https://huggingface.co/papers/2505.09608 (@AI 之星网、@机器之心)
2、复旦携手腾讯推出说话人视频生成工具 DICE-Talk
复旦大学与腾讯人工智能实验室近日联合发布了 DICE-Talk 动态情感视频生成系统,该系统通过多模态情感驱动框架实现了语音、文本与面部表情的精准同步,标志着生成式 AI 在情感表达维度取得重要突破。
技术团队采用双通道神经网络架构,分别处理语音情感特征和微表情生成,配合 3D 人脸建模技术实现每秒 60 帧的细腻表情变化。该系统在普通话、英语等多语言场景下均可生成自然的面部肌肉运动,尤其在表达喜悦、惊讶等复合情感时达到行业领先水平。
- 核心创新在于身份-情感分离处理机制,确保情感变化时人物外观一致;
- 能够解构身份信息并协同情感生成,支持多种情感状态的自然过渡;
- 用户只需上传图像和音频即可生成对应情感的动态视频,操作简单且直观。
腾讯云计划在今年第四季度开放 API 接口,首批将支持短视频制作、在线客服等商业场景。
GitHub 链接:
https://github.com/toto222/DICE-Tal(@AIbase 基地、@AIBUPT)
3、Ollama 新引擎支持多模态推理模型,未来将支持语音、图像和视频生成
Ollama 的新引擎开始支持多模态模型,首先支持模型包括:Meta Llama 4、Google Gemma 3、Qwen 2.5 VL、Mistral Small 3.1 等视觉模型。
据悉,目前 Ollama 依赖于 ggml-org/llama.cpp 项目来支持模型,并专注于易用性和模型的可移植性。
随着更多多模态模型由主要研究实验室发布,按照 Ollama 的方式支持这些模型的任务变得越来越具有挑战性。
Ollama 因此着手支持一个新的引擎,使多模态模型成为一等公民,并促使 Ollama 的合作伙伴通过 GGML 张量库更直接地为社区做出贡献。
据 Ollama 介绍,这项工作旨在提高 Ollama 本地推理的可靠性和准确性,并为支持未来具有更多功能的多模态奠定基础,例如语音、图像生成、视频生成、更长的上下文长度、以及对模型的改进工具支持。(@Ollama)
4、开源语音模型 OuteTTS-1.0-0.6B:基于 Qwen-3 0.6B训练,支持快速音频生成
(图片来源:HuggingFace)
开源语音合成模型 OuteTTS 发布了最新的版本 OuteTTS-1.0-0.6B。
- 基于 Qwen-3 0.6B
- Apache 2.0(免费用于商业和个人用途)
- 支持 14 种以上语言
- 添加了批量推理,支持长输入的快速音频生成(约 0.1–0.02 RTF)(@OuteAI@X)
02 有亮点的产品
1、ListenHub 正式发布:专注短播客内容的 AI 播客 Agent
ListenHub 是一个专注短播客内容的 AI 播客 Agent。通过 ListenHub,用户无需剪辑,即可制作和消费短播客内容。目前 ListenHub 支持三个客户端:Web、App 和浏览器插件。
ListenHub 现在有四种创作模式:
- 直接输入感兴趣的话题,也可以指定话题里必须包含的内容,比如东京的周边游,可以要求必须包含伊豆。 这个模式下 AI 会调动 Deep Search 进行规划和搜索,有【快速】和【深度】两种选择;
- 粘贴链接,输入一篇文章的链接进来,转换为播客;
- 上传文件,可以上传 PDF、DOCX、TXT 等文件,转换为播客。目前只支持 10M 以内的文件;
- 长文本,用法很灵活,可以粘贴一篇长文过来,也可以粘贴自己的笔记或编写的播客大纲,可以输入背景信息和自己的观点,让 AI 根据观点来制作内容。
iOS 下载地址:
https://apps.apple.com/us/app/listenhub/id6743071290
浏览器插件:
https://chromewebstore.google.com/detail/listenhub-instantly-... (@橘子汽水铺)
2、ElevenLabs SB-1:Infinite Soundboard 发布,支持文本转音效和无限环境噪音生成
ElevenLabs 发布基于 AI 的可定制音效控制面板 SB-1Infinite Soundboard,支持文本驱动的音效生成、多场景应用及创作者友好功能,革新音效制作方式。这是一个集文本转音效生成器、声板、鼓机和无限环境噪音生成器于一体的工具。用户可以描述想要的音效,SB1 会使用其文本转音效模型生成声音。它提供预设音效、鼓机,用户也可以创建自己的声板。11 Labs 还与 Spotify 合作提供有声书旁白服务。
- 文本驱动音效生成:输入文字即可生成高质量逼真音效,突破传统音效库限制;
- 多场景赋能:适用于直播、影视、表演等,提升沉浸感与创作效率;
- 社区友好:免费账户解锁全部功能,降低技术门槛,广受创作者欢迎。 (@AIbase 基地、@数图笔记)
3、谷歌首款 AR 眼镜,操作系统采用 Android XR,最快今年发售
钛媒体App 5月19日消息,从接近谷歌处人士独家获悉,谷歌首款AR眼镜将在本周的I/O大会上发布,类似于此前和三星在MR上的合作,此次也是和一家头部AR厂商合作研发,采用BirdBath方案,运行AndroidXR系统,预计最快将于今年下半年正式上市开售。
本月,Google Android XR 负责人 Shahram Izadi 和同事在 TED 大会上展示了由 Gemini AI 驱动的 AR 眼镜与头显。AR眼镜配备了摄像头、麦克风、扬声器和高清全彩微显示屏。通过 AR眼镜实现实时翻译、场景识别和导航功能,头显设备则带来沉浸式 3D 交互体验。AI不仅能理解环境、回答问题,还能作为游戏指导助手,几乎实现了十年前人们对 Google Glass 的所有想象。
RTE 开发者社区翻译了 TED 大会上 Google AR 眼镜与头显的完整视频(16 分钟),欢迎点击收看!(@钛媒体、@TED)
03 有态度的观点
1、蚂蚁集团 CTO:大模型幻觉源自缺乏数据
日前,在 OceanBase 开发者大会上,蚂蚁集团 CTO 何征宇表示:没有数据就没有 AI 的发展,数据的边界决定了大模型的能力上限,所有的数据公司都将成为 AI 公司。
其表示,目前大模型幻觉的源头是缺乏数据,廉价的互联网数据即将用尽,导致数据的获取成本增加。
何征宇还强调,除上述问题外,AI 还存在严谨的行业数据稀缺且流动困难,多模态数据处理难、数据的质量评估难等挑战。未来企业成功与否,将主要取决于如何产生数据、应用数据。
何征宇称,蚂蚁集团将支持 OceanBase 在金融、医疗、生活等蚂蚁 AI 的核心场景的突破,同时继续支持 OceanBase 开源开放,推进 AGI 梦想的实现。
此前据报道,去年年底,马云在蚂蚁集团 20 周年活动上着重提了 AI,他认为未来 20 年的 AI 时代能带来的改变,会超出所有人的想象。随后,蚂蚁集团 AI 相关业务线,进行了一系列的「变阵」。
上述「变阵」包含成立了专门的 AGI(通用人工智能)部门(由何征宇挂帅);加大了在具身智能和 AI 眼镜等新兴领域的投入;投资方向已开始聚焦医疗健康和全球化扩展。(@APPSO)
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。