ListenHub ：短播客内容生成和消费 Agent；Ollama 新引擎支持多模态推理模型，将支持语音生成丨日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、谷歌推出 LightLabAI 全新技术精确操控单图光影

2025 年 5 月 17 日，谷歌联合特拉维夫大学、瑞克曼大学与希伯来大学的研究团队正式推出 LightLab，这是一种基于扩散模型的人工智能图像编辑方法，可以在单张图像中实现物理可信的、精细化的光照操控。

LightLab 依托扩散模型，通过成对图像隐式建模光照变化。这些成对数据包括两种来源：600 对真实图像与大规模的合成图像。真实图像由移动设备固定拍摄完成，通过切换光源记录同一场景「有光-无光」的对照，利用自动曝光和后期校准确保曝光一致性。而合成图像则基于 20 个艺术家设计的室内 3D 场景生成，使用 Blender 进行物理渲染，随机采样相机视角并程序化调整光源参数（如强度、色温、面积与锥角）。这一合成数据管线有效增强了模型的泛化能力。

研究团队为局部空间信号和全局控制信号使用了不同的条件方案。空间条件包括输入图像、输入图像的深度图，以及两个空间分割掩码，分别用于目标光源的强度变化和颜色。

全局控制（环境光强度和色调映射策略）被投影到文本嵌入维度，并通过交叉注意力机制插入。

论文地址：

https://arxiv.org/abs/2505.09608

项目主页：

https://nadmag.github.io/LightLab/

HuggingFace：

https://huggingface.co/papers/2505.09608 （@AI 之星网、@机器之心）

2、复旦携手腾讯推出说话人视频生成工具 DICE-Talk

复旦大学与腾讯人工智能实验室近日联合发布了 DICE-Talk 动态情感视频生成系统，该系统通过多模态情感驱动框架实现了语音、文本与面部表情的精准同步，标志着生成式 AI 在情感表达维度取得重要突破。

技术团队采用双通道神经网络架构，分别处理语音情感特征和微表情生成，配合 3D 人脸建模技术实现每秒 60 帧的细腻表情变化。该系统在普通话、英语等多语言场景下均可生成自然的面部肌肉运动，尤其在表达喜悦、惊讶等复合情感时达到行业领先水平。

核心创新在于身份-情感分离处理机制，确保情感变化时人物外观一致；
能够解构身份信息并协同情感生成，支持多种情感状态的自然过渡；
用户只需上传图像和音频即可生成对应情感的动态视频，操作简单且直观。

腾讯云计划在今年第四季度开放 API 接口，首批将支持短视频制作、在线客服等商业场景。

GitHub 链接：

https://github.com/toto222/DICE-Tal（@AIbase 基地、@AIBUPT）

3、Ollama 新引擎支持多模态推理模型，未来将支持语音、图像和视频生成

Ollama 的新引擎开始支持多模态模型，首先支持模型包括：Meta Llama 4、Google Gemma 3、Qwen 2.5 VL、Mistral Small 3.1 等视觉模型。

据悉，目前 Ollama 依赖于 ggml-org/llama.cpp 项目来支持模型，并专注于易用性和模型的可移植性。

随着更多多模态模型由主要研究实验室发布，按照 Ollama 的方式支持这些模型的任务变得越来越具有挑战性。

Ollama 因此着手支持一个新的引擎，使多模态模型成为一等公民，并促使 Ollama 的合作伙伴通过 GGML 张量库更直接地为社区做出贡献。

据 Ollama 介绍，这项工作旨在提高 Ollama 本地推理的可靠性和准确性，并为支持未来具有更多功能的多模态奠定基础，例如语音、图像生成、视频生成、更长的上下文长度、以及对模型的改进工具支持。(@Ollama)

4、开源语音模型 OuteTTS-1.0-0.6B：基于 Qwen-3 0.6B训练，支持快速音频生成

（图片来源：HuggingFace）

开源语音合成模型 OuteTTS 发布了最新的版本 OuteTTS-1.0-0.6B。

基于 Qwen-3 0.6B
Apache 2.0（免费用于商业和个人用途）
支持 14 种以上语言
添加了批量推理，支持长输入的快速音频生成（约 0.1–0.02 RTF）（@OuteAI@X）

02 有亮点的产品

1、ListenHub 正式发布：专注短播客内容的 AI 播客 Agent

ListenHub 是一个专注短播客内容的 AI 播客 Agent。通过 ListenHub，用户无需剪辑，即可制作和消费短播客内容。目前 ListenHub 支持三个客户端：Web、App 和浏览器插件。

ListenHub 现在有四种创作模式：

直接输入感兴趣的话题，也可以指定话题里必须包含的内容，比如东京的周边游，可以要求必须包含伊豆。这个模式下 AI 会调动 Deep Search 进行规划和搜索，有【快速】和【深度】两种选择；
粘贴链接，输入一篇文章的链接进来，转换为播客；
上传文件，可以上传 PDF、DOCX、TXT 等文件，转换为播客。目前只支持 10M 以内的文件；
长文本，用法很灵活，可以粘贴一篇长文过来，也可以粘贴自己的笔记或编写的播客大纲，可以输入背景信息和自己的观点，让 AI 根据观点来制作内容。

Web:
https://listenhub.ai/

iOS 下载地址：

https://apps.apple.com/us/app/listenhub/id6743071290

浏览器插件：

https://chromewebstore.google.com/detail/listenhub-instantly-... （@橘子汽水铺）

2、ElevenLabs SB-1：Infinite Soundboard 发布，支持文本转音效和无限环境噪音生成

ElevenLabs 发布基于 AI 的可定制音效控制面板 SB-1Infinite Soundboard，支持文本驱动的音效生成、多场景应用及创作者友好功能，革新音效制作方式。这是一个集文本转音效生成器、声板、鼓机和无限环境噪音生成器于一体的工具。用户可以描述想要的音效，SB1 会使用其文本转音效模型生成声音。它提供预设音效、鼓机，用户也可以创建自己的声板。11 Labs 还与 Spotify 合作提供有声书旁白服务。

文本驱动音效生成：输入文字即可生成高质量逼真音效，突破传统音效库限制；
多场景赋能：适用于直播、影视、表演等，提升沉浸感与创作效率；
社区友好：免费账户解锁全部功能，降低技术门槛，广受创作者欢迎。（@AIbase 基地、@数图笔记）

3、谷歌首款 AR 眼镜，操作系统采用 Android XR，最快今年发售

钛媒体App 5月19日消息，从接近谷歌处人士独家获悉，谷歌首款AR眼镜将在本周的I/O大会上发布，类似于此前和三星在MR上的合作，此次也是和一家头部AR厂商合作研发，采用BirdBath方案，运行AndroidXR系统，预计最快将于今年下半年正式上市开售。

本月，Google Android XR 负责人 Shahram Izadi 和同事在 TED 大会上展示了由 Gemini AI 驱动的 AR 眼镜与头显。AR眼镜配备了摄像头、麦克风、扬声器和高清全彩微显示屏。通过 AR眼镜实现实时翻译、场景识别和导航功能，头显设备则带来沉浸式 3D 交互体验。AI不仅能理解环境、回答问题，还能作为游戏指导助手，几乎实现了十年前人们对 Google Glass 的所有想象。

RTE 开发者社区翻译了 TED 大会上 Google AR 眼镜与头显的完整视频（16 分钟），欢迎点击收看！（@钛媒体、@TED）