WebRTC 作者加入 OpenAI 主导实时 AI 项目；TTS 小模型 OuteTTS v0.2 发布：声音克隆+多语言

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、Runway 推图像生成模型 Frames 专注特定美学，重构创意边界

Runway 的最新图像生成模型 Frames，正以前所未有的方式颠覆着视觉创作的边界。这不仅仅是一个 AI 工具，更是一个能够帮助用户构建完整视觉世界的创意引擎。

与传统的通用图像生成模型不同，Frames 最大的魅力在于其对风格和美学的极致控制。这款模型的核心能力，在其「世界构建」的独特技术。用户可以细粒度地控制图像的「外观、感觉和氛围」。它不再是简单地生成图片，而是帮你编织一个完整的艺术世界。无论是电影概念、游戏设计，还是个人艺术项目，Frames 都能帮你构建一个统一、强大的视觉叙事。每一张图像都仿佛出自同一位艺术大师之手，又充满无限可能性。

在保持风格统一的同时，Frames 还能激发创意的多样性。它为创作者提供了一个前所未有的平台：你可以探索各种风格变化，同时确保每一帧都完美契合你的整体视觉语言。（@AIbase 基地）

2、Anthropic 发布开源 MCP 协议推动 AI 系统与数据源的双向连接

人工智能公司 Anthropic 宣布推出一项新的开源标准——模型上下文协议（MCP），旨在通过将 AI 助手与业务工具和软件等数据源连接，提升模型对查询的响应质量和相关性。MCP 的发布意味着 AI 助手在处理任务时，能够直接从不同的数据源中提取信息，避免了「信息孤岛」的问题。

在一篇博客文章中，Anthropic 表示，尽管 AI 助手在推理和质量方面已取得快速进展，但目前大多数模型仍受限于与数据的隔离，无法直接访问存储的数据。这使得每个数据源都需要单独的定制实现，从而导致互联系统难以扩展。MCP 旨在通过协议解决这一问题，允许开发者在 AI 驱动的应用程序（如聊天机器人）与数据源之间建立双向连接。

MCP 协议允许开发者通过「MCP 服务器」共享数据，构建「MCP 客户端」（如应用程序和工作流），并通过命令访问这些数据源。Anthropic 称，开发者可以利用这一标准协议进行构建，而不必为每个数据源单独维护连接器，从而使生态系统更加互联。

目前，包括 Block 和 Apollo 在内的公司已将 MCP 集成到其系统中，Replit、Codeium 和 Sourcegraph 等开发工具公司也正在向其平台添加 MCP 支持。Anthropic 还表示，Claude Enterprise 计划的订阅者可以通过 MCP 服务器将 Claude 聊天机器人连接到其内部系统。此外，Anthropic 已分享了针对 Google Drive、Slack 和 GitHub 等企业系统的预构建 MCP 服务器，并计划推出工具包，帮助企业部署适用于整个组织的生产 MCP 服务器。（@AIbase 基地）

3、英伟达发布 Edify 3D 生成模型 2 分钟即可生成高质量 3D 资产

NVIDIA 最新推出的 Edify3D 技术在 3D 资产生成领域取得重大突破。这项创新技术能在短短两分钟内，基于文本描述或参考图像生成包含完整 UV 贴图、4K 纹理和 PBR 材质的高品质 3D 模型，为游戏设计、影视制作和扩展现实等行业带来革命性解决方案。

dify3D 采用了独特的技术架构，将多视角扩散模型与基于 Transformer 的重建技术相结合。其核心管线包含三个关键步骤：

多视角扩散模型根据输入生成多个视角的 RGB 图像；
多视角 ControlNet 合成对应的表面法线；
重建模型将这些信息整合成神经 3D表示，通过等值面提取和网格后处理生成最终的几何体。

特别值得一提的是，Edify3D 还可用于生成复杂的 3D 场景。通过与大语言模型（LLM）结合，系统能够根据文本提示定义场景布局、物体位置和尺寸，创建连贯且真实的 3D 场景组合。这一功能为艺术设计、3D 建模和 AI 模拟等应用提供了强大支持。

在技术扩展性方面，Edify3D 表现出色。随着训练视角数量的增加，模型生成的图像质量和一致性不断提升。重建模型的性能也会随着输入视角数量的增加而改善，同时还能根据计算资源灵活调整三平面令牌大小。（@AIbase 基地）

4、小型 TTS 模型 OuteTTS v0.2 发布，支持多语言并具备语音克隆功能

OuteTTS-0.2-500M 是 v0.1 版本的改进版。该模型保持了使用音频提示的相同方法，而没有对基础模型本身进行架构修改。该版本以 Qwen-2.5-0.5B 为基础，在更大、更多样化的数据集上进行了训练，从而在性能的各个方面都有了显著的提高。

主要改进：

增强的准确性：与前一版本相比，显著提高了提示跟踪和输出一致性
自然语音：生成更自然流畅的语音合成
扩展词汇：在超过 50亿个音频提示标记上进行训练
语音克隆：改进的语音克隆功能具有更高的多样性和准确性
多语言支持：新增对中文、日文和韩文的实验性支持（@Hugging
Face）

5、WebRTC 作者加入 OpenAI，主导实时 AI 项目

WebRTC 作者之一，开源语音模型 Ultravox 的创始人兼 CTO Justin Uberti 今日在 X 上宣布加入 OpenAI，并将主导实时 AI（Real Time AI）相关工作。

他说：「在 WebRTC 的开发过程中，我们深刻地体会到语音和视频对人类沟通的巨大影响。那时，我就在思考：未来，我们是否也能以同样的方式与 AI 交流？如今，这个未来已初具雏形，我很高兴地宣布，我已加入 OpenAI，将主导实时 AI 项目！」

Justin Uberti 还曾是 Google 的 Stadia、Duo 和 Hangouts Video 团队负责人。
早些时间，开源 WebRTC 项目 Pion 的创始人 Sean DuBois 也加入了 OpenAI。（@juberti@X）

02 有亮点的产品

1、Luma 推全新 Dream Machine 支持创意融图、角色参考等

Luma AI 发布了全新的 Dream Machine 平台，该平台旨在让任何人都可以轻松创作高质量的图像和视频，无论技术水平如何。

Dream Machine 基于 Luma 最新的图像基础模型 Photon，该模型使用先进的通用变换架构，可以根据文本提示生成高质量的静止图像，并且能够可靠地嵌入文本，这是许多其他图像生成模型难以做到的。

Dream Machine 平台的一大亮点是其直观的交互设计。用户可以用自然语言描述他们的想法，或者上传参考图像来指导平台的输出，而无需像传统工具那样进行复杂的提示工程。

Dream Machine 还提供了一系列强大的工具和功能，帮助用户将创意变为现实。例如，「角色参考」功能可以将单一图片转化为动态角色，并在多种场景中使用，甚至可以将一张照片与另一张照片融合，创造出一个独特的角色。此外，平台还提供了「镜头运动」、「起始与结束帧」和循环功能，让用户可以轻松导演和定制视频效果。

对于那些缺乏灵感的用户，Dream Machine 的「头脑风暴」功能可以提供各种创意点子，帮助他们找到创作方向。（@AIbase 基地）

2、PicMenu：利用 AI 可视化你的菜单你只需拍一下菜单即可将你的菜名生成对应的图片

PicMenu 是一个利用 AI 快速将餐厅菜单可视化的工具。通过拍摄菜单图片，PicMenu 可以为每道菜生成详细的图像和描述，提供更直观的餐饮信息。

主要功能

1、菜单解析与生成：

拍摄餐厅菜单的照片后，使用 AI 提取菜单项，生成每道菜的高质量图像。

2、AI 支持的详细信息：

提取并显示菜品的附加信息（未来可能包括成分、来源、卡路里和口味）。

3、多语言与标签支持（开发中）：

计划支持多语言菜单解析，并添加标签（如辣味、素食、纯素等），提供基于标签的过滤功能。（@小互 AI）

03 有态度的观点

1、Perplexity 增长负责人：创始人的最大错误是假设用户痛点

近日，播客 20VC 采访了 Perplexity 的增长负责人 Raman Malik。

Raman Malik 在采访时提到：「创始人的最大错误：假设用户痛点，而实际上这些痛点并不存在。」

Raman 强调，必须通过数据和用户反馈来验证假设，而不是简单的凭空猜测用户需求。产品增长的过程中，避免陷入这种误区是非常重要的。

另外，Raman 在采访中表示，在 AI 公司与那些对 AI 不感兴趣的新观众进行定位时，他们需要你抽象掉整个 AI 搜索引擎的概念，直接传达价值：立刻获得答案，并附有可靠来源。(@APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

WebRTC 作者加入 OpenAI 主导实时 AI 项目；TTS 小模型 OuteTTS v0.2 发布：声音克隆+多语言

01 有话题的新闻

02 有亮点的产品

03 有态度的观点

RTE开发者社区

引用和评论

中科大、月之暗面等开源对话式语音合成模型 MoonCast；ChatGPT 发布「录音模式」，自动录音和生成会议纪要丨日报

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式