开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、Runway 推图像生成模型 Frames 专注特定美学,重构创意边界
Runway 的最新图像生成模型 Frames,正以前所未有的方式颠覆着视觉创作的边界。这不仅仅是一个 AI 工具,更是一个能够帮助用户构建完整视觉世界的创意引擎。
与传统的通用图像生成模型不同,Frames 最大的魅力在于其对风格和美学的极致控制。这款模型的核心能力,在其「世界构建」的独特技术。用户可以细粒度地控制图像的「外观、感觉和氛围」。它不再是简单地生成图片,而是帮你编织一个完整的艺术世界。无论是电影概念、游戏设计,还是个人艺术项目,Frames 都能帮你构建一个统一、强大的视觉叙事。每一张图像都仿佛出自同一位艺术大师之手,又充满无限可能性。
在保持风格统一的同时,Frames 还能激发创意的多样性。它为创作者提供了一个前所未有的平台:你可以探索各种风格变化,同时确保每一帧都完美契合你的整体视觉语言。(@AIbase 基地)
2、Anthropic 发布开源 MCP 协议 推动 AI 系统与数据源的双向连接
人工智能公司 Anthropic 宣布推出一项新的开源标准——模型上下文协议(MCP),旨在通过将 AI 助手与业务工具和软件等数据源连接,提升模型对查询的响应质量和相关性。MCP 的发布意味着 AI 助手在处理任务时,能够直接从不同的数据源中提取信息,避免了「信息孤岛」的问题。
在一篇博客文章中,Anthropic 表示,尽管 AI 助手在推理和质量方面已取得快速进展,但目前大多数模型仍受限于与数据的隔离,无法直接访问存储的数据。这使得每个数据源都需要单独的定制实现,从而导致互联系统难以扩展。MCP 旨在通过协议解决这一问题,允许开发者在 AI 驱动的应用程序(如聊天机器人)与数据源之间建立双向连接。
MCP 协议允许开发者通过「MCP 服务器」共享数据,构建「MCP 客户端」(如应用程序和工作流),并通过命令访问这些数据源。Anthropic 称,开发者可以利用这一标准协议进行构建,而不必为每个数据源单独维护连接器,从而使生态系统更加互联。
目前,包括 Block 和 Apollo 在内的公司已将 MCP 集成到其系统中,Replit、Codeium 和 Sourcegraph 等开发工具公司也正在向其平台添加 MCP 支持。Anthropic 还表示,Claude Enterprise 计划的订阅者可以通过 MCP 服务器将 Claude 聊天机器人连接到其内部系统。此外,Anthropic 已分享了针对 Google Drive、Slack 和 GitHub 等企业系统的预构建 MCP 服务器,并计划推出工具包,帮助企业部署适用于整个组织的生产 MCP 服务器。(@AIbase 基地)
3、英伟达发布 Edify 3D 生成模型 2 分钟即可生成高质量 3D 资产
NVIDIA 最新推出的 Edify3D 技术在 3D 资产生成领域取得重大突破。这项创新技术能在短短两分钟内,基于文本描述或参考图像生成包含完整 UV 贴图、4K 纹理和 PBR 材质的高品质 3D 模型,为游戏设计、影视制作和扩展现实等行业带来革命性解决方案。
dify3D 采用了独特的技术架构,将多视角扩散模型与基于 Transformer 的重建技术相结合。其核心管线包含三个关键步骤:
- 多视角扩散模型根据输入生成多个视角的 RGB 图像;
- 多视角 ControlNet 合成对应的表面法线;
- 重建模型将这些信息整合成神经 3D表示,通过等值面提取和网格后处理生成最终的几何体。
特别值得一提的是,Edify3D 还可用于生成复杂的 3D 场景。通过与大语言模型(LLM)结合,系统能够根据文本提示定义场景布局、物体位置和尺寸,创建连贯且真实的 3D 场景组合。这一功能为艺术设计、3D 建模和 AI 模拟等应用提供了强大支持。
在技术扩展性方面,Edify3D 表现出色。随着训练视角数量的增加,模型生成的图像质量和一致性不断提升。重建模型的性能也会随着输入视角数量的增加而改善,同时还能根据计算资源灵活调整三平面令牌大小。(@AIbase 基地)
4、小型 TTS 模型 OuteTTS v0.2 发布,支持多语言并具备语音克隆功能
OuteTTS-0.2-500M 是 v0.1 版本的改进版。该模型保持了使用音频提示的相同方法,而没有对基础模型本身进行架构修改。该版本以 Qwen-2.5-0.5B 为基础,在更大、更多样化的数据集上进行了训练,从而在性能的各个方面都有了显著的提高。
主要改进:
- 增强的准确性:与前一版本相比,显著提高了提示跟踪和输出一致性
- 自然语音:生成更自然流畅的语音合成
- 扩展词汇:在超过 50亿个音频提示标记上进行训练
- 语音克隆:改进的语音克隆功能具有更高的多样性和准确性
- 多语言支持:新增对中文、日文和韩文的实验性支持(@Hugging
Face)
5、WebRTC 作者加入 OpenAI,主导实时 AI 项目
WebRTC 作者之一,开源语音模型 Ultravox 的创始人兼 CTO Justin Uberti 今日在 X 上宣布加入 OpenAI,并将主导实时 AI(Real Time AI) 相关工作。
他说:「在 WebRTC 的开发过程中,我们深刻地体会到语音和视频对人类沟通的巨大影响。那时,我就在思考:未来,我们是否也能以同样的方式与 AI 交流?如今,这个未来已初具雏形,我很高兴地宣布,我已加入 OpenAI,将主导实时 AI 项目!」
Justin Uberti 还曾是 Google 的 Stadia、Duo 和 Hangouts Video 团队负责人。
早些时间,开源 WebRTC 项目 Pion 的创始人 Sean DuBois 也加入了 OpenAI。(@juberti@X)
02 有亮点的产品
1、Luma 推全新 Dream Machine 支持创意融图、角色参考等
Luma AI 发布了全新的 Dream Machine 平台,该平台旨在让任何人都可以轻松创作高质量的图像和视频,无论技术水平如何。
Dream Machine 基于 Luma 最新的图像基础模型 Photon,该模型使用先进的通用变换架构,可以根据文本提示生成高质量的静止图像,并且能够可靠地嵌入文本,这是许多其他图像生成模型难以做到的。
Dream Machine 平台的一大亮点是其直观的交互设计。用户可以用自然语言描述他们的想法,或者上传参考图像来指导平台的输出,而无需像传统工具那样进行复杂的提示工程。
Dream Machine 还提供了一系列强大的工具和功能,帮助用户将创意变为现实。例如,「角色参考」功能可以将单一图片转化为动态角色,并在多种场景中使用,甚至可以将一张照片与另一张照片融合,创造出一个独特的角色。此外,平台还提供了「镜头运动」、「起始与结束帧」和循环功能,让用户可以轻松导演和定制视频效果。
对于那些缺乏灵感的用户,Dream Machine 的「头脑风暴」功能可以提供各种创意点子,帮助他们找到创作方向。(@AIbase 基地)
2、PicMenu:利用 AI 可视化你的菜单 你只需拍一下菜单 即可将你的菜名生成对应的图片
PicMenu 是一个利用 AI 快速将餐厅菜单可视化的工具。通过拍摄菜单图片,PicMenu 可以为每道菜生成详细的图像和描述,提供更直观的餐饮信息。
主要功能
1、菜单解析与生成:
- 拍摄餐厅菜单的照片后,使用 AI 提取菜单项,生成每道菜的高质量图像。
2、AI 支持的详细信息:
- 提取并显示菜品的附加信息(未来可能包括成分、来源、卡路里和口味)。
3、多语言与标签支持(开发中):
- 计划支持多语言菜单解析,并添加标签(如辣味、素食、纯素等),提供基于标签的过滤功能。(@小互 AI)
03 有态度的观点
1、Perplexity 增长负责人:创始人的最大错误是假设用户痛点
近日,播客 20VC 采访了 Perplexity 的增长负责人 Raman Malik。
Raman Malik 在采访时提到:「创始人的最大错误:假设用户痛点,而实际上这些痛点并不存在。」
Raman 强调,必须通过数据和用户反馈来验证假设,而不是简单的凭空猜测用户需求。产品增长的过程中,避免陷入这种误区是非常重要的。
另外,Raman 在采访中表示,在 AI 公司与那些对 AI 不感兴趣的新观众进行定位时,他们需要你抽象掉整个 AI 搜索引擎的概念,直接传达价值:立刻获得答案,并附有可靠来源。(@APPSO)
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。