语音生成模型 PlayDialog：可生成对话播客、旁白；小米 AI 眼镜将于明年 Q2 发布丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、对标谷歌 NotebookLM！语音生成模型 PlayDialog：可生成对话播客、旁白

近日，Play AI 正式推出其最具雄心的产品 ——PlayDialog beta 版本，能生成对话式的播客音频。

这款端到端的 AI 语音模型，利用对话的历史上下文，能够调控语调、情感和语速，以实现更自然的语音合成，标志着人机对话的新高度。PlayDialog 特别适合于制作真实的对话体验，例如旁白、语音配音、合成播客等，也能在商业环境中提供沉浸式的一对一语音交流体验，效果类似谷歌的 NotebookLM。

与此同时，Play AI 还推出了 PlayNote，这是一款可以将多种媒体文件（如 PDF、文本、视频等）转化为对话体验的工具。用户可以在几分钟内生成播客、简报、旁白，甚至是儿童故事，并享受到 PlayDialog 所带来的流畅、自然的语音效果。PlayNote 的独特之处在于，它也提供 API 接口，使得用户可以不依赖用户界面，轻松实现音频内容的程序化生成。

PlayDialog beta 经过数亿次真实对话的训练，模型规模约为 Play AI3.0mini 的十倍，能够在语调（如语音的抑扬顿挫、语速）上与人类的语音表现相匹配。在盲测中，PlayDialog beta 的表现比市场上领先的竞争模型高出两倍，特别是在表达力方面得分最高。

不同于以往的语音模型，PlayDialog beta 可以理解整段对话的上下文，进而影响语音生成的效果。Play AI 构建了一种被称为「自适应语音上下文化器」（ASC）的新架构，使得模型能够利用完整的对话历史进行回应，从而让每一句话都不是孤立的输出，而是丰富的具备合适的语调、情感和语气，使得合成的播客仿佛让听众感受到演讲者在同一空间内进行交流。

无论是充满活力的讨论，还是需要同理心的敏感话题，PlayDialog 都能无缝适应，让互动显得更加自然和人性化。

用户可以通过 PlayNote 体验这一切，使用它制作强有力、自然的旁白、播客、简报等，只需几分钟就能完成。PlayNote 也可以通过 API 接口使用，允许开发者以大规模程序化方式生成引人入胜的内容。（@小夏聊 AIGC）

2、生数科技 Vidu 大模型迎来 1.5 新版本

在这里插入图片描述

（图源：Vidu）

昨日，生数科技官方公众号宣布，Vidu 大模型迎来 1.5 版本。官方表示，Vidu 的技术突破主要在以下三个方面：

复杂主体的精准控制：无论是细节丰富的角色，还是复杂的物体，Vidu 都能保证其在多个不同视角下的一致性。

人物面部特征和动态表情的自然一致：在人物特写镜头中，Vidu 能够自然且流畅地保持人物面部特征和表情的连贯性，避免了面部僵硬或失真的现象。

多主体一致性：Vidu 允许用户上传多个主体图像，包括人物角色、道具物体、环境背景等，并在视频生成中实现这些元素的交互。

官方表示，Vidu 1.5 的推出，揭示了一个重要现象：视觉模型与语言模型一样，经过充分的训练，模型能够展现出对上下文的深刻理解、记忆等能力。(@ APPSO)

3、AI 试衣技术 Fashion-VDM 颠覆传统网购衣服再也不怕踩雷了！

Google Research 团队最新研发的 Fashion-VDM 技术，让人足不出户就能体验试穿各种漂亮衣服的快感。

Fashion-VDM 是一个视频扩散模型，只要你提供一件衣服的照片和一段你自己的视频，它就能生成一段你穿着这件衣服的视频，而且效果超级逼真！

市面上的虚拟试衣软件大多是基于图像的，只能生成静态图片，而且效果经常惨不忍睹，衣服穿在你身上就像贴纸一样，毫无真实感可言。Fashion-VDM 则完全不同，它生成的是动态视频，不仅能展示衣服在不同角度的穿着效果，还能模拟衣服的动态变化，比如褶皱、摆动等等，简直和真人试穿一模一样。

Fashion-VDM 的秘诀在于它采用了分离式无分类器引导技术（split-CFG），这项技术可以更精确地控制人物和服装的信息，确保生成的视频既保留了你本人的特征，又完美地展现了衣服的细节。

为了让视频更加流畅自然，Fashion-VDM 还采用了一种渐进式时间训练策略，先用大量的图片数据训练模型，然后再逐步增加视频数据的训练时长，最终生成长达 64 帧的超长视频，彻底告别画面卡顿和闪烁！

更厉害的是，Fashion-VDM 还结合了图像和视频数据进行联合训练，这意味着它不仅能从图片中学习服装的细节，还能从视频中学习人物的动作和服装的动态变化，最终生成更加真实、更具说服力的试衣视频。

当然，Fashion-VDM 目前还有一些局限性，比如在处理遮挡的服装区域时，细节可能不够准确，人物体型也可能出现轻微变形。（@AIbase 基地）

4、报道称小米 AI 眼镜将于明年 Q2 发布

据「智能涌现」独家报道，小米正计划推出新一代 AI 眼镜，数月前已与歌尔合作，该产品预计于 2025 年 Q2 发布。

有知情人士表示，小米 AI 眼镜将「全面对标 Meta Ray-ban」，搭载 AI 功能、音频耳机模块、摄像头模块，并将以小米自有品牌形式发布。

据称对于这款产品的出货量，雷军的预期「在三十万台往上」。

报道还指出，OPPO、vivo、华为、腾讯、字节近期也都在评估 AI 眼镜项目；苹果也被外媒曝光已组织团队重点评估 AI 眼镜市场。

财联社记者以投资者身份致电歌尔股份，相关人士回应称，公司对具体客户信息及项目内容不予透露。公司 AI 眼镜业务现阶段尚未量产，主要产品可应用于 AI 眼镜等终端产品。(@ APPSO)

5、传苹果将推出 AI 智能家居中控屏

据彭博社的 Mark Gurman 报道，苹果公司正在开发一款新的智能家居产品——一款壁挂式显示屏，拥有控制家电、与 Siri 互动和视频会议等功能。

显示屏看起来像一个方形的 iPad，拥有大约 6 英寸的屏幕，顶部配有摄像头，内置扬声器和可充电电池。其已开发三年，可能会在明年 3 月正式宣布。

这款设备在功能上与 Google Home Hub 和亚马逊的 Echo Show 相似，但苹果的智能家居控制中心的独特之处可能是苹果 AI，包括 10 月下旬开始向用户推出的 Apple Intelligence 以及即将到来的 App Intents 系统，该系统可使用 AI 控制软件程序。

此外，苹果还在开发一款带有机械臂的版本，能够移动平板设备。这表明苹果可能不仅仅是在开发一个智能设备控制面板，而是在寻求更先进的智能家居解决方案。(@ APPSO)

02有态度的观点

1、Glean 创始人：AI 创业者应从用户出发

在红杉资本的深度访谈中，Glean 的创始人 Arvind Jain 分享了企业搜索和 AI 应用在企业内部落地的挑战与机遇。

他强调，为了构建有效的 AI 应用，必须先建立强大的数据基础设施，包括深入集成企业系统、健全的安全和权限框架，以及理解人与内容、上下文之间关系的复杂知识图谱。

Jain 表示企业搜索的难点在于数据的私有性、基于权限的访问和深刻的上下文依赖性，因此，理解组织结构、用户角色和访问权限至关重要。

Jain 还指出，AI 创业者应从用户出发，先通过关键功能为用户提供清晰的价值，再扩展到更多的 AI 功能，这有助于建立企业信任并为高级功能提供所需的数据基础。

他预见 AI 助手将在未来主动帮助用户完成工作，改变工作方式，使得每个人都能拥有强大的 AI 助手来提升工作效率。

此外，Jain 建议创业者应专注于解决业务问题，而不是单纯追求 AI 技术，因为 AI 只是解决问题的工具之一。(@ APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

在这里插入图片描述

素材来源官方媒体/网络新闻

语音生成模型 PlayDialog：可生成对话播客、旁白；小米 AI 眼镜将于明年 Q2 发布丨 RTE 开发者日报

01有话题的新闻

02有态度的观点

RTE开发者社区

引用和评论

a16z合伙人：语音交互将成为AI应用公司最强大的突破口之一，巨头们在B2C市场已落后太多丨Voice Agent 学习笔记

🔥全程不用写代码，我用 AI 程序员写了一个飞机大战

从 DeepSeek 看25年前端的一个小趋势

大模型中的Token究竟是什么？从原理到作用深度解析

Open WebUI：开源AI交互平台的全面解析

MySQL × 向量数据库：大模型时代的黄金组合实战指南

Mac 安装 DeepSeek-R1 本地化部署