王慧文回归带队美团探索 AI 应用；对话音频开源模型 Hertz-dev：120 毫秒超低延迟丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

01有话题的新闻

1、黑神话悟空也能用 AI 生成了？GameGen-X 颠覆游戏开发

香港科技大学、中国科学技术大学等机构的研究人员近日发布了 GameGen-X 模型，这是一个专为生成和互动控制开放世界游戏视频而设计的扩散变换器模型。

GameGen-X 能自己生成开放世界游戏视频，可以模拟各种游戏引擎功能，包括生成创新角色、动态环境、复杂动作和多样化事件，还能跟你互动，让你体验一把当游戏策划的快感。

为了训练 GameGen-X，研究人员还构建了第一个大型开放世界游戏视频数据集 OGameData。该数据集包含超过 100 万个来自 150 多款游戏的不同游戏视频片段，并利用 GPT-4o 为其生成了 informative 的文本描述。

GameGen-X 的训练过程分为两个阶段：基础模型预训练和指令微调。在第一阶段，模型通过文本到视频生成和视频延续任务进行预训练，使其能够生成高质量、长序列的开放域游戏视频。

在第二阶段，为了实现互动可控性，研究人员设计了 InstructNet 模块，该模块集成了与游戏相关的多模态控制信号专家。

InstructNet 允许模型根据用户输入调整潜在表示，从而首次在视频生成中统一了角色互动和场景内容控制。在指令微调过程中，只有 InstructNet 被更新，而预训练的基础模型被冻结，这使得模型能够在不损失生成视频内容多样性和质量的情况下集成互动可控性。

实验结果表明，GameGen-X 在生成高质量游戏内容方面表现出色，并提供了对环境和角色的出色控制能力，优于其他开源和商业模型。（@AIbase 基地）

2、首个会话音频开源模型 Hertz-dev 120 毫秒超低延迟惊艳全网

一个革命性的开源音频模型——Hertz-dev 横空出世，凭借其惊人的性能指标，让全球开发者为之震撼。这款拥有 85 亿参数的 AI 语音巨兽，通过 2000 万小时高质量音频数据的训练，成功实现了人类梦寐以求的全双工实时对话。

最令人惊叹的是其 120 毫秒的超低延迟表现，较现有公开模型足足提升了一倍，让人机对话体验提升到了一个全新境界。想象一下，当你在和 AI 对话时，不必再等待对方说完就能自然插话，就像真实的人类对话一样流畅自然。

Hertz-dev 的核心突破包括：

突破性全双工技术： 彻底颠覆传统轮流发言模式，实现真正的双向实时交流

- 卓越音频压缩： 在保证高音质的同时，大幅降低带宽占用

- 超长对话能力： 轻松理解和生成持续性对话内容

- 革命性低延迟： 120 毫秒的响应速度，开创实时互动新纪元

作为一个专注音频的 Transformer 基础模型，Hertz-dev 在训练过程中充分利用了真实世界的对话数据，成功捕捉了人类语音中的细微特征，包括自然的停顿节奏和丰富的情感语调变化。

对开发者而言，这是一个极具价值的开源宝藏。他们可以自由下载模型，根据具体应用场景进行微调，打造各类创新语音应用。这意味着，从客服机器人到语音助手，从教育辅导到娱乐互动，都将迎来质的飞跃。（@AIbase 基地）

3、字节推出单图视频驱动模型 X-Portrait 2：一键生成相同表情神态，简化创作流程

单图视频驱动技术，即只需一张静态照片和一段驱动视频，即可生成高质量、「电影级」的视频。

字节跳动智能创作团队推出最新单图视频驱动技术 X-Portrait 2，该模型不仅能保留原图的 ID，还能捕捉并迁移从细微到夸张的表情和情绪，简化了现有动作捕捉、角色动画和内容创作流程。

不同于以往依赖人脸关键点检测的单图驱动方法，X-Portrait 2 构建了一个表情编码器模型，通过一种端到端自监督训练框架，能够从大量人像视频中自学习 ID 无关的运动隐式表征。

进一步将这个编码器与强大的生成式扩散模型相结合，即可生成流畅且富有表现力的视频。经过在大规模高质量表情视频上的训练，X-Portrait 2 在运动表现力和 ID 保持性方面显著优于先前技术。（@IT 之家）

4、苹果 Siri AI 进化：将支持读取屏幕、摘要内容、回答相关问题

科技媒体 AppleInsider 昨日（11 月 6 日）发布博文，报道称苹果公司本周一发布新的支持文档，帮助开发者更好地利用 Siri 和 Apple Intelligence 功能，用于查看和处理屏幕内容。

根据新的开发者文档链接，Siri 可以更深入地理解上下文，用户将能够直接询问 Siri，提出关于当前查看的网页或指定照片中特定对象的问题。

Siri 还将能够在请求时总结文档和电子邮件，并通过添加更多内容来完成文本。这些功能的实现，将大大提升 Siri 的实用性和交互性。

在最新的 iOS 18.2 开发者测试版中，Siri 已经开始支持 ChatGPT 集成。用户可以在获得许可的情况下，将 PDF、文本文件或图像转发给 ChatGPT 进行处理。

新的 API 表明，苹果希望进一步简化此过程，用户可以直接提问，而不必通过 Siri 转发文档。

苹果的这项开发者 API 仅是为即将推出的新 Siri 功能做准备，预计这些功能将在 2025 年与 iOS 18.4 更新一同推出。（@IT 之家）

5、原美团联合创始人回归，将探索 AI 应用

据报道，原美团联合创始人、光年之外创始人王慧文已经回归，在美团带队探索 AI 应用。

报道指出，王慧文所在的美团 AI 团队被称为 GN06。目前，GN06 的主要业务方向包括情感陪伴、聊天机器人等，团队为候选人提供「没有边界的 AI 尝试机会」。

产品和运营角色，则由王慧文面试把关。

有接近美团的人士表示，GN06 由王慧文直管，并不归属任何一个事业群。

GN06 在美团中的状态相对独立，专注于探索主营业务之外的方向，和美团已有的大模型团队、各业务条线中的 AI 团队也是相互独立的。(@APPSO)

02有态度的观点

1、前 OpenAI 研究员：需要保护那些脆弱但极具价值的想法

在腾讯读书举办的一场对谈上，，腾讯研究院资深专家袁晓辉与前 OpenAI 研究员 Kenneth Stanley 和 Joel Lehman 围绕 10 个问题，进行了两个小时的沟通。

当被问及关于共识的问题时，Kenneth Stanley 表示，「有时候你确实需要共识，但有时候你需要的是分歧。创新的组织本身是复杂的。」

不过，他也补充道，「你需要保护那些脆弱但极具价值的想法，尤其是当这些想法来自你聘请的顶尖人才时。」

他认为创新是一个循环的过程，有阶段性分歧，也有阶段性聚合，因为有些项目的确需要多人协作才能完成。即使有时候团队需要达成共识，也并不是非要在目标上达成一致。

而关于 OpenAI 的成功，Kenneth Stanley 表示，这是与领导层的兴趣和勇气有关，他们愿意真的把所有的赌注放在一个看起来风险很大的事情上。

Joel Lehman 也给出了差不多的看法，并且他还表示，OpenAI 有非常聪明的人，还有探索的意愿。从一开始，他们就做出了这种反常规的赌注，并且一次次地将所有筹码都押上，这确实需要很大的勇气。所以，当人们试图模仿 OpenAI 时，有时需要做出一个没人愿意做的大赌注，但并没有任何保证它一定会成功。( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

王慧文回归带队美团探索 AI 应用；对话音频开源模型 Hertz-dev：120 毫秒超低延迟丨 RTE 开发者日报

01有话题的新闻

02有态度的观点

RTE开发者社区

引用和评论

最新开源 TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人｜社区来稿

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？

王慧文回归带队美团探索 AI 应用；对话音频开源模型 Hertz-dev：120 毫秒超低延迟丨 RTE 开发者日报

01有话题的新闻

02有态度的观点

RTE开发者社区

引用和评论

最新开源 TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人 ｜ 社区来稿

Open WebUI：开源AI交互平台的全面解析

大模型中的Token究竟是什么？从原理到作用深度解析

一文掌握 MCP 上下文协议：从理论到实践

MySQL × 向量数据库：大模型时代的黄金组合实战指南

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

大模型时代，后端程序员如何避免被AI卷死？

最新开源 TEN VAD 与 Turn Detection 让 Voice Agent 对话更拟人｜社区来稿