开源 TTS 模型「Fish Speech」1.4 发布；GameGen-O ：生成开放世界游戏视频模型丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。

我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@SSN，@鲍勃

一、有话题的新闻

1、Fish Speech 1.4 发布：开源 TTS 模型迎来多语言突破

Fish Speech 1.4 版本的发布标志着这款开源文本转语音（TTS）模型在多语言支持和性能方面取得了重大突破。作为一个致力于提供高质量、自然流畅语音合成体验的创新解决方案，Fish Speech 在这次更新中展现了其强大的技术实力和广阔的应用前景。

本次 Fish Speech 的更新主要有以下亮点：

多语言支持大幅提升：训练数据量翻倍至 70 万小时，支持 8 种主要语言，拓展了应用范围。
性能与功能全面升级：超快速度与低延迟，即时语音克隆功能，灵活部署选项和 API 服务。
应用前景广阔：教育领域支持语言学习，娱乐产业即时语音克隆，辅助技术视障人士工具，智能客服和跨文化交流。（@AIbase 基地）

2、元象发布中国最大 MoE 开源大模型：总参数 255B，激活参数 36B

元象 XVERSE 发布中国最大 MoE 开源模型 XVERSE-MoE-A36B。

该模型总参数 255B，激活参数 36B，官方号称效果能「大致达到」超过 100B 大模型的「跨级」性能跃升，同时训练时间减少 30%，推理性能提升 100%，使每 token 成本大幅下降。

MoE（Mixture of Experts）混合专家模型架构，将多个细分领域的专家模型组合成一个超级模型，在扩大模型规模的同时，保持模型性能最大化，甚至还能降低训练和推理的计算成本。谷歌 Gemini-1.5、OpenAI 的 GPT-4 、马斯克旗下 xAI 公司的 Grok 等大模型都使用了 MoE。

在多个评测中，元象 MoE 超过多个同类模型，包括国内千亿 MoE 模型 Skywork-MoE、传统 MoE 霸主 Mixtral-8x22B 以及 3140 亿参数的 MoE 开源模型 Grok-1-A86B 等。（@IT 之家）

3、Roblox 宣布全新 AI 工具，可以用文本直接生成 3D 游戏世界

在 2024 年 Roblox 开发者大会（RDC）上，首席执行官 David Baszucki 宣布了 Roblox 的一项重大创新——AI 驱动的「3D 基础模型」。该工具旨在通过文本、视频和 3D 提示创建 3D 资产，实现与游戏玩法直接集成的实时世界构建。

Roblox 一直在将生成式 AI 技术逐步融入其创作者开发工具中，如：

Assistant：自动化帮助开发者处理常规任务的工具。
纹理生成器：自动生成 3D 模型的纹理，减少人工操作的时间。
Avatar 自动设置工具：简化了为游戏角色创建个性化外观的步骤。

然而，Baszucki 强调，这些工具仅仅是初步尝试，Roblox 计划将 AI 技术提升到一个新高度，使 AI 不仅能够帮助开发者生成单一元素，还能够动态生成完整的 3D 世界场景。

Roblox 正在开发一个 3D 基础模型，该模型能够根据多种输入（如文本、视频或 3D 提示）生成复杂的 3D 环境和物体。演示展示了以下功能：

从文本到 3D 的实时转换：通过简单的文本提示（例如描述一个沙漠），AI 可以自动生成 3D 场景。开发者随后又用一个简单的指令将沙漠转换为森林场景。这种基于提示符的生成能力，使得创建复杂的 3D 环境变得更加便捷。
多模态输入：除了文本，用户还可以通过视频或 3D 提示符来引导 AI 生成所需的场景或物体。这意味着未来开发者可以更加直观地与 AI 合作完成项目。

该 AI 工具的真正创新之处在于其可以实时创建 3D 内容并与游戏玩法深度集成。这一功能将赋予玩家和开发者更大的创造自由，尤其是在开放世界和沙盒类游戏中。未来的 Roblox 体验将有可能是一个完全由 AI 生成、玩家实时影响的动态世界。Baszucki 描绘了一个设想的场景：例如在一个虚拟的 D&D 游戏中，游戏世界可以随着地牢主的描述而即时生成，玩家的每一个行动都能实时影响环境的变化。

尽管功能看起来十分令人兴奋，但 Baszucki 也提到，这项技术仍处于早期研发阶段，目前大约有 40 名员工专门从事这个项目的开发。尽管如此，短短三个月的开发已经展示了初步的效果。虽然目前展示的能力是在舞台上预录的演示，实际应用中的效果如何还需进一步验证。（@小互 AI）

4、夸克 AI 写作助手 CueMe，不仅能写长文还能模仿风格

CueMe 是夸克基于大模型自主研发的全新智能对话助手，AI 写作能力突出，支持不同体裁、不同篇幅的内容生成，最长可生成 2 万字的内容，用户现可通过 cueme.cn 或夸克 App 使用。

夸克表示，CueMe 针对不同细分体裁进行了充分的语料预训练，可支持上千种不同体裁的写作需求，包括研究报告、日常写作、课程论文、新媒体文案等等，并且还在持续扩展中。

此外，CueMe 还支持文风定制，用户可选择根据平台风格、语言风格或个人文章风格生成符合其个性化需求的内容。

据夸克官方介绍，CueMe 实现了三项关键技术突破 —— 长文本理解与生成、专业知识检索与增强、以及复杂多轮文创指令遵循。在此基础上，CueMe 从三个方向进行内容深度优化。

首先是结构，对于研究报告等长文，高质量大纲生成是确保内容结构合理、逻辑清晰的关键。
其次是引用素材时效性强、内容丰富。
最后在生成内容中增加细节描述和鲜明观点，从而让生成内容不再「AI 痕迹明显」或者泛泛而谈（@IT 之家）

5、腾讯 GameGen-O 生成开放世界游戏的视频模型

来自香港和中国大陆大学的研究人员与腾讯一起开发了 GameGen-O，这是一种可以模拟开放世界视频游戏的人工智能模型。据研究小组称，GameGen-O 可以生成各种游戏元素，包括角色、环境、动作和事件。该模型还为研究人员所谓的“游戏模拟”提供了交互式控制。

这些并不是完全可玩的游戏，而是开发者可以用来快速创建原型并测试不同游戏元素的工具，而无需从头开始创建它们。

为了创建 GameGen-O，研究人员首先建立了一个名为“OGameData”的大型数据集，其中包括来自 100 多款现代开放世界游戏的处理数据。然后，他们分两个阶段训练模型：首先，它学会基于 OGameData 生成各种游戏内容。接下来，他们添加了一个“InstructNet”组件，以实现对生成内容的交互式控制。

研究人员认为，GameGen-O 是利用人工智能制作开放世界电子游戏的重要一步。通过结合“创造性生成与交互能力”，它展示了作为传统渲染技术替代品的潜力。

根据该团队的说法，GameGen-O 可以成为研究人员和开发人员的宝贵资源。它允许探索各种应用程序，例如为视频游戏，交互式控制和沉浸式虚拟环境开发人工智能。

最近，来自谷歌研究院、谷歌 DeepMind 和特拉维夫大学的研究人员展示了 GameNGen，这是一种人工智能系统，可以以每秒超过 20 帧的速度完全模拟和实时播放经典游戏《毁灭战士》。（@大模型 Daliy）

6、OpenAI o1 比博士还「聪明」，全球 11 位 AI 大咖怎么看？

「好评」阵营：

Sam Altman（OpenAI CEO）：OpenAI o1 是迄今为止最强大的模型，尽管仍有缺陷，但其推理能力开创了 AI 的新范式。
Greg Brockman（OpenAI 总裁）：o1 是通过强化学习训练的模型，改进了推理质量和解释性，虽然技术仍处早期，但展现了巨大潜力。
Jason Wei（OpenAI 研究员）：o1 的思维链机制能够自适应地进行推理，在科学问题上表现出色，并重新定义了深度学习领域。
Jim Fan（英伟达高级科学家）：这是自 Chinchilla 缩放定律以来最重要的进展，o1 突破了推理瓶颈，是 AI 领域的一大飞跃。
James Campbell（卡内基梅隆大学博士生）：展示了 o1 在数学比赛中的出色表现，并认为它显著超越了 GPT-4。

「中差评」阵营：

Clement Delangue（HuggingFace CEO）：批评称 o1 并不具备真正的「思考」能力，认为 OpenAI 夸大了它的智能，实际上是预测系统而非人类智能。
Gary Marcus（纽约大学教授）：虽然认可 o1 的进展，但指出它距离 AGI 还很遥远，且没有完全取代 GPT-4 的表现，夸大了部分结果。
Ethan Mollick（沃顿商学院教授）：认为 o1 在规划复杂问题上表现出色，但其智能仍依赖于 GPT-4，存在错误和局限性。
Aravind Srinivas（Perplexit CEO）：认为单纯依赖大语言模型的推理不够可靠，建议结合代码执行和知识图谱来提升模型的实用性。（@LLM 大模型）

二、有态度的观点

1、Sam Altman：对 AI 大量的审查是有必要的

近日，OpenAI CEO Sam Altman 接受了美国著名主持人 Oprah Winfrey 采访，谈到了为何可以信任 AI 技术。
Sam Altman 称，AI 技术的标准非常高，OpenAI 能做到最好的事情就是把这个技术交到人们手中，谈论它能或者不能做什么，将会发生什么，并向社会建议如何使用大模型，或者解释为何不发布一些技术，随着时间的推移建立起社会对 AI 的信任。

Sam Altman 认为，对 AI 技术大量的审查是非常有必要的。他也声称「每隔几天」就会和政府进行沟通，建立技术护栏，并让政府开始研究如何对 AI 系统进行安全测试。

Altman 也表示，他对 AI 将带来的好处感到非常兴奋，认为这是令人难以置信的，但也会带来一些坏处，因此 OpenAI 会尽可能减轻影响。他提醒 AI 技术会被滥用，每个人都需要认识到这点，不过他坚信 AI 带来的好处更多。( @APPSO)

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

开源 TTS 模型「Fish Speech」1.4 发布；GameGen-O ：生成开放世界游戏视频模型丨 RTE 开发者日报

一、有话题的新闻

二、有态度的观点

RTE开发者社区

引用和评论

中科大、月之暗面等开源对话式语音合成模型 MoonCast；ChatGPT 发布「录音模式」，自动录音和生成会议纪要丨日报

一文掌握 MCP 上下文协议：从理论到实践

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

🔥吐血整理 Bolt.diy 部署与应用攻略

常见的 AI 模型格式