阶跃星辰发布端到端语音接口 Realtime API，理解情绪、随时打断；Dia TTS：生成语音可带笑声、咳嗽声、清嗓子丨日报

开发者朋友们大家好

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态度的观点」、「有看点的活动」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@赵怡岭、@鲍勃

01 有话题的技术

1、Dia ：一次性生成超逼真对话的 TTS 模型

Dia 是由 Nari Labs 创建的 1.6B 参数文本转语音模型。

Dia 可以直接从文字记录生成高度逼真的对话。可以根据音频调整输出，从而控制情绪和语调。该模型还可以生成非语言交流，例如笑声、咳嗽声、清嗓子等。

Dia 提供预训练模型检查点和推理代码的访问权限。模型权重托管在 Hugging Face 上。但是该模型目前仅支持英语生成。(@GitHub)

2、阶跃星辰 Realtime API : 基于端到端语音模型 Step-1o-Audio，实现类人情感交互

阶跃星辰 Realtime API 是基于 Step-1o-Audio 模型构建的实时交互式语音接口。它提供超低延迟、高情商、多方言、拟人化的语音对话体验，支持人机之间的自然流畅沟通，并具备实时打断能力，实现真正意义上的双向交互式对话。通过部署相应的 API，开发者能够更高效地进行内容创作，拓宽灵感边界，并为企业级应用落地赋能。

阶跃星辰推出国内首个千亿参数端到端语音大模型 Step-1o-Audio，实现语音理解和生成的一体化，极大地提升了模型智商和情商上限。现在可以通过阶跃星辰开放平台 Realtime API 使用该实时语音模型。

情绪理解精准，支持多种方言；
类人表达丰富，打造真实体验；
低延迟高并发，实现流畅通话；
知识增强与联网搜索，提供场景化应答；
多模态输入输出，丰富交互形式。（@阶跃星辰开放平台）

3、Vidu AI 发布「Q1」视频生成模型

4 月 21 日，生树科技旗下的 Vidu AI 发布业内首个高可控 AI 视频大模型「Q1」。据介绍，Vidu Q1 在多主体细节可控、音效同步可控、画质增强等方面都取得出色表现。目前，Vidu Q1 已上线 Vidu 官网，支持时长 5 秒、1080p 的视频生成。

并且 Vidu Q1 在四大核心能力进行了全面升级：

清晰视觉效果——更锐利、更富有质感的画面；
影院级转场——流畅的首帧到末帧过渡；
精准音效——自定义音效，完美适配；
增强风格——更稳定、更富有表现力的动画。(@APPSO、Vidu AI@X)

4、昆仑万维开源全球首个「不限时」视频模型

4 月 21 日，昆仑万维 SkyReels 团队正式发布并开源 SkyReels-V2。据悉，SkyReels-V2 通过结合多模态大语言模型（MLLM）、多阶段预训练（Multi-stage Pretraining）、强化学习（Reinforcement Learning）和扩散强迫（Diffusion-forcing）框架来实现协同优化。官方介绍，SkyReels-V2 现已支持生成 30 秒、40 秒的视频，且具备生成高运动质量、高一致性、高保真视频的能力。为开发专业的影视生成模型，昆仑万维整合的原始数据集规模达到亿级（O（100M））。同时，团队还训练了统一的视频理解模型 SkyCaptioner-V1，能够高效地理解视频数据，生成符合原始结构信息的多样化描述。

SkyReels-V2 在昆仑万维构建的人类评估测试「SkyReels-Bench」，和开源的自动化评估测试「V-Bench」中，在多个方面媲美甚至超越了多个视频生成模型（如 HunyuanVideo-13B 和 Wan2.1-14B）。
在 SkyReels-Bench 的 I2V 多维度人工评测集下，SkyReels-V2
在所有质量维度上均优于其他开源模型，并与闭源模型表现相当。
作为首个商业级 E2V 开源模型，SkyReels-A2 在 E2V 评估 Benchmark A2-Bench中的结果表明，其一致性和质量维度上评估与闭源模型相当。

目前，昆仑万维已将 SkyCaptioner-V1 和 SkyReels-V2 系列模型（包括扩散强迫、文本到视频、图像到视频、摄像导演和元素到视频模型）的各种尺寸（1.3B、5B、14B）进行完全开源，已上架 SkyReels 官网、Arxiv、GitHub。( @APPSO)

5、Sand AI 开源 MAGI-1 视频生成模型

MAGI-1 是由 Sand AI 开发的开源自回归视频生成模型，包含 24B 参数和 4.5B 参数两个版本。其中 24B 参数模型可生成原生 1440×2568 分辨率的高清视频；4.5B 参数版本仅需单张 RTX 4090 显卡即可推理。

在人工评估和物理基准测试中，MAGI-1 的表现超越了多数视频模型，以及部分闭源模型。

目前模型权重和代码均已基于 Apache 2.0 协议开源，有兴趣的大佬可以自行尝试部署。当然，也可以直接使用官方提供的在线生成服务。（@三花 AI）

02 有亮点的产品

1、PlayAI voice-changer：仅需 10 秒的音频，即可模仿任意人声

由 Play.ai 开发的 Voice Changer，只需 10 秒的音频即可将您的声音变成任何人的声音。

一次录音 --> 无限多个声音
保留情感和语调
无需再聘请配音演员
可在移动设备上立即使用（@PlayAI@X）

03 有态度的观点

1、DeepMind 创始成员：AI 的未来在于自主获取经验

近日，Google DeepMind 强化学习团队副总裁 David Silver 近日在一场重要播客中提出了关于 AI 未来发展的关键观点。作为 DeepMind 创始成员和 AlphaGo 项目的核心人物，Silver 认为 AI 未来的突破将来自于其自主获取经验的能力，而非继续依赖人类数据。Silver 在访谈中指出，AI 发展正从「人类数据时代」迈向「经验时代」。他解释道：「目前的 AI 方法基于一个共同理念：提取人类拥有的全部知识并'喂'给机器。但真正的突破将来自于机器与世界互动，产生自身经验的能力。」

Silver 还谈到了当前大语言模型中的强化学习应用。虽然基于人类反馈的强化学习（ RLHF）帮助模型更符合人类偏好，但他认为这种方法无法让 AI 超越人类知识的「天花板」。「如果系统根据人类反馈学习，它最终只会输出人类认知内的内容，无法探索未知领域。」Silver 将人类数据比作化石燃料，认为这是 AI 发展的「先发优势」，但真正可持续的「燃料」是 AI 自主生成的经验。「当化石燃料耗尽后，我们需要某种可持续燃料来维持世界运转。强化学习便是这种可持续燃料。」(@APPSO)

2、方文山：AI 可部分取代词作者

据《大河报》消息，华语流行音乐作词人、导演方文山近日参加了 2025 中国国际汉字大会。其在接受采访时表示，「词作者的某部分创作可能会被 AI 取代」。

方文山表示，比如一些消耗性的词句，只需要运用一段时间，AI 可以记忆畅销歌曲的风格。同时方文山也指出，因为 AI 会抓取热点歌曲，产出的词句可能一时「听了很上头」，但听久了就会像「糖果」一样，「吃」多了会腻。(@APPSO)