开发者朋友们大家好
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 技术 」、「有亮点的 产品 」、「有思考的 文章 」、「有态度的 观点 」、「有看点的 活动 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@赵怡岭、@鲍勃
01 有话题的技术
1、Dia :一次性生成超逼真对话的 TTS 模型
Dia 是由 Nari Labs 创建的 1.6B 参数文本转语音模型。
Dia 可以直接从文字记录生成高度逼真的对话。可以根据音频调整输出,从而控制情绪和语调。该模型还可以生成非语言交流,例如笑声、咳嗽声、清嗓子等。
Dia 提供预训练模型检查点和推理代码的访问权限。模型权重托管在 Hugging Face 上。但是该模型目前仅支持英语生成。(@GitHub)
2、阶跃星辰 Realtime API : 基于端到端语音模型 Step-1o-Audio,实现类人情感交互
阶跃星辰 Realtime API 是基于 Step-1o-Audio 模型构建的实时交互式语音接口。它提供超低延迟、高情商、多方言、拟人化的语音对话体验,支持人机之间的自然流畅沟通,并具备实时打断能力,实现真正意义上的双向交互式对话。通过部署相应的 API,开发者能够更高效地进行内容创作,拓宽灵感边界,并为企业级应用落地赋能。
阶跃星辰推出国内首个千亿参数端到端语音大模型 Step-1o-Audio,实现语音理解和生成的一体化,极大地提升了模型智商和情商上限。现在可以通过阶跃星辰开放平台 Realtime API 使用该实时语音模型。
- 情绪理解精准,支持多种方言;
- 类人表达丰富,打造真实体验;
- 低延迟高并发,实现流畅通话;
- 知识增强与联网搜索,提供场景化应答;
- 多模态输入输出,丰富交互形式。(@阶跃星辰开放平台)
3、Vidu AI 发布「Q1」视频生成模型
4 月 21 日,生树科技旗下的 Vidu AI 发布业内首个高可控 AI 视频大模型「Q1」。据介绍,Vidu Q1 在多主体细节可控、音效同步可控、画质增强等方面都取得出色表现。目前,Vidu Q1 已上线 Vidu 官网,支持时长 5 秒、1080p 的视频生成。
并且 Vidu Q1 在四大核心能力进行了全面升级:
- 清晰视觉效果——更锐利、更富有质感的画面;
- 影院级转场——流畅的首帧到末帧过渡;
- 精准音效——自定义音效,完美适配;
- 增强风格——更稳定、更富有表现力的动画。(@APPSO、Vidu AI@X)
4、昆仑万维开源全球首个「不限时」视频模型
4 月 21 日,昆仑万维 SkyReels 团队正式发布并开源 SkyReels-V2。据悉,SkyReels-V2 通过结合多模态大语言模型(MLLM)、多阶段预训练(Multi-stage Pretraining)、强化学习(Reinforcement Learning)和扩散强迫(Diffusion-forcing)框架来实现协同优化。官方介绍,SkyReels-V2 现已支持生成 30 秒、40 秒的视频,且具备生成高运动质量、高一致性、高保真视频的能力。为开发专业的影视生成模型,昆仑万维整合的原始数据集规模达到亿级(O(100M))。同时,团队还训练了统一的视频理解模型 SkyCaptioner-V1,能够高效地理解视频数据,生成符合原始结构信息的多样化描述。
- SkyReels-V2 在昆仑万维构建的人类评估测试「SkyReels-Bench」,和开源的自动化评估测试「V-Bench」中,在多个方面媲美甚至超越了多个视频生成模型(如 HunyuanVideo-13B 和 Wan2.1-14B)。
- 在 SkyReels-Bench 的 I2V 多维度人工评测集下,SkyReels-V2
在所有质量维度上均优于其他开源模型,并与闭源模型表现相当。 - 作为首个商业级 E2V 开源模型,SkyReels-A2 在 E2V 评估 Benchmark A2-Bench中的结果表明,其一致性和质量维度上评估与闭源模型相当。
目前,昆仑万维已将 SkyCaptioner-V1 和 SkyReels-V2 系列模型(包括扩散强迫、文本到视频、图像到视频、摄像导演和元素到视频模型)的各种尺寸(1.3B、5B、14B)进行完全开源,已上架 SkyReels 官网、Arxiv、GitHub。( @APPSO)
5、Sand AI 开源 MAGI-1 视频生成模型
MAGI-1 是由 Sand AI 开发的开源自回归视频生成模型,包含 24B 参数和 4.5B 参数两个版本。其中 24B 参数模型可生成原生 1440×2568 分辨率的高清视频;4.5B 参数版本仅需单张 RTX 4090 显卡即可推理。
在人工评估和物理基准测试中,MAGI-1 的表现超越了多数视频模型,以及部分闭源模型。
目前模型权重和代码均已基于 Apache 2.0 协议开源,有兴趣的大佬可以自行尝试部署。当然,也可以直接使用官方提供的在线生成服务。(@三花 AI)
02 有亮点的产品
1、PlayAI voice-changer:仅需 10 秒的音频,即可模仿任意人声
由 Play.ai 开发的 Voice Changer,只需 10 秒的音频即可将您的声音变成任何人的声音。
- 一次录音 --> 无限多个声音
- 保留情感和语调
- 无需再聘请配音演员
- 可在移动设备上立即使用(@PlayAI@X)
03 有态度的观点
1、DeepMind 创始成员:AI 的未来在于自主获取经验
近日,Google DeepMind 强化学习团队副总裁 David Silver 近日在一场重要播客中提出了关于 AI 未来发展的关键观点。作为 DeepMind 创始成员和 AlphaGo 项目的核心人物,Silver 认为 AI 未来的突破将来自于其自主获取经验的能力,而非继续依赖人类数据。Silver 在访谈中指出,AI 发展正从「人类数据时代」迈向「经验时代」。他解释道:「目前的 AI 方法基于一个共同理念:提取人类拥有的全部知识并'喂'给机器。但真正的突破将来自于机器与世界互动,产生自身经验的能力。」
Silver 还谈到了当前大语言模型中的强化学习应用。虽然基于人类反馈的强化学习( RLHF) 帮助模型更符合人类偏好,但他认为这种方法无法让 AI 超越人类知识的「天花板」。「如果系统根据人类反馈学习,它最终只会输出人类认知内的内容,无法探索未知领域。」Silver 将人类数据比作化石燃料,认为这是 AI 发展的「先发优势」,但真正可持续的「燃料」是 AI 自主生成的经验。「当化石燃料耗尽后,我们需要某种可持续燃料来维持世界运转。强化学习便是这种可持续燃料。」(@APPSO)
2、方文山:AI 可部分取代词作者
据《大河报》消息,华语流行音乐作词人、导演方文山近日参加了 2025 中国国际汉字大会。其在接受采访时表示,「词作者的某部分创作可能会被 AI 取代」。
方文山表示,比如一些消耗性的词句,只需要运用一段时间,AI 可以记忆畅销歌曲的风格。同时方文山也指出,因为 AI 会抓取热点歌曲,产出的词句可能一时「听了很上头」,但听久了就会像「糖果」一样,「吃」多了会腻。(@APPSO)
更多 Voice Agent 学习笔记:
级联vs端到端、全双工、轮次检测、方言语种、商业模式…语音 AI 开发者都在关心什么?丨Voice Agent 学习笔记
a16z 最新报告:AI 数字人应用层即将爆发,或将孕育数十亿美金市场丨 Voice Agent 学习笔记
a16z合伙人:语音交互将成为AI应用公司最强大的突破口之一,巨头们在B2C市场已落后太多丨Voice Agent 学习笔记
ElevenLabs 33 亿美元估值的秘密:技术驱动+用户导向的「小熊软糖」团队丨Voice Agent 学习笔记
端侧 AI 时代,每台家居设备都可以是一个 AI Agent丨Voice Agent 学习笔记
世界最炙手可热的语音 AI 公司,举办了一场全球黑客松,冠军作品你可能已经看过
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
a16z 最新语音 AI 报告:语音将成为关键切入点,但非最终产品本身(含最新图谱)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。