视频大模型 Vidu 支持音视频合成；字节跳动推出语音生成模型 Seed-TTS 丨 RTE 开发者日报 Vol.221

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。

本期编辑：@CY，@JLT，@鲍勃

01 有话题的新闻

1、视频大模型 Vidu 大更新，首次支持音视频合成

据钛媒体 AGI 报道，生数科技与清华大学联合发布的中国首个长时长、高一致性、高动态性视频大模型 Vidu，近期完成三个最新、重大技术迭代：

目前 Vidu 可以一键生成 32s 视频；

支持音视频合成，即 Vidu 视频生成有声音了（Text-2-Audio）

支持 4D 生成，可以从单一视频生成时空一致的 4D 内容

Vidu 是自 Sora 发布之后，全球率先取得重大突破的视频大模型，也是国内唯一能够性能全面对标国际顶尖水平的视频生成模型，并且仍在加速迭代提升中。（@爱范儿）

2、快手对标 Sora 发布视频生成大模型「可灵」，支持生成 2 分钟视频

快手 6 月 6 日宣布，「可灵」视频生成大模型官网正式上线，效果对标 OpenAI 旗下的视频生成大模型 Sora。快手介绍称，可灵大模型为快手 AI 团队自研，采用与 Sora 相似的技术路线，结合了多项自研技术创新。该模型支持生成长达 2 分钟、帧率 30fps 的视频，分辨率可高达 1080p，并支持自由的宽高比。

而快手也对其文生视频效果感到自信。据介绍，可灵大模型能够生成大幅度的合理运动，并使其符合客观运动规律。在官方给出的视频范例中，一位宇航员在月球上奔跑，随着镜头慢慢抬升，宇航员的步态和影子都能保持合理恰当。

快手表示，此前各家放出的视频大模型均以展示视频为主，可灵大模型已上线快手旗下的快影 App，面向公众开放邀测体验。( @Zaker)

3、Pika 完成近 6 亿 B 轮融资，即将发布全新视频生成大模型

6 月 6 日，AI 视频生成初创公司 Pika 日前已完成总额 8000 万美元（约合 5.798 亿元人民币）的 B 轮融资，由 Spark Capital 领投，Greycroft、Lightspeed Venture Partners 以及 Jared Leto 参投，公司估值超过 4.7 亿美元（约合人民币 34.06 亿元），较上一轮翻了一倍。截至目前，Pika 总融资额已达 1.35 亿美元。

据悉，Pika 成立于 2023 年 4 月，由斯坦福大学 AI Lab 博士生郭文景（Demi）、孟辰霖（Chenlin Meng）以及陈思禹创办，开发基于 AI 模型技术的文生视频工具，并于 2023 年 11 月发布首款 AI 视频生成产品 Pika 1.0，并在 Discord 上测试 Web 应用等产品。

人员方面，Pika 透露，公司团队从 3 人增加到了数十人。（@钛媒体）

4、腾讯发布混元 DiT 模型加速库，生图时间缩短 75%

腾讯昨日发布针对腾讯混元文生图开源大模型（简称混元 DiT 模型）的加速库，让推理效率大幅提升，生图时间缩短 75%。同时，腾讯表示混元 DiT 模型的使用门槛也大幅降低。用户可以基于 ComfyUI 的图形化界面，使用腾讯混元文生图模型能力。另外，混元 DiT 模型已经部署至 Hugging Face Diffusers 通用模型库中，用户仅用三行代码即可调用混元 DiT 模型，无需下载原始代码库。（@爱范儿）

5、Stable Audio Open 开源 AI 模型发布

Stability AI 推出了 Stable Audio Open，这是一个开源的 AI 模型，可以基于用户输入的提示词，生成高质量音频样本。Stable Audio Open 最长可以创建
47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效。该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。StableAudio Open 已经开源，感兴趣的用户可以在 HuggingFace 上试用。（@AI 洞察局）

6、LiveKit 获 2250 万美元 A 轮融资

AI 音视频基础设施平台初创公司 LiveKit 宣布筹集了 2250 万美元的 A 轮融资。本轮融资由 Altimeter 领投，Redpoint 以及包括 Jeff Dean、Elad Gil 等专注于 AI 领域的杰出人士提供支持。

LiveKit 计划将筹集的资金用于巩固其作为构建实时语音和视频应用的默认技术栈的地位，扩展其 AI 基础设施服务，并开发新产品以服务于新的用例。LiveKit 成立于 2021 年，其主营业务是提供灵活、开源的技术栈，使任何开发者都能够构建任何类型的实时语音或视频基础的应用程序。（@AI 洞察局）

7、字节跳动近日推出 Seed-TTS 模型

Seed-TTS 是一组大规模的自回归 TTS 模型，能够生成高度自然且富有表现力的语音。其设计目标是实现与人类语音几乎无差别的语音生成。Seed-TTS 在多个方面表现出色，包括零样本语音上下文学习（ICL）、说话者微调和情感控制。模型通过大量数据训练，展示了强大的泛化能力和潜在的应用场景，如虚拟助手、有声读物和视频配音等。（@AIGC 研习所）

写在最后：

我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

视频大模型 Vidu 支持音视频合成；字节跳动推出语音生成模型 Seed-TTS 丨 RTE 开发者日报 Vol.221

01 有话题的新闻

RTE开发者社区

引用和评论

上海的朋友来找 RTE 社区交流吧！丨亚马逊云科技中国峰会，6.19-20，上海世博中心

一文掌握 MCP 上下文协议：从理论到实践

开放创新，昇腾 CANN 再向深处

AI Agent爆火后，MCP协议为什么如此重要！

2025年医疗大模型各医疗场景赋能实践研究报告130+份汇总解读|附PDF下载

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读