本文来自阶跃星辰技术团队的投稿。
开源第一日,stepfun-ai 在 GitHub 的两个仓库(Step-Audio 和 Step-Video-T2V)有望双双突破一千星!期待更多 Multimodal LLM 团队加入开源社区,共同推动技术进步。
一直以来,阶跃星辰 围绕实现 AGI 的终极目标,坚定投入,持续打造更全面、更强大的通用基座模型。我们深知 AGI 的实现离不开全球开发者的共同努力。因此开源的初心,是希望跟大家分享最新的技术成果,为全球开源社区贡献一份力量。
我们相信多模态大模型是通往 AGI 的必经之路,但目前尚处于早期阶段。我们希望能与开发者朋友们集思广益,共同拓展模型技术边界,并推动产业应用落地 。 根据技术报告的评测结果,Step-Video-T2V 的参数量和模型性能目前在 全球开源视频生成 领域都处于领先水平;而 Step-Audio 则是业内首款产品级的 开源语音交互模型 。
Step-Audio业内首款产品级开源语音交互模型
Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。模型生成的语音具有自然流畅、情商高等特征,同时也能支持不同角色的音色克隆,满足影视娱乐、社交、游戏等行业场景下应用需求。
Step-Audio 包括如下 4 大技术亮点:
- 1300 亿多模态理解生成一体化:单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能,开源千亿参数多模态模型
Step-Audio-Chat 版本。 - 高效合成数据链路 :Step-Audio 突破传统 TTS对人工采集数据的依赖,通过千亿模型的克隆和编辑能力,生成高质量的合成音频数据,实现“合成数据生成与模型训练的循环迭代”框架,并同步开源首个基于大规模合成数据训练,支持 RAP 和哼唱的指令加强版语音合成模型 Step-Audio-TTS-3B 。
- 精细语音控制:支持多种情绪(如生气,高兴,悲伤)、方言(包括粤语、四川话等)和唱歌(包括RAP、干声哼唱)的精准调控,满足用户对多样化语音生成的需求。
- 扩展工具调用:通过 ToolCall 机制和角色扮演增强,进一步提升其在 Agents 和复杂任务中的表现。
模型介绍
在 Step-Audio 系统中,音频流采用 Linguistic tokenizer(码率 16.7 Hz,码本大小 1024)与 Semantice tokenizer(码率 25 Hz,码本大小 4096)并行的双码本编码器方案,双码本在排列上使用了 2:3 时序交错策略。通过音频语境化持续预训练和任务定向微调强化了 130B 参数量的基础模型(Step-1),最终构建了强大的跨模态语音理解能力。为了实现实时音频生成,系统采用了混合语音解码器,结合流匹配(flow matching)与神经声码技术。
Step-Audio 模型架构
- Tokenizer
我们通过 token 级交错方法实现 Linguistic token 与 Semantic token 的有效整合。Linguistic tokenizer 的码本大小是 1024,码率 16.7Hz;而 Semantic tokenizer 则使用 4096 的大容量码本来捕捉更精细的声学细节,码率 25Hz。鉴于两者的码率差异,我们建立了 2:3 的时间对齐比例——每两 个Linguistic token 对应三个 Linguistic token 形成时序配对。
- 语言模型
为了提升 Step-Audio 有效处理语音信息的能力,并实现精准的语音-文本对齐,我们在 Step-1(一个拥有 1300 亿参数的基于文本的大型语言模型 LLM)的基础上进行了音频持续预训练。
- 语音解码器
Step-Audio 语音解码器主要是将包含语义和声学信息的离散标记信息转换成连续的语音信号。该解码器架构结合了一个 30 亿参数的语言模型、流匹配模型(flow matching model)和梅尔频谱到波形的声码器(mel-to-wave vocoder)。为优化合成语音的清晰度(intelligibility)和自然度(naturalness),语音解码器采用双码交错训练方法(dual-code interleaving),确保生成过程中语义与声学特征的无缝融合。
- 实时推理管线
为了实现实时的语音交互,我们对推理管线进行了一系列优化。其中最核心的是控制模块(Controller),该模块负责管理状态转换、协调响应生成,并确保关键子系统间的无缝协同。这些子系统包括:
- 语音活动检测(VAD):实时检测用户语音起止
- 流式音频分词器(Streaming Audio Tokenizer):实时音频流处理
- Step-Audio语言模型与语音解码器:多模态回复生成
- 上下文管理器(Context Manager):动态维护对话历史与状态
- 后训练细节
在后训练阶段,我们针对自动语音识别(ASR)与文本转语音(TTS)任务进行了专项监督微调(Supervised Fine-Tuning, SFT)。对于音频输入-文本输出(Audio Question Text Answer, AQTA)任务,我们采用多样化高质量数据集进行SFT,并采用了基于人类反馈的强化学习(RLHF)以提升响应质量,从而实现对情感表达、语速、方言及韵律的细粒度控制。
模型评测
由于目前行业内语音对话测试集相对缺失,我们自建并开源了多维度评估体系 StepEval-Audio-360 基准测试,从角色扮演、逻辑推理、生成控制、文字游戏、创作能力、指令控制等 9 项基础能力的维度对开源语音模型进行全面测评。通过人工横评后的结果显示,Step-Audio 的模型能力十分均衡,且在各个维度上均超过了此前市面上效果最佳的开源语音模型。
StepEval-Audio-360 评测结果
在 LlaMA Question、Web Questions 等 5 大主流公开测试集中,Step-Audio 模型性能均超过了行业内同类型开源模型,位列第一。Step-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是最懂中国话的开源语音交互大模型。
公开评测集评测结果
模型能够深入理解中文的博大精深,而不会被「绕晕」。
Step-Audio 也具有高情商的特征,熟知人情世故,当用户面临各种人生问题,它都可以像好朋友一样提供贴心陪伴并帮你出主意。
相关模型部署链接、体验入口、技术报告链接:
GitHub 地址:https://github.com/stepfun-ai/Step-Audio
Hugging Face: https://huggingface.co/collections/stepfun-ai/step-audio-67b3...
Model Scope:https://modelscope.cn/collections/Step-Audio-a47b227413534a
技术报告:https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf
Step-Video-T2V开源参数量最大、性能最好的视频生成大模型
Step-Video-T2V 模型的参数量达到 300 亿,可以直接生成 204 帧(8-10 秒)、540P 分辨率的高质量视频,这意味着能确保生成的视频内容具有极高的信息密度和强大的一致性。
Step-Video-T2V 基于 DiT 模型,采用 Flow Matching 进行训练。视频 VAE 实现了 16x16 倍空间压缩和 8 倍时间压缩, 大大降低了大规模视频生成训练的计算复杂度。 两个双语文本编码器使 Step-Video-T2V 能够直接理解中文或英文提示。为了加速模型收敛并充分利用不同质量的视频数据集,Step-Video-T2V 采用级联训练流程,包括文本到图像预训练、文本到视频预训练、监督微调(SFT)和直接偏好优化(DPO)。
Step-Video-T2V 模型架构图 模型介绍
- 高压缩的视频 VAE
视频 VAE 负责将原始 Video 数据压缩为隐空间表示,以供后续的 DiT 模型进一步学习建模。视频 VAE 的压缩倍率直接决定了生成任务的序列长度,而序列长度又与 DiT 的计算复杂度呈平方扩展关系。这驱使我们设计并实现更高压缩比率的 VAE 模型。
我们在编码器和解码器中引入双流信息通路,包括卷积通路来保持高频细节,以及通过通道平均通路来保留低频结构。结合重新设计的多阶段训练策略,实现了 16x16 倍空间压缩和 8 倍时间压缩倍率,同时我们的重建质量与最强的开源低倍率(8x8x4) VAE 相当,克服了压缩倍率和重建质量难以平衡的挑战。改进后,Step-Video-T2V 最长支持 204 帧的原始视频输出。
Video-VAE 架构
- 文本编码器
Step-Video-T2V 使用两个双语文本编码器来处理用户文本提示:Hunyuan-CLIP 和 Step-LLM。Hunyuan-CLIP是一个双向文本编码器,能够生成与视觉空间高度对齐的文本表示,但最大输入长度限制为 77 个词元,在处理较长用户提示时存在挑战。Step-LLM 是一个内部开发的单向双语文本编码器,采用基于下一个词预测任务的预训练方式,并引入了重新设计的 Alibi-Positional Embedding,提升了序列处理的效率和准确性。与 Hunyuan-CLIP 不同,Step-LLM 没有输入长度限制,因此在处理长且复杂的文本序列时表现尤为出色。通过结合这两种文本编码器,Step-Video-T2V 能够处理不同长度的用户提示,生成稳健的文本表示,有效地引导模型在潜在空间中进行学习。
- DiT 模型
我们对传统 DiT 在图片生成中的 2D 绝对位置编码进行了优化,引入 3D-RoPE相对位置编码,使得模型能够处理视频数据中时间(帧)、空间(高度和宽度)三个维度的依赖关系。3D 相对位置编码能够灵活适应不同分辨率和长度的视频输入,使模型在生成视频时更具适应性和鲁棒性。这一优化增强了 DiT 在处理不同视频内容、分辨率及其变化时的泛化能力,尤其在处理长序列和多分辨率视频时表现出色。
在大规模训练过程中,我们混合使用了不同长度、不同分辨率的视频以及不同分辨率的图片,以提高模型的通用性和适应性。为了进一步增强训练的稳定性,我们在 DiT 的 Transformer-block 中引入了 QK-Norm 机制。该机制从而大幅提高了训练过程的稳定性和收敛速度,特别是在处理混合数据和长时间序列时,QK-Norm 显著降低了梯度爆炸或消失的风险。
训练策略
Step-Video-T2V使用了级联训练策略,主要包括四个步骤:
步骤1:T2I 预训练。 我们通过 T2I 预训练从零开始训练 Step-Video-T2V。通过先进行 T2I 训练,模型可以建立起视觉概念的基础,然后在T2V阶段集中学习时序动态知识,大大降低模型的收敛速度。
步骤2:T2VI 预训练。 在步骤 1 获得空间知识后,Step-Video-T2V 进入 T2VI 联合训练阶段,同时包含 T2I 和T2V。这个步骤分为两个阶段:第一阶段使用低分辨率视频(192x320),模型主要学习运动相关知识;第二阶段提高分辨率(544x992),让模型学习更精细的细节。
步骤3:T2V 微调。 由于预训练视频数据在不同领域和质量上的多样性,预训练模型通常会引入生成畸变和风格差异。我们使用少量的文本视频对,并去除T2I,专门进行文本到视频生成的适应性训练以应对这些问题。结果表明,使用不同 SFT 数据集微调后的模型进行平均,可以提高生成视频的质量和稳定性,超越了指数移动平均(EMA)方法。
步骤4:DPO训练。 采用基于视频的DPO训练来提高生成视频的视觉质量,并确保更好地与用户提示对齐。 模型评测为了对开源视频生成模型的性能进行全面评测,我们构建并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。
图为 Step-Video-T2V-Eval 评测结果
评测结果显示,Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均显著超过市面上既有的效果最佳的开源视频模型。
在生成效果,Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出,能够高效助力视频创作者实现精准创意呈现。
效果示例
视频由跃问视频生成
Step-Video-T2V 对复杂运动场景场景具有优异的把控能力。模型对熊猫、地面坡度、滑板等多个事物之间的空间关系、大幅度运动的规律都有着深刻的理解,生成的画面真实且符合物理规律。而生成复杂运动,理解物理空间规律也是当下视频生成模型最大的挑战。
Step-Video-T2V 是运镜大师,支持推、拉、摇、移、旋转、跟随等多种镜头运动方式,以及不同景别之间的切换,能够很好地生成大幅度运镜。
相关模型部署链接、体验入口、技术报告链接:
GitHub 地址:https://github.com/stepfun-ai/Step-Video-T2V
Hugging Face: https://huggingface.co/stepfun-ai/stepvideo-t2v
Model Scope:https://modelscope.cn/models/stepfun-ai/stepvideo-t2v
技术报告:https://arxiv.org/abs/2502.10248体验入口:https://yuewen.cn/videos(跃问视频)
另外,以上两款模型均可在阿里云 PAI 平台使用:https://pai.console.aliyun.com/#/quick-start/models
感谢 Model Scope 、Huggingface 等众多社区小伙伴的大力支持!
欢迎更多开发者朋友们来体验阶跃的模型,让我们一起为中国开源世界贡献一份力量。
更多 Voice Agent 学习笔记:
报名丨Computer use&Voice Agent :使用 TEN 搭建你的 Mac Assistant
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。