2月18日,阶跃星辰发布了最新的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型。其中 Step-Video-T2V <font style="color:rgb(31, 35, 40);">是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频;</font>Step-Audio 则是行业内首个产品级的开源语音交互模型,通过结合 130B 参数的大语言模型、语音识别模型与语音合成模型,实现了端到端的文本、语音对话生成,能和用户自然地进行高质量对话。PAI Model Gallery 现已支持这两个最新模型的一键部署,以下为您详细介绍如何使用。
<font style="color:rgb(0, 0, 0);">PAI Model Gallery 简介</font>
<font style="color:rgb(0, 0, 0);">Model Gallery </font>是阿里云人工智能平台 PAI 的产品组件,它集成了国内外 AI 开源社区中优质的预训练模型,涵盖了 <font style="color:rgb(0, 0, 0);">LLM、AIGC、CV、NLP </font>等各个领域,<font style="color:rgb(0, 0, 0);">如 Qwen,DeepSeek 等系列模型</font>。通过 PAI 对这些模型的适配,用户可以零代码实现从训练到部署再到推理的全过程,简化了模型的开发流程,为开发者和企业用户带来了更快、更高效、更便捷的 AI 开发和应用体验。
<font style="color:rgb(0, 0, 0);">PAI Model Gallery </font>访问地址:https://pai.console.aliyun.com/#/quick-start/models
一键部署 Step-Video-T2V
Step-Video-T2V 模型介绍
Step-Video-T2V 是阶跃星辰发布的最先进的 (SoTA) 文本转视频预训练模型,性能领跑全球的开源视频生成大模型,具有 300 亿参数,能够生成高达 204 帧的视频。为了提高训练和推理效率,阶跃提出了一种用于视频的深度压缩 VAE,实现了 16x16 空间和 8 倍时间压缩比。在最后阶段应用直接偏好优化 (DPO) 来进一步提高生成视频的视觉质量。Step-Video-T2V 的性能在一个新的视频生成基准 Step-Video-T2V-Eval 上进行评估,展示了其 SoTA 文本生成视频质量。
为了对开源视频生成模型的性能进行全面评测,阶跃发布并开源了针对文生视频质量评测的新基准数据集 Step-Video-T2V-Eval。该测试集包含 128 条源于真实用户的中文评测问题,旨在评估生成视频在运动、风景、动物、组合概念、超现实、人物、3D 动画、电影摄影等 11 个内容类别上质量。
评测结果显示,Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均显著超过市面上既有的效果最佳的开源视频模型。
使用 PAI Model Gallery 一键部署
- 进入 PAI Model Gallery 页面,在顶部左上角根据实际情况选择地域。在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。在左侧导航栏选择快速开始 > Model Gallery。
- 在 Model Gallery 页面的模型列表中,单击找到并点击需要部署的模型卡片,例如“Step-Video-T2V”模型,进入模型详情页面。
- 单击右上角部署:选择部署资源后,即可一键部署服务,生成一个 PAI-EAS 服务。
- <font style="color:rgb(24, 24, 24);">使用推理服务。部署成功后,在服务页面可以点击“查看调用信息”获取调用的 Endpoint 和 Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。 </font>
一键部署 Step-Audio-Chat
Step-Audio-Chat 模型介绍
Step-Audio 是行业内首个产品级的开源语音交互模型,能够根据不同的场景需求生成情绪、方言、语种、歌声和个性化风格的表达,能和用户自然地进行高质量对话。模型生成的语音具有自然流畅、情商高等特征,同时也能支持不同角色的音色克隆,满足影视娱乐、社交、游戏等行业场景下应用需求。Step-Audio 展示了四项关键技术创新:
●130B 参数多模态模型:集成理解和生成功能的单一统一模型,可执行语音识别、语义理解、对话、语音克隆和语音合成。阶跃星辰已将 130B Step-Audio-Chat 变体开源。
●生成数据引擎:通过阶跃星辰的 130B 参数多模态模型生成高质量音频,消除了传统 TTS 对手动数据收集的依赖。利用这些数据来训练和公开发布资源高效的 Step-Audio-TTS-3B 模型,该模型具有增强的指令跟踪能力,可实现可控语音合成。
●精细化语音控制:通过指令式控制设计实现精准调控,支持多种情绪(愤怒、喜悦、悲伤)、方言(粤语、四川话等)、唱腔(说唱、清唱)等,满足多样化的语音生成需求。
●增强智能:通过 ToolCall 机制集成和角色扮演增强功能提高代理在复杂任务中的表现。
在 LlaMA Question、Web Questions 等 5 大主流公开测试集中,Step-Audio 模型性能均超过了行业内同类型开源模型,位列第一。Step-Audio 在 HSK-6(汉语水平考试六级)评测中的表现尤为突出,是最懂中国话的开源语音交互大模型。
使用 PAI Model Gallery 一键部署
- 进入 PAI Model Gallery 页面,在顶部左上角根据实际情况选择地域。在左侧导航栏选择工作空间列表,单击指定工作空间名称,进入对应工作空间内。在左侧导航栏选择快速开始 > Model Gallery。
- 在 Model Gallery 页面的模型列表中,单击找到并点击需要部署的模型卡片,例如“Step-Audio-Chat”模型,进入模型详情页面。
- 单击右上角部署,填写服务名称并选择合适的部署资源后,即可一键部署服务,生成一个 PAI-EAS 服务。 由于模型尺寸较大(130B),总共至少需要300G左右的显存才可以加载模型,因此请至少选用4卡80G显存的部署资源。
- <font style="color:rgb(24, 24, 24);">使用推理服务。部署成功后,在服务页面可以点击“查看调用信息”获取调用的 Endpoint 和 Token,想了解服务调用方式可以点击预训练模型链接,返回模型介绍页查看调用方式说明。 </font>
技术支持
欢迎各位小伙伴持续关注使用 PAI-Model Gallery,平台会不断更新 SOTA 模型,如果您有任何需求或建议,也可以联系我们。您可通过钉钉扫描下方二维码(或搜索钉钉群号79680024618/77450028832),加入 PAI-Model Gallery 用户交流群!
PAI ModelGallery 用户一群:
PAI ModelGallery 用户二群:
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。