Stability AI 发布 Stable Video Diffusion
Stability AI 于周二发布了 Stable Video Diffusion,这是一款新的免费 AI 研究工具,能够将静态图像转换为短视频。该工具基于图像到视频的技术,包含两个 AI 模型,可以在配备 Nvidia GPU 的本地机器上运行。
主要模型
Stable Video Diffusion 包含两个模型:
- SVD:生成 14 帧的视频。
- SVD-XT:生成 25 帧的视频。
这些模型可以以 3 到 30 帧每秒的速度运行,输出分辨率为 576×1024 的 MP4 短视频片段(通常为 2-4 秒)。
性能与局限性
在本地测试中,使用 Nvidia RTX 3060 显卡生成 14 帧视频大约需要 30 分钟。用户可以通过 Hugging Face 和 Replicate 等云服务更快地运行模型(部分服务可能需要付费)。生成的动画通常保持场景的静态部分,并添加平移和缩放效果,或动画化烟雾或火焰。照片中的人物通常不会移动,尽管有一张 Steve Wozniak 的 Getty 图像略微“活”了起来。
研究阶段
Stability AI 强调,该模型仍处于早期阶段,仅供研究使用。公司在其网站上表示:“虽然我们热切地更新模型以融入最新进展,并努力整合您的反馈,但此模型目前不适用于现实世界或商业应用。您对安全性和质量的见解和反馈对于完善模型并最终发布非常重要。”
训练数据集
Stable Video Diffusion 的研究论文未透露模型训练数据集的来源,仅表示研究团队使用了“包含大约 6 亿样本的大型视频数据集”,并将其整理为大型视频数据集(LVD),该数据集包含 5.8 亿个带注释的视频片段,涵盖了 212 年的内容。
与其他 AI 视频模型的比较
Stable Video Diffusion 并非首个提供此类功能的 AI 模型。此前,Meta、Google 和 Adobe 等公司也推出了 AI 视频合成方法。开源项目 ModelScope 和 Runway 的 Gen-2 模型(目前被认为是最好的 AI 视频模型)也提供了类似功能。Pika Labs 是另一家 AI 视频提供商。Stability AI 表示,他们还在开发文本到视频模型,该模型将允许使用文字提示而非图像创建短视频片段。
获取与测试
Stable Video Diffusion 的源代码和权重已在 GitHub 上提供。另一种在本地测试的简便方法是通过 Pinokio 平台运行,该平台轻松处理安装依赖项并在其自己的环境中运行模型。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。