Stability AI 发布3D模型生成AI Stable Video 3D

Stability AI 发布 Stable Video 3D (SV3D) 模型

Stability AI 最近发布了 Stable Video 3D (SV3D)，这是一个能够从单张 2D 图像生成 3D 网格对象模型的 AI 模型。SV3D 基于 Stable Video Diffusion (SVD) 模型，并在 3D 对象生成基准测试中实现了最先进的结果。

SV3D 的核心功能与创新

SV3D 主要解决了 新视角合成 (Novel View Synthesis, NVS) 的问题，即根据一个或多个 2D 图像生成对象的未见过部分（例如，根据对象的正面图像生成其背面视图）。Stability AI 利用了其现有的 SVD 模型，该模型具备相机控制功能，能够生成围绕对象旋转的 轨道视频。为了训练 SV3D，团队使用了从 Objaverse 数据集中渲染的 3D 对象。在 GSO 和 OmniObject3D 基准测试中，SV3D 超越了基线模型，并取得了新的最先进性能。

SV3D 的技术优势

与以往方法相比，SV3D 在 3D 生成方面引入了显著进步，特别是在新视角合成方面。SV3D 能够从任意角度生成连贯的视图，并具备良好的泛化能力。这不仅增强了姿态可控性，还确保了多个视图之间对象外观的一致性，从而提高了 3D 生成的现实感和准确性。

与早期模型的对比

Stability AI 在 2023 年曾发布过基于 Stable Diffusion 1.5 的 Stable Zero123 模型，该模型受 Allen Institute for AI (AI2) 开源的 Zero123 模型启发。然而，Zero123 和 Stable Zero123 的一个主要缺点是它们 不具备多视角一致性，因为它们一次只能生成一帧新视图。相比之下，SVD 模型专门训练用于生成一致的多帧视频，并且具备相机控制功能，能够生成更复杂的轨道 3D 视频。

SV3D 的训练与版本

为了训练 SV3D，Stability AI 使用了 Objaverse 中的对象，并从不同相机角度渲染了每个对象的 21 帧图像。团队训练了三个版本的 SV3D：一个仅使用静态轨道训练，一个仅使用动态轨道训练，第三个则结合了静态和动态轨道。评估结果显示，第三个版本在各项指标上表现最佳。

应用前景与用户反馈

在 Hacker News 的讨论中，用户探讨了 SV3D 的潜在应用。有用户表示，如果演示的动画具有代表性，那么该模型的网格输出可能足以用于 3D 打印，并期待进行实验。

模型获取与使用

SV3D 的模型权重已在 Huggingface 上发布，但仅限非商业用途。商业用户可以通过 Stability AI 的 会员计划 获取该模型。