首次预告十个月后,OpenAI 公开发布 Sora 视频生成技术

OpenAI发布Sora Turbo文本到视频生成模型

OpenAI于周一发布了Sora Turbo,这是其文本到视频生成模型的新版本,通过专属网站向ChatGPT Plus和Pro订阅者开放。该模型能够根据文本或图像提示生成最长20秒、分辨率高达1080p的视频。

发布范围与限制

Sora Turbo目前在美国和全球许多地区向ChatGPT Plus和Pro订阅者开放,但尚未在欧洲推出。由于流量过大,现有Plus订阅者在尝试使用该工具时可能会收到“注册暂时不可用”的提示。

出于谨慎考虑,OpenAI暂时限制了Sora生成人物视频的能力。在发布初期,涉及人类主题的上传内容将受到限制,同时OpenAI正在完善其深度伪造预防系统。平台还屏蔽了涉及儿童性虐待材料(CSAM)和性深度伪造的内容。OpenAI表示,他们维持了一个主动监控系统,并在发布前进行了测试以识别潜在的滥用场景。

模型性能与竞争

Sora在二月份的首次预览中以其相对高质量的视频生成能力令AI专家感到惊讶。然而,在过去的几个月里,来自竞争对手的各种视频合成模型,如Google的Veo、Runway的Gen-3 Alpha、Kling、Minimax以及最近推出的Hunyuan Video,都在一定程度上削弱了Sora发布的光芒。

尽管如此,Sora的发布仍然是OpenAI的一个重要里程碑。Sora允许用户创建多种宽高比的视频,并具备将现有素材与AI生成内容混合的功能。OpenAI表示,Sora Turbo处理视频生成请求的速度比2024年2月预览的研究版本更快。

订阅计划与功能

ChatGPT Plus订阅者(每月20美元)每月可生成最多50个480p分辨率的视频,或选择生成更少但质量更高的720p视频。Pro订阅者(每月200美元)则享有更高的分辨率和更长的视频时长。OpenAI计划在2025年初推出专门的定价层级。

在周一的直播中,OpenAI展示了新的“探索”界面,允许用户浏览他人生成的视频以获取提示灵感。OpenAI表示,任何人都可以免费查看“探索”内容,但生成视频需要订阅。他们还展示了名为“故事板”的新功能,允许用户以逐帧方式指导视频中的多个动作。

安全措施与技术细节

OpenAI还首次发布了Sora的系统卡,其中包含了有关模型工作原理的技术细节以及发布前进行的安全测试。

OpenAI在系统卡中描述了新的训练块:“与LLM的文本标记类似,Sora有视觉补丁。”他们表示,这些补丁是“视觉数据模型的有效表示……在高层次上,我们首先将视频压缩到低维潜在空间,然后将表示分解为时空补丁。”

Sora还使用了“重述技术”,类似于DALL-E 3图像生成中的技术,以“为视觉训练数据生成高度描述性的标题”。这反过来使Sora能够“更忠实地遵循用户在生成视频中的文本指令”。

安全措施与局限性

OpenAI在发布中实施了多项安全措施。平台在所有生成的视频中嵌入了C2PA元数据,用于识别和验证来源。视频默认显示可见水印,OpenAI还开发了内部搜索工具以验证Sora生成的内容。

公司承认当前版本存在技术限制。一位开发者在直播发布会上表示:“Sora的早期版本会犯错,它并不完美。”据报道,该模型在处理物理模拟和长时间复杂动作时存在困难。

过去,我们已经看到这些类型的限制是基于用于训练AI模型的示例视频。当前这一代AI视频合成模型在生成真正新颖的内容方面存在困难,因为底层架构擅长将现有概念转化为新的表现形式,但到目前为止通常无法实现真正的原创性。尽管如此,AI视频生成技术仍处于早期阶段,并且正在不断改进。

阅读 12
0 条评论