Runway 发布 Gen-3 Alpha AI 视频生成模型
Runway 于周日宣布推出新的 AI 视频生成模型 Gen-3 Alpha,该模型仍在开发中,但其生成的视频质量与 OpenAI 的 Sora 相当。Sora 于今年初亮相,但尚未公开发布。Gen-3 Alpha 能够通过文本提示生成新颖的高清视频,内容涵盖从真实人类到超现实怪物在乡村中行走的场景。
与 Runway 2023 年 6 月发布的 Gen-2 相比,Gen-3 Alpha 能够生成 10 秒长的视频片段,而 Gen-2 只能生成 2 秒的片段。尽管 10 秒的视频长度与 Sora 的 1 分钟相比较短,但考虑到 Runway 的计算资源有限,这一进步仍然显著。此外,Runway 已有将视频生成技术应用于商业用户的经验。
Gen-3 Alpha 目前不生成音频,且时间上一致的生成结果(如保持角色一致性)可能依赖于 高质量的训练材料。然而,Runway 在过去一年中在视觉保真度方面的提升不容忽视。
AI 视频生成技术竞争加剧
近期,AI 视频生成领域竞争激烈。北京快手科技推出的 Kling 模型能够生成 2 分钟的 1080p 高清视频,其细节和一致性据称与 Sora 相当。此外,Luma AI 的 Luma Dream Machine 也引发了社交媒体上的讨论,尽管其生成的视频缺乏一致性,测试结果并不令人满意。
Runway 作为 2018 年成立的文本到视频生成先驱,近期因其 Gen-2 技术落后于新模型而成为网络调侃的对象,这可能是 Gen-3 Alpha 发布的原因之一。
Gen-3 Alpha 的技术亮点
Gen-3 Alpha 在生成真实人类方面表现出色,开发者称其能够生成具有丰富动作、手势和情感的“表达性”角色。尽管公司提供的示例中人物大多只是缓慢凝视和眨眼,但看起来非常真实。示例包括火车上的女性、在里约热内卢街道上奔跑的宇航员、电视光芒映照下的男子等。
此外,Gen-3 Alpha 还能生成超现实的视频,如巨型生物在破败城市中行走、由岩石组成的男子在森林中行走等。
Gen-3 Alpha 的应用与未来
Gen-3 Alpha 将应用于 Runway 的 AI 编辑工具,包括 Multi Motion Brush、Advanced Camera Controls 和 Director Mode。它可以从文本或图像提示生成视频。
Runway 表示,Gen-3 Alpha 是首个基于新基础设施训练的模型,旨在实现大规模多模态训练,并迈向开发所谓的“通用世界模型”,即构建环境内部表示并模拟未来事件的 AI 系统。
局限性
尽管 Gen-3 Alpha 的演示视频令人印象深刻,但仍有一些局限性。由于该模型尚未公开,无法进行独立评估,且演示视频可能经过精心挑选。此外,所有图像和视频生成模型都需要大量现有图像或视频数据集,Runway 未透露其训练数据的来源。
未来展望
随着技术的进步,AI 视频生成技术有望降低电影制作成本,但也可能对视觉效果团队、演员和场景设计师等娱乐行业职位构成威胁。Gen-3 Alpha 目前尚未公开,但公司已为商业实体提供 定制模型咨询。Runway 表示,Gen-3 的发布将伴随内容保障措施,如内部视觉审核系统和 C2PA 来源标准。
AI 视频生成技术发展回顾
自 2022 年以来,AI 视频生成技术不断发展,Runway 的 Gen-1、Pika、Luma Dream Machine 和 Kling 等模型相继推出。技术的进步主要受限于计算资源和高质量训练数据的可用性。
总结来看,AI 视频生成技术正在快速发展,未来有望在专业视频项目中得到广泛应用。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。