上周,谷歌推出了 Veo 3,其最新的视频生成模型,可创建带有同步音效和音频对话的 8 秒视频片段,这在该公司的 AI 工具中尚属首次。该模型以 720p 分辨率生成视频(基于称为“提示”的文本描述或静止图像输入),代表了迄今为止可能最强大的消费级视频生成器,使视频合成接近难以区分“真实”和 AI 生成媒体的程度。
谷歌还推出了 Flow,一个在线 AI 电影制作工具,将 Veo 3 与公司的 Imagen 4 图像生成器和 Gemini 语言模型相结合,允许创作者用自然语言描述场景,并在网络界面中管理角色、位置和视觉风格。
Veo 3 基于扩散技术,训练过程是将真实视频逐步添加噪声直到变为纯静态,然后教神经网络逐步逆转此过程。生成时,它从随机噪声和文本提示开始,逐步将噪声细化为与描述匹配的连贯视频。DeepMind 未透露用于训练 Veo 3 的内容来源,但 YouTube 可能性很大。
Veo 3 是一个由一系列 AI 模型组成的系统,包括用于解释用户提示以协助详细视频创建的大型语言模型、创建视频的视频扩散模型和将声音应用于视频的音频生成模型。为防止滥用,它使用 SynthID 技术嵌入不可见标记。谷歌还会审查违反其内容协议的某些提示和输出。
在测试中,Veo 3 的最大变化是集成音频生成,虽 Meta 去年 10 月就预览了类似功能,AI 研究人员也已实验用 AI 为无声视频添加配乐,但 Veo 3 仍有偶尔的故障,如吃意大利面的声音、对话错误等,但总体在视频合成质量和连贯性上有进步。视频字幕也会有乱码。
新的音频提示包括各种场景的描述,如肌肉男与 CRT 电视、恐怖电影、电影预告片等,展示了 Veo 3 在音频生成方面的能力,但结果通常较简单。
一些经典提示来自之前的测试,如智能人看电脑屏幕爆炸、 moonshark 从电脑屏幕跳出等,Veo 3 比之前的视频合成模型在时间连贯性上更好,但仍不完美,存在训练数据限制导致的“不可能”或不合逻辑的情况,如多人场景中的对话错误、请求不合理等。
尽管 Veo 3 有进步,但仍存在“jabberwockies”现象。有人担心这种技术可能导致社会欺骗,如自动化生成假人进行意识形态争论,但作者认为媒体欺骗的可能性一直存在,只是现在变得更容易和普及,随着工具更强大和实惠,媒体中的怀疑论将增加,关键是信任信息来源。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。