人工智能视频在真实感方面刚刚取得了惊人的飞跃。我们注定要完蛋吗？

上周，谷歌推出了 Veo 3，其最新的视频生成模型，可创建带有同步音效和音频对话的 8 秒视频片段，这在该公司的 AI 工具中尚属首次。该模型以 720p 分辨率生成视频（基于称为“提示”的文本描述或静止图像输入），代表了迄今为止可能最强大的消费级视频生成器，使视频合成接近难以区分“真实”和 AI 生成媒体的程度。
谷歌还推出了 Flow，一个在线 AI 电影制作工具，将 Veo 3 与公司的 Imagen 4 图像生成器和 Gemini 语言模型相结合，允许创作者用自然语言描述场景，并在网络界面中管理角色、位置和视觉风格。
Veo 3 基于扩散技术，训练过程是将真实视频逐步添加噪声直到变为纯静态，然后教神经网络逐步逆转此过程。生成时，它从随机噪声和文本提示开始，逐步将噪声细化为与描述匹配的连贯视频。DeepMind 未透露用于训练 Veo 3 的内容来源，但 YouTube 可能性很大。
Veo 3 是一个由一系列 AI 模型组成的系统，包括用于解释用户提示以协助详细视频创建的大型语言模型、创建视频的视频扩散模型和将声音应用于视频的音频生成模型。为防止滥用，它使用 SynthID 技术嵌入不可见标记。谷歌还会审查违反其内容协议的某些提示和输出。
在测试中，Veo 3 的最大变化是集成音频生成，虽 Meta 去年 10 月就预览了类似功能，AI 研究人员也已实验用 AI 为无声视频添加配乐，但 Veo 3 仍有偶尔的故障，如吃意大利面的声音、对话错误等，但总体在视频合成质量和连贯性上有进步。视频字幕也会有乱码。
新的音频提示包括各种场景的描述，如肌肉男与 CRT 电视、恐怖电影、电影预告片等，展示了 Veo 3 在音频生成方面的能力，但结果通常较简单。
一些经典提示来自之前的测试，如智能人看电脑屏幕爆炸、 moonshark 从电脑屏幕跳出等，Veo 3 比之前的视频合成模型在时间连贯性上更好，但仍不完美，存在训练数据限制导致的“不可能”或不合逻辑的情况，如多人场景中的对话错误、请求不合理等。
尽管 Veo 3 有进步，但仍存在“jabberwockies”现象。有人担心这种技术可能导致社会欺骗，如自动化生成假人进行意识形态争论，但作者认为媒体欺骗的可能性一直存在，只是现在变得更容易和普及，随着工具更强大和实惠，媒体中的怀疑论将增加，关键是信任信息来源。