北京时间2024年4月27日,在2024中关村论坛年会未来人工智能先锋论坛上,清华大学联合生数科技27日正式发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。
该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。

Vidu具备复杂的动态镜头生成能力,不再受限于传统的简单镜头效果如推拉和移动。它可以实现远景、近景、中景、特写等多种镜头效果的切换,在一个画面中围绕统一主体展现出不同的视角。不仅如此,Vidu还能直接创造出长镜头、追焦以及转场效果,为视频注入丰富的镜头表达。
作为中国自主研发的视频大模型,Vidu还具备理解中国元素的能力,可以在视频中加入如熊猫、龙等独具中国特色的元素。

值得一提的是,短片中的片段都是从头到尾连续生成,没有明显的插帧现象,从这种“一镜到底”的表现能够推测出,Vidu采用的是“一步到位”的生成方式,与 Sora一样,从文本到视频的转换是直接且连续的,在底层算法实现上是基于单一模型完全端到端生成,不涉及中间的插帧和其他多步骤的处理。
Vidu的核心技术U-ViT架构由团队于2022年9月提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合的架构,完全由团队自主研发。这表明Vidu不仅在技术上实现了创新,而且在知识产权方面也具有显著优势。
Vidu视频大模型的推出,既是对中国人工智能技术的肯定,也是对全球AI领域的一大贡献。它的问世将推动视频内容制作方式的革新,为创作者带来更广泛的创作空间,同时也将推进相关产业的蓬勃发展和进步。


Momodel
47 声望21 粉丝

发现意外,创造可能。