在 1 月初的 CES 2025 大会上,黄仁勋身着新款皮衣为大家带来了多重惊喜,除了「世界最快GPU RTX 5090」之外,世界基础模型 Cosmos 也引发了广泛关注。
「AI 的下一个前沿是物理」,老黄用 Cosmos 直观地解释了这一趋势研判的由来与可信度。
顾名思义,世界模型能够生成和仿真虚拟世界,从而模拟场景中物体的空间关系及其物理交互。具体而言,Cosmos 世界基础模型是一套用于物理感知视频生成的开放式扩散和自回归 Transformer 模型,基于 2,000 万小时的真实世界人类互动、环境、工业、机器人和驾驶数据,训练了 9,000 万亿个 token。
英伟达高级科学家 Jim Fan 在自己的社交账号上对 Cosmos 进行了精准的总结:
- 提供两种模式:
扩散模式(连续标记)和自回归模式(离散标记); - 支持两种生成方式:
文本生成视频 (text->video) 和文本 + 视频生成视频 (text+video->video)
为了方便大家体验这个革新性的世界基础模型,HyperAI超神经官网的教程版块已经上线了「一键部署 Cosmos 世界基础模型」,感兴趣的小伙伴快来亲自上手试一试吧 ~
教程地址:
Demo 运行
1.登录 hyper.ai,在「教程」页面,选择「一键部署 Cosmos 世界基础模型」,点击「在线运行此教程」。
2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
3.选择「NVIDIA RTX A6000」算力以及 「PyTorch」镜像,可以按照自己的需求选择「按量付费」或「包日/周/月」,最后点击「继续执行」。
新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
HyperAI超神经专属邀请链接(直接复制到浏览器打开):
https://openbayes.com/console/signup?r=Ada0322_QZy7
另外,OpenBayes 新春活动进行中,单卡 RTX 4090 与 RTX A6000 包日/周均有半价福利!
4.等待分配资源,首次克隆需等待 7 分钟左右的时间。当状态变为「运行中」后,点击「打开工作空间」,并打开「终端」。
5.输入以下命令激活环境:
conda activate ./cosmos
6.输入以下命令切换 Cosmos 目录:
cd Cosmos
7.输入以下命令启动模型 gradio 界面:
PYTHONPATH=$(pwd) python cosmos1/models/diffusion/inference/gradio_text2world.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-1.0-Diffusion-7B-Text2World --offload_prompt_upsampler --offload_text_encoder_model --offload_guardrail_models --video_save_name Cosmos-1.0-Diffusion-7B-Text2World --checkpoint_dir /input0
待出现 8080 端口后打开右侧 API 地址访问 gradio 界面即可。
8.进入 gradio 界面后,在「Enter your prompt」输入提示词后点击「Submit」即可进行推理,等待几分钟后可以看到生成的视频。
我们建立了「Stable Diffusion 教程交流群」,欢迎小伙伴们入群探讨各类技术问题、分享应用效果~
添加神经星星微信(微信号:Hyperai01),备注「SD 教程交流群」,即可加入群聊。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。