使用传统的数字人训练方案生成一个高质量的数字人,常常需要大量的时间和算力资源,同时对训练素材的要求也较高,如果想要达到良好的唇形一致效果,通常需要数小时乃至更久。
MuseV 和 MuseTalk 的出现为数字人领域带来了新的突破,使用 MuseV 生成数字人视频后,再使用 MuseTalk 实现唇形和音频的同步,短短几分钟内即可实现完整的数字人制作。
「MuseV 不限时长的虚拟人视频生成 Demo」和「MuseTalk 高质量口型同步模型 Demo」均已上线至 HyperAI 超神经官网的教程版块, 已经为大家搭建好了环境,无需输入任何命令,一键克隆即可立即启动!
教程地址:
MuseV:
MuseTalk:
为了让大家更好的理解,B 站 Up 主「闹闹不闹nowsmon」录制了详细的教学视频,欢迎大家一键三连哦~
https://www.bilibili.com/video/BV1fCWVeWEic/?vd_source=5e5420...
Demo 运行
使用 MuseV 生成虚拟人视频
- 登录 hyper.ai,在「教程」页面,搜索「MuseV 不限时长的虚拟人视频生成 Demo」,点击「在线运行此教程」。
- 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
- 点击右下角「下一步:选择算力」。
- 页面跳转后,选择「NVIDIA RTX 4090」以及「PyTorch」镜像,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!
HyperAI超神经专属邀请链接(直接复制到浏览器打开):https://openbayes.com/console/signup?r=6bJ0ljLFsFh_Vvej
- 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。
如果打开 API 地址显示「BadGateway」,说明模型还没有加载完毕,稍等 1-2 分钟后,再打开 API 地址即可。
- 打开 Demo 后,上传一张图片并输入 Prompt,Prompt 的格式为质量词+人物主体+动作词,例如 (masterpiece, best quality, highres:1),(1boy, solo:1),(eye blinks:1.6),(hair wave:1.3),输入后点击「Generate」,等待片刻,即可生成视频。
使用 MuseTalk 实现唇形和音频同步
- 回到「教程」界面,打开「MuseTalk 高质量口型同步模型 Demo」,点击「在线运行此教程」。
- 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
- 点击右下角「下一步:选择算力」。
- 页面跳转后,依旧选择「NVIDIA RTX 4090」 和「PyTorch」镜像,点击「下一步:审核」。
- 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 2 分钟左右的时间,待状态显示为「运行中」后,点击「API 地址」边上的跳转箭头,打开 Demo。
- 进入 MuseTalk Demo 页面,将我们刚刚制作好的视频上传后,再上传一段音频,点击「Generate」,等待一会儿,就可以看到新生成的视频中人物的唇形和音频是一致的了。
我们建立了「Stable Diffusion 教程交流群」,欢迎小伙伴们入群探讨各类技术问题、分享应用效果~
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。