春节档电影「哪吒 2」的票房一路高歌猛进,现已突破 120 亿,成为中国首部票房达到百亿大关的影片,已成功跻身全球影史票房榜前 10 。影片中,配音演员们用灵动的声音赋予了角色鲜活的生命力,从哪吒的「烟嗓」到太乙真人的四川方言,再到石矶娘娘的灵动,引发了大众的广泛讨论,让幕后配音艺术走到台前。
提及配音艺术的魅力,「王者荣耀」芈月的白晶晶皮肤堪称绝佳例证。官方特邀「大话西游」电影中的白晶晶原配音演员王蕙君再度献声。「你我都要相信,放下也是一种天意」,熟悉的台词响起,多少人青春的意难平被瞬间唤醒,玩家们纷纷为这份情怀「慷慨解囊」。
而如今,声音克隆技术飞速发展,依托先进的声音克隆大模型,普通人也能跨越时空,一键复刻心仪角色的独特音色,轻松过把「配音瘾」!目前,GPT-SoVITS 、 Fish Speech v1.4 和 F5-E2 TTS 这 3 款主流开源模型脱颖而出,凭借各自独特优势,在不同应用场景发挥关键作用,无论是影视创作、有声内容生产,还是日常趣味配音,都能找到它们的身影。
HyperAI 超神经官网的「教程」板块已经上线了:
* GPT-SoVITS 音频合成在线 Demo:
https://hyper.ai/cn/tutorials/29812
* Fish Speech v1.4 声音克隆-文本转语音工具 Demo:
https://hyper.ai/cn/tutorials/34680
* F5-E2 TTS 只需 3 秒克隆任何音色:
https://hyper.ai/cn/tutorials/35468
今天,小编就给大家详细介绍这 3 款声音克隆开源模型,并使用同一段原始音频及 prompt,帮大家测评一下实际使用效果!
GPT-SoVITS 音频合成
* 发布时间:2022 年
* 发布机构:B 站 up 主花儿不哭
* 一键部署:
https://hyper.ai/cn/tutorials/29812
该模型采用 SoVITS+Transformer 语音编码技术,一经推出便在 AI 语音合成圈引起轰动。其高保真的语音合成效果堪称一绝,哪怕只有 5 秒的声音样本,就能实现零样本文本到语音 (TTS) 转换。
以哪吒电影中石矶娘娘的音色为例,使用 GPT – SoVITS,仅需采集一段石矶娘娘在影片中的经典台词音频作为样本,就能将其可爱活泼且充满力量的音色精准复刻。
Fish Speech v1.4 声音克隆
* 发布时间:2024 年
* 发布机构:Fish Audio 团队
* 一键部署:
https://hyper.ai/cn/tutorials/34680
该模型经过了大约 15 万小时的数据训练,能够熟练掌握中文、日语和英语,其语言处理能力接近人类水平,并且声音表现形式丰富多变。用户可自由调整音色、音高、语速,轻松打造专属声音,满足大家在不同创作场景对角色声音的个性化需求。
F5-E2 TTS 只需 3 秒克隆任何音色
* 发布时间:2024 年
* 发布机构:上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司
* 一键部署:
https://hyper.ai/cn/tutorials/35468
F5 TTS 基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术,能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。而 E2 TTS 的核心在于它完全非自回归的特性,它可以一次性生成整个语音序列,而不需要逐步生成,从而显著提高了生成速度并保持了高质量的语音输出,3 秒实现多音色混合克隆。
该模型支持 3 个功能:
* 单人语音生成 (Batched TTS) : 根据上传的音频进行文本生成。
* 双人语音生成 (Podcast Generation) :根据双人音频模拟双人对话。
* 多种语音类型生成 (Multiple Speech-Type Generation) :可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。
以上就是我们为大家准备的声音克隆模型评测,感兴趣的小伙伴速来亲自体验吧!
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。