头图

春节档电影「哪吒 2」的票房一路高歌猛进,现已突破 120 亿,成为中国首部票房达到百亿大关的影片,已成功跻身全球影史票房榜前 10 。影片中,配音演员们用灵动的声音赋予了角色鲜活的生命力,从哪吒的「烟嗓」到太乙真人的四川方言,再到石矶娘娘的灵动,引发了大众的广泛讨论,让幕后配音艺术走到台前。

提及配音艺术的魅力,「王者荣耀」芈月的白晶晶皮肤堪称绝佳例证。官方特邀「大话西游」电影中的白晶晶原配音演员王蕙君再度献声。「你我都要相信,放下也是一种天意」,熟悉的台词响起,多少人青春的意难平被瞬间唤醒,玩家们纷纷为这份情怀「慷慨解囊」。

而如今,声音克隆技术飞速发展,依托先进的声音克隆大模型,普通人也能跨越时空,一键复刻心仪角色的独特音色,轻松过把「配音瘾」!目前,GPT-SoVITS 、 Fish Speech v1.4 和 F5-E2 TTS 这 3 款主流开源模型脱颖而出,凭借各自独特优势,在不同应用场景发挥关键作用,无论是影视创作、有声内容生产,还是日常趣味配音,都能找到它们的身影。

HyperAI 超神经官网的「教程」板块已经上线了:

* GPT-SoVITS 音频合成在线 Demo:

https://hyper.ai/cn/tutorials/29812

* Fish Speech v1.4 声音克隆-文本转语音工具 Demo:

https://hyper.ai/cn/tutorials/34680

* F5-E2 TTS 只需 3 秒克隆任何音色:

https://hyper.ai/cn/tutorials/35468

今天,小编就给大家详细介绍这 3 款声音克隆开源模型,并使用同一段原始音频及 prompt,帮大家测评一下实际使用效果!

GPT-SoVITS 音频合成

* 发布时间:2022 年

* 发布机构:B 站 up 主花儿不哭

* 一键部署:

https://hyper.ai/cn/tutorials/29812

该模型采用 SoVITS+Transformer 语音编码技术,一经推出便在 AI 语音合成圈引起轰动。其高保真的语音合成效果堪称一绝,哪怕只有 5 秒的声音样本,就能实现零样本文本到语音 (TTS) 转换。

以哪吒电影中石矶娘娘的音色为例,使用 GPT – SoVITS,仅需采集一段石矶娘娘在影片中的经典台词音频作为样本,就能将其可爱活泼且充满力量的音色精准复刻。

Fish Speech v1.4 声音克隆

* 发布时间:2024 年

* 发布机构:Fish Audio 团队

* 一键部署:

https://hyper.ai/cn/tutorials/34680

该模型经过了大约 15 万小时的数据训练,能够熟练掌握中文、日语和英语,其语言处理能力接近人类水平,并且声音表现形式丰富多变。用户可自由调整音色、音高、语速,轻松打造专属声音,满足大家在不同创作场景对角色声音的个性化需求。

F5-E2 TTS 只需 3 秒克隆任何音色

* 发布时间:2024 年

* 发布机构:上海交通大学、剑桥大学和吉利汽车研究院(宁波)有限公司

* 一键部署:

https://hyper.ai/cn/tutorials/35468

F5 TTS 基于流匹配的非自回归生成方法,结合了扩散变换器 (DiT) 技术,能够在没有额外监督的情况下,通过零样本学习快速生成自然、流畅且忠实于原文的语音。而 E2 TTS 的核心在于它完全非自回归的特性,它可以一次性生成整个语音序列,而不需要逐步生成,从而显著提高了生成速度并保持了高质量的语音输出,3 秒实现多音色混合克隆。

该模型支持 3 个功能:

* 单人语音生成 (Batched TTS) :  根据上传的音频进行文本生成。

* 双人语音生成 (Podcast Generation) :根据双人音频模拟双人对话。

* 多种语音类型生成 (Multiple Speech-Type Generation) :可根据同一讲话人不同情绪下的音频,生成不同情绪的音频。

以上就是我们为大家准备的声音克隆模型评测,感兴趣的小伙伴速来亲自体验吧!


超神经HyperAI
1.3k 声望8.8k 粉丝