“声”临其境，一键克隆：第二代GPT-SoVITS 让你的声音自由飞翔

AI正在悄然编织一个日益魔幻的世界！马斯克跨界献舞，在线空间掀起科幻风潮！AI 恶搞《黑神话：悟空》博主，一天轻松揽获百万播放，十几万点赞！

.......
在AI快速发展的今天，你是不是也已经洞察到各种商机，却因为不懂技术而裹足不前？比如《黑神话：悟空》恶搞视频，我们都知道是通过AI克隆声音来实现的，既让人听起来和原声几乎一模一样，还好玩。大家都爱看，看完还愿意点赞、分享。

广泛应用的AI声音克隆，在过去往往意味着需要大量的语音样本和繁琐的操作流程才能实现。但现在，第二代GPT-SoVITS的到来，将彻底改变这一局面。它不仅简化了操作流程，还能以极少量的声音样本快速克隆出逼真的声音。即使是没有技术背景的小白用户，也能在短短一分钟内掌握其使用技巧，轻松实现个性化的声音克隆。

第二代GPT-SoVITS简介

第二代GPT-SoVITS，是由RVC变声器创始人“花儿不哭”与AI音色转换技术Sovits开发者Rcell，联合开发的先进声音克隆与语音合成工具。这款工具在第一代的基础上进行了多项创新和改进，支持中英日韩粤等多种语言的声音合成，仅需一分钟的音频样本即可训练出高质量的语音模型。

核心优势

高质量声音克隆：第二代GPT-SoVITS在处理低质量音频时，能够生成更自然、更流畅的声音。
多语言支持：支持中英日韩粤等多种语言的跨语种多情感合成。
零样本TTS和Few-shot TTS：底模训练集扩充至5000小时，显著提升了零样本性能，音色更逼真，所需数据集更少。
集成工具：集成了UVR5等工具，包括人声伴奏分离、语音切分、降噪、中文ASR和文本标注等功能，简化了训练数据集和模型的创建过程。
优化的文本前端：第二代中英文加入多音字优化，提升了文本处理的准确性。

应用场景

个性化语音助手：为智能助手或聊天机器人创建个性化的声音，提升用户体验。
虚拟角色配音：在游戏、动画或虚拟现实中为虚拟角色提供逼真的语音。
有声读物制作：将文本内容转换为语音，制作高质量的有声书籍。
无障碍服务：为视障人士或阅读障碍者提供文本到语音的服务，帮助他们更好地获取信息。
语音娱乐：制作恶搞音频、模仿明星声音等，提供丰富的娱乐体验。
语音隐私保护：改变语音的音色，保护用户的隐私。
语音辅助：为听力受损者提供语音辅助，帮助他们更好地识别和理解语音。

Windows本地部署一键整合

包为了降低使用门槛，F5 AI社区特别推出了第二代GPT-SoVITS本地一键部署的整合包，让您无需复杂的环境配置即可快速上手。

一键运行，免安装：下载解压后即可使用，无需复杂的环境配置。
无限制使用：不限次数、不限时间、不限设备，无需网络即可使用。
极速合成体验：快速生成高质量音频。
服务保障：详细的图文和视频教程，7*12小时一对一在线服务，确保用户快速掌握使用技巧。

保姆级教程

我们提供了详细的视频教程和图文教程资料，确保即使是技术小白，也能在几分钟内熟练上手。

第一步：程序下载及启动
1、下载第二代GPT-SoVITS整合包（下载地址往下看），下载解压之后，可以看到四个文件，如下图：

2、启动程序：双击【GPT-SoVITS.exe】文件，稍等片刻，我们可以看到程序开始运行（出现程序控制界面），如下图：

请注意：使用工具期间，请勿关闭此窗口（可以最小化）。

当控制界面中【启动进度】达到100%，浏览器会已经自动开启操作界面，如下图：

特别注意：如果没有打开如上界面，可能是因为浏览器兼容问题，这个时候，需要动动你的小手指，将http://localhost:9874/这个地址，复制到你的谷歌浏览器地址栏，按回车键即可。

第三步：素材准备及预处理
1、素材准备
F5 AI社区提供了学习素材，如下图：

2、前置数据获取工具
选择【0-前置数据集获取工具】，点击【开启UVR5-WebUI】按钮，会跳出以下界面（如果没看到这个界面，可能是浏览器兼容问题），并根据以下步骤进行操作：

选择模型：选择【onnx_dereverb_By_FoxJoy】模型；
输入文件路径：输入文件夹路径（系统自带文件夹路径，按提示输入即可）；
选择文件格式：选择【wav】无损音质文件格式；
点击【转换】：点击转换，开始处理；⑤　处理完成：处理完成后，在【输出信息】模块返回“Success”信息，即代表处理成功。

3、 0b-语音切分工具
回到【0-前置数据获取工具】界面，来到【0b-语音切分工具】模块，并进行以下操作：
点击【关闭UVR5-WebUI】；
输入文件路径：文件路径为上一流程返回的【uvr5_opt】文件夹地址（D:\GPT-SoVITS\output\uvr5_opt）；
点击【开启语音切割】；
处理完成：稍等片刻，处理完成后，【语音切割进程输出信息】模块返回“切割结束”信息，即代表处理成功。

4、0bb-语音降噪工具
来到语音降噪工具，文件路径及其他参数设置默认即可：
点击【开启语音降噪】按钮：此时【开启语音降噪】的按钮呈半透明状态，说明正在降噪中。
处理完成：稍等片刻，处理完成后，【语音降噪进程输出信息】模块返回“语音降噪任务完成”信息，即代表处理成功。

5、0c-中文批量离线ASR工具

点击【开启离线批量ASR】按钮。
处理完成：稍等片刻，处理完成后，【ASR进程输出信息】模块返回“ASR任务完成 ”信息，即代表处理成功。

特别提示：GPT-SoVITS提供了“达摩ASR（中文）”和“Faster Whisper（多语种）”两种模型选择。如果是克隆中文语音，建议用阿里的达摩ASR，ASR模型尺寸根据显卡来，好卡选择large，识别更精准速度更快。如果是英文或者日韩，ASR模型这里用Faster Whisper，ASR模型尺寸同样根据显卡来，好卡选择large-V3，识别更精准速度更快。

第四步：模型训练及推理
首先回到主界面顶部，我们可以看到【1-GPT-SoVITS-TTS】模块，同时，在该模块下有【1A－训练集格式化工具】、【1B－微调训练】、【1C-推理】三个子模块。下面，我为大家详细讲解：

1、 1A训练集格式化

选择【1-GPT-SoVITS-TTS】模块；
输入【模型名】，如“demo1”；
选择【V2】版本；
选择【1A－训练集格式化工具】，其他参数默认；
点击【开启一键三连】；⑥　等待片刻，【一键三连进程输出信息】模块会显示“一键三连进程结束”，即代表任务完成。

2、1B微调格式化

回到主界面顶部，在【1-GPT-SoVITS-TTS】模块下，选择【IB-微调训练】模块；
点击【开启SoVITS训练】，其他参数及选项默认；
等待片刻，【SoVITS训练进程输出信息】显示“SoVITS训练完成“；④　点击【开启GPT训练】按钮，其他参数及选项默认；
等待片刻，【GPT训练进程输出信息】显示“GPT训练完成”。

3、1C-推理/语音合成

回到主界面顶部，在【1-GPT-SoVITS-TTS】模块下，选择【IC-推理】模块；
勾选【启用并行推理版本（推理速度更快）】，点击【开启TTS推理WebUI】；

稍等片刻，浏览器会自动打开一个新的操作界面，如下图：

特别提示：如果系统自动打开的网页，没有显示该界面，可能是浏览器兼容问题。

4、接下来正式开始推理，也就是语音合成的流程：
点击【刷新模型路径】，从GPT模型列表中选择名称“-e15.ckpt”结尾的模型；
从SoVITS模型列表中选择名称“_e8_s120.pth”结尾的模型；
上传参考音频：将【slicer_opt】文件夹中选择一条你认为效果不错的音频上传或拖拽到【请上传并填写参考信息】模块下，文件位置如下图：

选择参考音频语种，根据音频选择对应语种即可；
勾选无参考文本模式；
输入需要合成的文本：在【需要合成的文本】模块下输入文本；Ø 选择合成文本对应的语种；Ø 选择切分方式为“按中文句号。切”；
点击【合成语音】按钮；
以上操作完成后，在【输出的语音】模块中点击右上角【⬇】按钮，直接保存。也可以在【output】文件夹中以日期命名的文件夹中，找到合成好的音频文件。

这样，我们就成功克隆了想要的声音模型，并合成自己需要的音频了。怕麻烦的同学，可以按照以下完整的图文教程进行操作。

是不是很简单？心动了吧？那就马上行动吧~

我们为您准备了本地离线整合包，解压即用。

下载地址：

关于我们

F5 AI社区是一个紧跟全球AI技术和AI产品，秉承“有教程就会有工具”的运营理念，及时为用户整合、提供各类AI工具教程的社区，不管你是0基础学员还是有基础，我们从提供本地离线AI工具整合包开始，让您无限量不限时使用，更有全套在线教程助您无忧学完快速上手，同时我们的AI专家24小时在线，为您解答各种技术疑难问题，助您真正0门槛，0成本，即使是从未接触过的技术小白也能快速无脑掌握前沿的AI技能。

提示及说明

我们分享的仅为AI产品的安装和使用教程，不对其产品的稳定性及可用性负责。
在使用相关技术时，请了解并遵守法律及道德准则。

常见问题解答问

问：支持在线指导吗？
答：支持，下载安装包后，可联系客服安排远程协助。

问：第二代GPT-SoVITS使用对电脑配置有要求吗？
答：建议使用5G以上显存的电脑，以获得更好的稳定性和运行速度。

问：可以在社交媒体平台上发布我的作品吗？
答：可以，但请确保遵守相关法律法规，尊重隐私权。

“声”临其境，一键克隆：第二代GPT-SoVITS 让你的声音自由飞翔

第二代GPT-SoVITS简介

核心优势

应用场景

Windows本地部署一键整合

保姆级教程

下载地址：

百度网盘（永久有效）：

123网盘（永久有效）：

夸克网盘（永久有效）：

关于我们

提示及说明

常见问题解答问

AI便利店

引用和评论

【AI绘画新纪元】FLUX.1 GGUF：ComfyUI工作流，让创意触手可及！

一文掌握 MCP 上下文协议：从理论到实践

git 常用命令

AI Agent爆火后，MCP协议为什么如此重要！

AdventureX 2025 正式启动：五天四夜，120小时极限创造！一起在杭州点燃青年创新之火！

MCP 协议为何不如你想象的安全？从技术专家视角解读

嘎嘎好用！推荐三款开源的 Redis 桌面客户端！