头图

GLM-4-9B 开源系列模型

前言

图片

就在最近,ByteDance的研究人员最近推出了一系列名为Seed-TTS的大规模自回归文本转语音(TTS)模型,能够合成几乎与人类语音无法区分的高质量语音。那么Seed-TTS的表现究竟有多强呢?让我们一起来感受下Seed-TTS带来的惊喜吧!

介绍Seed-TTS

图片

Seed-TTS 是语音合成技术的一次巨大飞跃。它在客观和主观评估中,说话和人的相似度与自然方面表现都达到了与真实人类说话无太大差别的水平。通过微调,Seed-TTS 的主观评分甚至更胜一筹。最令人惊叹的是Seed-TTS 在零样本上下文学习(ICL)设置中的表现。

在ICL中,模型仅给定一小段参考语音作为音频提示,就能合成与提示语音说话人极为相似、富有表现力且难以区分于真人的语音。与基于 FastSpeech 的说话人微调 TTS 模型相比,人工评估者认为Seed-TTS 生成的语音在自然方面和表达性具有明显的优势。

Seed-TTS可控与灵活性

图片

除了语音质量,Seed-TTS 还提供了对各种语音属性如情感的优越可控性。通过指令微调(IFT),Seed-TTS 能够灵活控制生成语音的各个方面,如表达性、语速、风格、情感等。我们对四种基本情感(愤怒、高兴、悲伤和惊讶)进行了评估,结果表明 Seed-TTS 在情感控制方面取得了令人满意的准确率。

此外,Seed-TTS 还提出了用于语音分解的自蒸馏方法,通过生成共享大部分信息但在目标属性上有差异的语音对数据,实现了高质量的语音属性解耦。在零样本语音转换任务上,这一方法的表现优于现有的最先进方法。

图片

通过强化学习方法,研究人员进一步提升了Seed-TTS 在情感表达和控制方面的性能。与原始零样本ICL模型相比,强化学习显著提高了Seed-TTS 在各种情感上的控制准确率。

总结

ByteDance提出的Seed-TTS模型展现了语音合成技术的巨大进步。它不仅在语音质量上达到了令人惊叹的高度,在可控性和灵活性上也实现了重大突破。相信在不久的将来,我们就能在更多应用中见证Seed-TTS带来的神奇体验。

厚德云官方最近推出GPU狂欢月活动!高配4090折扣劲爆价!如果你对算力感兴趣或有需求,可以来厚德云官方看看!

厚德云是专业的AI算力云平台,为用户提供稳定、可靠、易用、省钱的GPU算力解决方案。海量GPU算力资源租用,就在厚德云。


厚德云
6 声望6 粉丝

厚德云是一个专业的 GPU 算力云平台,专注于为人工智能从业者提供高效、便捷、灵活的 GPU 算力资源租用服务。我们旨在帮助客户加速人工智能的研发和应用进程,实现业务的快速发展。