OpenAI 推出用于转录和语音生成的新语音模型

发布于 2025-03-31

主要观点：OpenAI 在其 API 中引入新的语音转文本和文本转语音模型，旨在提高转录准确性并增强对 AI 生成语音的控制，以提升自动化语音应用。
关键信息：

新的 gpt-4o-transcribe 和 gpt-4o-mini-transcribe 模型降低词错误率（WER），能更好处理口音、背景噪音和语速变化，在如客户支持、会议转录和多语言对话等场景更可靠。
gpt-4o-mini-tts 模型引入可引导性，可让开发者定制 AI 语音风格。
训练改进包括强化学习和更多样数据集，减少转录错误和提升语言识别。
新模型通过语音转文本 API 可用，开发者可借助 Agents SDK 集成到应用中。
OpenAI 计划进一步提升音频模型智能和准确性，探索创建定制语音，同时确保符合安全伦理标准。
重要细节：
提到了不同模型的性能对比及应用场景，如优于 Whisper v2 和 v3 等。
有开发者对模型的反应，如 Harald Wagener 称赞可用语音选项和效果，Luke McPhail 比较其与其他行业产品，开发者也认可其集成和易用性等。还给出了相关链接，如模型介绍链接、博客图片链接等。

阅读 53