OpenAI 的 gpt-realtime 通过端到端语音处理实现了可用于生产的语音代理

  • OpenAI 发布新成果:发布了最先进的语音到语音模型gpt-realtime,同时推出了Realtime API,旨在降低延迟、提升语音质量并为开发者提供更强工具。

    • 架构优势:Realtime API 和 gpt-realtime 设计用于在单个系统内处理端到端语音处理,减少响应时间并保留传递细节,对实时代理很关键。
    • 语音质量提升:gpt-realtime 训练后能产生更高质量语音,有更自然节奏和语调,还更新了现有语音以更真实,新增 Cedar 和 Marin 合成语音。
  • 性能改进

    • 理解基准提升:在理解基准上有明显改善,能跟踪非语言线索、跨语言处理字母数字序列等,内部测试中在[Big Bench Audio]上准确率达 82.8%,比之前模型高,指令遵循更敏锐,[MultiChallenge]音频基准分数从 20.6%升至 30.5%。
    • 功能调用改进:在识别相关功能、正确调用和提供参数方面表现更好,[ComplexFuncBench]准确率从 49.7%升至 66.5%,异步功能调用更新可让语音代理在等待结果时继续对话,对客户支持和交易应用有价值。
  • Realtime API 升级:符合生产要求,开发者可直接连接远程 MCP 服务器进行工具调用,支持图像输入以在视觉上下文中进行对话,SIP 支持可与现有电话系统集成, reusable prompts 简化会话管理,全 EU 数据驻留支持满足欧洲部署合规要求。
  • 企业测试与应用:早期企业伙伴在生产场景中测试,Zillow 试点语音驱动房屋搜索,T-Mobile 探索实时适应性重要的客服用例,都强调从脚本化自动化向更灵活、特定领域专业知识的转变。
  • 安全强化:Realtime API 包含可终止有害对话的分类器,开发者可通过[Agents SDK]添加特定领域防护,Realtime API 中的预设语音可降低模仿风险。
  • 可用与获取:gpt-realtime 模型和 Realtime API 对所有开发者立即可用,可访问[Realtime API 文档]、[prompting 指南]并在[Playground]测试新的 gpt-realtime 演示。
阅读 12
0 条评论