OpenAI 推出低延迟语音交互实时 API 公测版

OpenAI推出Realtime API公测版

OpenAI近日推出了Realtime API的公测版,该API为开发者提供了在应用程序中创建低延迟、多模态语音交互的能力。此外,Chat Completions API现在也支持音频输入/输出,进一步扩展了语音驱动应用的可能性。早期反馈显示,该API的语音选项有限,且存在响应截断问题,类似于ChatGPT的高级语音模式。

Realtime API的核心功能

Realtime API通过六个预设语音实现实时、自然的语音到语音交互,并将语音识别和语音合成整合到一个API调用中。这一设计简化了流畅对话应用的开发,减少了以往需要使用多个模型的需求。

Chat Completions API的扩展功能

OpenAI还扩展了Chat Completions API的功能,增加了对音频输入和输出的支持。这一功能适用于不需要Realtime API低延迟性能的场景,开发者可以发送文本或音频输入,并接收文本、音频或两者兼有的响应。

传统语音助手开发的挑战

过去,创建语音助手体验需要使用多个模型来处理不同任务,如自动语音识别、文本推理和文本到语音转换。这通常会导致延迟和信息丢失。Realtime API通过将整个流程简化为一个API调用,提供了更快、更自然的对话能力。

技术实现与功能支持

Realtime API基于持久的WebSocket连接,允许与GPT-4o进行持续的消息交换。它还支持函数调用,使语音助手能够执行诸如下单或检索相关用户数据等任务,从而提供更个性化的响应。

社区反馈与限制

社区观察到,尽管该API可以在Playground中访问,但目前可用的语音选项仅限于alloy、echo和shimmer。在测试中,用户发现响应存在与ChatGPT高级语音模式相同的限制。尽管尝试使用详细的系统消息,但响应仍然被截断,这可能意味着有一个单独的模型在管理对话流程。

定价与成本问题

Realtime API对所有付费开发者开放公测,Chat Completions API的音频功能将在未来几周内发布。Realtime API的定价包括文本和音频令牌,音频输入的价格约为每分钟0.06美元,音频输出为每分钟0.24美元。有开发者担心这种定价模式可能对长时间交互产生较大影响,由于模型需要重新处理先前的对话内容,成本可能会迅速累积。

开发者资源

开发者可以通过查看官方文档参考客户端来探索Realtime API。

阅读 81
0 条评论