OpenAI 推出低延迟语音交互实时 API 公测版

OpenAI推出Realtime API公测版

OpenAI近日推出了Realtime API的公测版，该API为开发者提供了在应用程序中创建低延迟、多模态语音交互的能力。此外，Chat Completions API现在也支持音频输入/输出，进一步扩展了语音驱动应用的可能性。早期反馈显示，该API的语音选项有限，且存在响应截断问题，类似于ChatGPT的高级语音模式。

Realtime API的核心功能

Realtime API通过六个预设语音实现实时、自然的语音到语音交互，并将语音识别和语音合成整合到一个API调用中。这一设计简化了流畅对话应用的开发，减少了以往需要使用多个模型的需求。

Chat Completions API的扩展功能

OpenAI还扩展了Chat Completions API的功能，增加了对音频输入和输出的支持。这一功能适用于不需要Realtime API低延迟性能的场景，开发者可以发送文本或音频输入，并接收文本、音频或两者兼有的响应。

传统语音助手开发的挑战

过去，创建语音助手体验需要使用多个模型来处理不同任务，如自动语音识别、文本推理和文本到语音转换。这通常会导致延迟和信息丢失。Realtime API通过将整个流程简化为一个API调用，提供了更快、更自然的对话能力。

技术实现与功能支持

Realtime API基于持久的WebSocket连接，允许与GPT-4o进行持续的消息交换。它还支持函数调用，使语音助手能够执行诸如下单或检索相关用户数据等任务，从而提供更个性化的响应。

社区反馈与限制

社区观察到，尽管该API可以在Playground中访问，但目前可用的语音选项仅限于alloy、echo和shimmer。在测试中，用户发现响应存在与ChatGPT高级语音模式相同的限制。尽管尝试使用详细的系统消息，但响应仍然被截断，这可能意味着有一个单独的模型在管理对话流程。

定价与成本问题

Realtime API对所有付费开发者开放公测，Chat Completions API的音频功能将在未来几周内发布。Realtime API的定价包括文本和音频令牌，音频输入的价格约为每分钟0.06美元，音频输出为每分钟0.24美元。有开发者担心这种定价模式可能对长时间交互产生较大影响，由于模型需要重新处理先前的对话内容，成本可能会迅速累积。

开发者资源

开发者可以通过查看官方文档和参考客户端来探索Realtime API。