2024年OpenAI开发者大会（旧金山）宣布实时API、视觉微调等新功能

2024年10月1日，OpenAI在旧金山举办的开发者大会（SF DevDay 2024）上发布了多项新功能，并举办了研讨会、分组会议和演示活动。以下是主要内容：

OpenAI推出了支持持久WebSocket连接的实时API，能够实现实时语音交互。该API适用于虚拟助手、实时翻译等需要即时响应的应用场景。开发者可以通过该API发送和接收JSON格式的事件，表示文本、音频、函数调用和中断等多种交互元素。API还支持同时处理多模态输出。

通过一个旅行代理应用的演示，展示了AI如何访问外部工具和数据库，从而执行超出其预训练知识的任务。OpenAI还提到未来可能通过“安全API”为用户提供更多的安全设置控制。

O1模型在编码演示中展示了其能力，开发者可以通过描述需求让O1生成并理解代码架构。例如，有开发者通过描述构建了一个iPhone应用。OpenAI指出，虽然Sweebench等指标关注代码准确性，但可能无法完全反映模型在UI开发等场景中的实际效果。

OpenAI宣布扩展视觉模型的微调功能，允许开发者针对特定任务定制AI。微调框架支持调整超参数（如epochs和学习率乘数），并与Weights and Biases集成，提供用于跟踪和分析微调作业的工具集。OpenAI强调会持续运行自动化安全评估，确保应用符合使用政策。

OpenAI推出了模型蒸馏API和新的评估工具，旨在降低API成本。蒸馏允许开发者创建较小的模型，同时尽量保持性能，这对于计算资源有限的环境尤为重要。

提示缓存功能通过重用之前处理的提示来减少延迟。开发者可以通过在提示开头放置静态内容、结尾放置动态内容来优化缓存命中率。OpenAI的提示缓存虽然折扣不如Gemini和Anthropic，但无需代码更改即可使用。

OpenAI还宣布了即将在伦敦（10月30日）和新加坡（11月21日）举办的后续活动。开发者可以参考随活动发布的文档了解更多信息。

OpenAI SF DevDay 2024展示了多项创新技术，包括实时API、函数调用、O1模型、视觉模型微调、模型蒸馏和提示缓存，旨在提升开发者体验并推动AI技术的广泛应用。