2024年OpenAI开发者大会(旧金山)宣布实时API、视觉微调等新功能

OpenAI SF DevDay 2024 主要内容总结

2024年10月1日,OpenAI在旧金山举办的开发者大会(SF DevDay 2024)上发布了多项新功能,并举办了研讨会、分组会议和演示活动。以下是主要内容:

实时API(Real-Time API)

OpenAI推出了支持持久WebSocket连接的实时API,能够实现实时语音交互。该API适用于虚拟助手、实时翻译等需要即时响应的应用场景。开发者可以通过该API发送和接收JSON格式的事件,表示文本、音频、函数调用和中断等多种交互元素。API还支持同时处理多模态输出。

  • 定价:每分钟约0.30美元。
  • 功能调用:AI不仅可以聊天,还可以执行操作。
  • 应用场景:虚拟助手、实时翻译等。

函数调用(Function Calling)

通过一个旅行代理应用的演示,展示了AI如何访问外部工具和数据库,从而执行超出其预训练知识的任务。OpenAI还提到未来可能通过“安全API”为用户提供更多的安全设置控制。

O1模型

O1模型在编码演示中展示了其能力,开发者可以通过描述需求让O1生成并理解代码架构。例如,有开发者通过描述构建了一个iPhone应用。OpenAI指出,虽然Sweebench等指标关注代码准确性,但可能无法完全反映模型在UI开发等场景中的实际效果。

视觉模型微调(Vision Fine-Tuning)

OpenAI宣布扩展视觉模型的微调功能,允许开发者针对特定任务定制AI。微调框架支持调整超参数(如epochs和学习率乘数),并与Weights and Biases集成,提供用于跟踪和分析微调作业的工具集。OpenAI强调会持续运行自动化安全评估,确保应用符合使用政策。

模型蒸馏API(Model Distillation API)

OpenAI推出了模型蒸馏API和新的评估工具,旨在降低API成本。蒸馏允许开发者创建较小的模型,同时尽量保持性能,这对于计算资源有限的环境尤为重要。

提示缓存(Prompt Caching)

提示缓存功能通过重用之前处理的提示来减少延迟。开发者可以通过在提示开头放置静态内容、结尾放置动态内容来优化缓存命中率。OpenAI的提示缓存虽然折扣不如Gemini和Anthropic,但无需代码更改即可使用。

其他活动

OpenAI还宣布了即将在伦敦(10月30日)和新加坡(11月21日)举办的后续活动。开发者可以参考随活动发布的文档了解更多信息。

总结

OpenAI SF DevDay 2024展示了多项创新技术,包括实时API、函数调用、O1模型、视觉模型微调、模型蒸馏和提示缓存,旨在提升开发者体验并推动AI技术的广泛应用。

阅读 40
0 条评论