OpenAI 开发者日:让我们构建开发者工具,而不是数字上帝

2024 年 10 月 2 日
回顾 10 月 1 日的 OpenAI DevDay 现场博客经历:

  • 与去年相比:2023 年 11 月的首届 DevDay 以主题演讲为主,发布了多项重要产品,更像面向产品的发布会;今年媒体未受邀,无直播,Sam Altman 未做开场演讲,新功能虽 impressive 但数量减少,部分功能提前发布,如 GPT-4o mini 和 o1 模型家族,未提及 Whisper Turbo ,此活动明显是为开发者举办,对不基于 OpenAI 平台开发软件的人吸引力不大,但对开发者来说有很多有价值和有趣的东西。
  • 提示缓存,即大幅降价:期待看到价格下降,OpenAI 以输入令牌 50%的折扣形式实现,即对有共享前缀的提示,API 会自动缓存最长前缀并应用折扣,这不是新想法,Google Gemini 和 Claude 也有类似形式,区别在于 OpenAI 自动应用,Anthropic 的 Claude 实现节省更多但操作更复杂,Gemini 需按小时付费保持缓存温暖,OpenAI 不是第一家提供自动缓存折扣的公司,DeepSeek 已通过其 API 提供数月。
  • 通过新的 WebSocket 实时 API 实现 GPT-4o 音频:会议最大公告,新的实时 API 是 ChatGPT 高级语音模式的 API 版本,用户可直接接入 GPT-4o 的多模态音频支持,能直接发送音频到模型并返回语音,通过 WebSockets 暴露,设计为尽可能实时,支持双向音频和文本流,甚至允许用户语音打断模型,目前支持文本、音频和函数调用/工具使用,但不支持图像输入,希望 OpenAI 能提供更简单的方式解决运行在生产环境中的问题,事件中展示的代码未在线找到,可查看 openai-realtime-api-beta 和 openai-realtime-console 仓库,新的 playground/realtime 调试工具也很有趣。
  • 模型蒸馏使微调更简单:主要面向开发者的公告,是对现有微调功能的可用性增强和小范围重新品牌,OpenAI 多年前就提供微调,最近针对 GPT-4o 和 GPT-4o mini 模型,提供慷慨的免费试用,现免费期限延长至 2024 年 10 月 31 日,微调很难有效进行,OpenAI 的解决方案是模型蒸馏,即教小模型基于大模型生成的示例完成任务,是很有效的技术,Meta 也使用类似方法,OpenAI 发布两个新功能帮助开发者实现,一是存储完成,可将提示和响应存储在后端并添加标签,类似于作者用 LLM 命令行工具记录到 SQLite 数据库,二是评估,可在 OpenAI 平台内定义和运行全面的提示评估,评估和存储完成的结合应使微调自定义模型更易进行,另一个微调公告是针对图像的微调,从战略角度看很有意义,可使模型更具粘性。
  • 让我们构建开发者工具,而不是数字上帝:在当天的最后一场会议中现场直播 Sam Altman 和 Kevin Weil 的炉边聊天,很多问题关于 AGI,作者对 AGI 不感兴趣,希望有用的 AI 驱动工具,Sam 多次提及 OpenAI 的五级框架但未找到明确解释的 URL,Sam 和 Kevin 似乎都倾向于远离 AGI 这个术语,作者认为希望 OpenAI 提供更多可构建独特软件的平台工具,OpenAI 今早完成 65 亿美元融资,估值达 1570 亿美元,感觉更像数字上帝的估值。
阅读 11
0 条评论