在刚刚落幕的 OpenAI 12 天发布会中,OpenAI 为我们揭开了诸多新功能的神秘面纱,从模型的惊艳升级到功能的创新拓展,每一天的发布会都引发了全球科技爱好者与从业者的热议,让大家对人工智能的未来充满无限遐想。发布会前七天精华欢迎点击链接查看,今天我们将带大家回顾,后半程 OpenAI 又展露了哪些前沿硕果。
Day 8 ChatGPT Search:新一代 AI 搜索
在 OpenAI 连续发布会的第八天,ChatGPT 搜索功能迎来全面升级,并面向免费用户开放,一举补齐即时消息短板。其实早在 11 月,它就以 OpenAI 的 SearchGPT 原型面向付费用户推出。这次更新为 ChatGPT 搜索带来了更快的搜索速度、全新的地图体验和 YouTube 视频嵌入等突破性功能。这背后是 GPT-4o 模型的精细调优版本的强力驱动,如今,无论是 ChatGPT 网页版、手机还是桌面应用,用户在与 ChatGPT 聊天时,均可通过网络资源快速获取信息,随时随地开启智能搜索之旅。
借助升级后的 ChatGPT 搜索功能,用户可直接在 ChatGPT 里获取股票、新闻、赛事、活动等实时资讯,还可得到图片、视频等多样形式。为强化该功能,OpenAI 牵手多家头部新闻及数据供应商合作,针对天气、股票、体育、新闻、地图等类别采用全新视觉设计,优化使用体验。用户不仅能依据 AI 搜索结果里的链接,让 ChatGPT 快速生成详细摘要,还能顺着搜索结果延续对话,深入挖掘信息。ChatGPT 会按需智能调用网络搜索结果,当然,用户若有需求,也能主动开启网络搜索。
用搜索功能查看天气、体育、新闻和地图
此外,ChatGPT 搜索支持最新发布的高级语音模式,用户只需按下撰写栏中的音频波形按钮,即可通过语音便捷查询最新信息,系统还贴心配备 10 种预设语音风格。为了满足对特定类型信息的优先获取需求,搜索功能支持用户自主设置默认搜索引擎,搜索结果便能优先呈现指向特定网站(如 Netflix 或 Booking.com 等)的链接,助力用户快速获取目标信息。
手机端的优化也成效显著。在发布会直播的演示中,OpenAI 演示了在手机端使用 ChatGPT 搜索功能寻找旧金山 Mission 地区的墨西哥风味餐厅、获取餐厅信息、根据需求进一步筛选结果,并通过集成的地图功能规划行程。毫无疑问,ChatGPT 搜索正逐步发展为谷歌等传统搜索引擎的有力竞争者。
用 ChatGPT 搜索餐厅演示
Day 9 o1 API:赋能开发者与应用拓展
在第 9 天的发布会主题为 “Dev Day Holiday Edition”,顾名思义,这是一场开发者的“狂欢”。今天的发布内容可以用三个“更”来总结:更好的模型 API,更低的调用,和更新的技术。
正式开放 o1 模型 API
OpenAI o1 模型面向第五层(usage tier 5)开发者开放API。o1 作为 OpenAI 的最强推理模型,具有诸多强大的核心功能,可支持实际用例包括:
- 函数调用(Function Calling):无缝连接 o1 与外部数据和 API
- 结构化输出功能(Structured Outputs):生成可靠地遵循自定义 JSON 模式的响应。
- 开发者指令(Developer Messages):为模型指定要遵循的指令或上下文,例如定义语气、风格和其他行为指导。
- 视觉能力(Vision Capabilities):对图形进行推理,开启更多科学、制造或编码等领域应用,特别是在视觉输入至关重要的场景中。
- 更低延迟(Lower Latency):相较于 o1 -preview 版,对于相同请求,o1 的推理 token 使用量平均减少 60% 。
本次发布 o1 模型调用名为 “o1-2024-12-17”,它是基于两周前 ChatGPT 版本展开的全新后训练优化成果,相较于早期的 o1-preview 版本,其在函数调用和结构化输出测试中的表现均实现了长足进步。在价格设定上,o1 模型 API 与预览版本相同,输入 token 的价格是 15 美元每百万 tokens,输出 token 则为 60 美元每百万 tokens。
实时 API 全面升级
为助力开发者打造更自然流畅、低延迟的对话体验,实时 API(Realtime API) 也迎来了重大更新,此次更新在并行后台响应、自定义输入上下文、响应时机控制、最大会话时长等多个维度发力,全方位强化功能特性,更加适用于开发语音助手、实时翻译工具、虚拟导师和虚拟助手等应用场景。
● 集成 WebRTC
本次更新中,实时 API 集成了 WebRTC。WebRTC 作为一项开放标准,具备强大的功能,涵盖音频编码、流式传输、噪声抑制和拥堵控制等关键技术,能够为多类场景赋能。无论是基于浏览器的应用、移动端 App、物联网设备,还是服务器到服务器的直接通信,WebRTC 都能简化跨平台实时语音产品的构建与扩展,提供流畅且响应迅速的交互体验。即使在复杂的网络环境下,依然能够保持性能稳定。我们常见的视频会议,或低延迟的视频流传输,均采用了 WebRTC。此次实时 API 中集成 WebRTC 为开发者开辟便捷通道,意味着开发者仅需 12 行 JavaScript 代码,即可轻松为应用添加 Realtime 功能。
让小鹿“开口说话”
● 实时API价格
目前实时 API 提供了 GPT-4o 和 GPT-4o mini 2个版本。 其中,GPT-4o 实时 API 的最新版本号为 “gpt-4o-realtime-preview-2024-12-17”,带来了极具吸引力的价格优化,音频成本降低了 60%,每百万输入和输出的价格分别为40和80美元。而本次发布的实时 API 小型模型 “gpt-4o-mini-realtime-preview-2024-12-17”,目前是 Beta 版本,在成本上出具备一定的优势。GPT-4o mini 实时 API 的价格为 10 美元每百万输入 token 和 20 美元每百万输出 token,音频速率仅为原先的十分之一,大大降低了开发成本,使更多开发者能够使用该功能搭建低延迟的 AI 生成语音响应应用程序。
偏好微调功能
微调 API 现已支持偏好微调(Preference Fine-tuning),使开发者能够基于用户和开发者偏好轻松定制模型。与传统监督式微调不同,偏好微调使用直接偏好优化(Direct Preference Optimization,DPO)策略,通过成对比较的方式进行训练,教会模型甄别优选与非优选的输出结果,进而引导模型识别并生成更符合用户偏好的响应,在处理主观性任务时尤其高效,例如摘要生成、创造性写作,或是语气和风格要求严苛的场景。偏好微调将优先支持 “gpt-4o-2024-08-06”模型,很快也将助力 “gpt-4o-mini-2024-07-18”模型。训练 token 的价格与监督微调相同,支持新模型的更新计划将在明年初推出。
偏好微调功能演示
为了让开发流程更加顺滑无阻,除了已有的 Python、Node.js 和 .Net 库,OpenAI 还推出了面向 Go 和 Java 开发者的新 SDK 测试版,进一步拓宽了开发者在不同编程环境中与 OpenAI 模型进行交互的便利性。
Day 10 1-800-CHATGPT:和 AI “煲电话粥”
第 10 天的发布会,OpenAI 为用户提供了一种与聊天机器人“对话”的全新方式,既可以拨打 1-800-chatgpt 直接和 ChatGPT 开启语音对话,也能借助 whatsapp 向该号码发消息实现互动交流。现阶段,电话功能的适用范围仅限美国地区,每月为用户提供了 15 分钟的免费通话时长;而 whatsapp 通道则面向全球用户开放。这一全新交互功能的底层架构依托于 Realtime API 和 GPT-4o mini 模型,确保了交互的流畅性。
在发布会上,OpenAI 研究员们使用不同设备拨打该号码与 ChatGPT 进行互动,现场演示了用智能手机询问建筑问题、用老款手机请求翻译服务、用老式旋转拨号电话要求 ChatGPT 以五岁儿童能理解的方式解释概念等场景,展示了这一功能的实用性和跨设备的适应能力。
ChatGPT “热线电话”
Day 11 深度集成 Mac 应用:ChatGPT 变身 AI Agent
OpenAI连续发布会的倒数第二天,主题为 “Work with Apps”,ChatGPT 与 Mac 应用实现深度集成。不少“眼尖”的网友敏锐察觉到,这或许是 OpenAI 为即将推出的 AI Agent(智能体)精心铺设的前序篇章。
本次 ChatGPT 桌面应用程序迎来众多更新,AI 得以全方位深入用户的工作流。在获得用户授权后,它能够在 30 个应用间无缝切换,支持语音对话,能够自如访问桌面、自动处理文档、执行工作,有效提高办公效率。
在演示中,OpenAI 研究员通过 Warp 连接到 Github,并要求 ChatGPT 统计过去两个月的每日提交。此时,用户只需轻松下达任务,复制黏贴 Warp 已预置好的详细操作步骤,无需繁琐的沟通,ChatGPT 便能迅速理解并开始执行。任务完成后,还可根据需求将结果以直观的图表形式可视化呈现。
ChatGPT 接入 Warp 演示
此外,该功能还具备智能的模型切换机制,可根据任务难度灵活切换 ChatGPT 模型。就像在发布会演示利用 XCode 进行开发时,研究员依据编码任务的复杂程度,瞬间将模型切换至 o1 pro,确保输出的精准性与高效性。此外,OpenAI 充分考虑到多场景应用需求,支持 ChatGPT 在语音模式下与 Notion、Apple Notes 等多款应用协作,为用户打造全方位、智能化的工作体验。
Day 12 o3 系列:“王者”推理模型
发布会的最后一天,OpenAI 重磅推出了 o3 系列模型,包括 o3 和 o3-mini 两款模型,堪称此次发布会的 “压轴大戏”。o3 系列一登场,便凭借其超强的推理能力惊艳全场,被誉为目前“最强大”的推理模型。其实早在 20 号,Sam Altman 就在 X 上发布 tweets,用三个 “oh” 暗示了 新一代 AI 模型 o3 的发布。
根据 OpenAI 官方提供的数据来看,o3 模型“纸面参数”迎来了全方位等显著提升,远超以往任何推理模型,着实令人惊叹。在 SweepBench Verified 基准测试中, o3 模型达到了约 71.7% 的准确率,远超 o1 模型 20% 之多。在编码领域,o3 在全球知名的编码竞赛平台 Codeforces 上,相较于 o1 1891 的得分,o3 在延长思考时间的情况下得分高达2727,而 OpenAI 研究员 Mark Chen 的得分也只有2500,充分展现了 o3 接近甚至超越人类专业程序员的超强实力。
在数学领域,o3 模型表现也令人惊艳。在美国数学竞赛 AIME 2024 测试中,它以90.67%的准确率“碾压”了 o1 的 83.3% 的成绩。就连领域内的博士专家,也只能在其专业领域获得约 70% 的准确率。不仅如此,o3 在 ARC-AGI 基准上最低可达到 75%,最高可达 87.5%,成为首个突破该基准的 AI 模型。在 Epic AI 前沿数学基准测试中,目前市面上所有的产品在该测试的准确率均低于 2%,而 o3 在严格设置下准确率可达 25%,充分展现了其强大的数学推理能力。
o3性能测试表现
谈得 AGI,就不得不提专门衡量 AGI 的基准测试 ARC-AGI,ARC-AGI 由 Keras 之父 François Chollet 于 2019 年设计,主要是通过图形逻辑推理来测试模型的推理能力。其特别之处在于,它不考察已学习的知识,而是要求模型通过观察几个示例,推断新任务规则并即时学习,(如,推理规则“在空格处放置深蓝色方块”)。o3 在低算力的配置下得分为 75.7,而在提高算力,并思考更长时间后,o3 在相同的隐藏保留集上得分为 87.5%,远超大多数人类。也许正如 OpenAI 所说,“我们在 AGI 的路上,已经没有阻碍了”。
Arc AGI 测试题
与 o1 mini 类似,o3 mini 也具有强大的数学和编程能力,且成本较低。o3 mini 支持低、中、高三种推理强度选项,用户可根据任务复杂度灵活选择模式的思考时间。根据发布会 OpenAI 研究员的演示, o3 mini 在编程能力、数学推理等方面三种强度模式下均表现优异。在编程测试中,o3 mini 在中等推理时间下,性能已远超 o1,而成本和延迟较低,这意味着它能让开发者以更经济的方式完成高难度编程任务。此外,o3 mini 还支持函数调用、结构化输出等 API 特性。
o3 在 ARC-AGI 的表现优异
OpenAI 计划在 2025 年 1 月底正式发布 o3 mini,随后将推出完整版 o3。目前,OpenAI 正在邀请选定的用户测试这套新的推理模型。
随着这 12 天的发布会圆满收官,OpenAI 凭借一系列亮眼成果,稳稳站在了人工智能领域的前沿。其展现出的创新实力与探索精神有目共睹,推出的诸多技术既为科技从业者开拓新应用场景提供了有力支撑,也让普通用户得以更便捷、智能地享受 AI 红利。不难预见,在不久的将来,这些 “科技火种”,将在各行各业呈燎原之势,逐步渗透并重塑我们的生活、工作与学习模式,开启一个全新的智能时代。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。