OpenAI计划推出“博士级AI”产品
OpenAI正计划推出一系列专业AI“代理”产品,其中包括每月2万美元的“博士级研究”支持服务。其他计划中的代理包括每月2000美元的“高收入知识工作者”助理和每月1万美元的软件开发代理。尽管OpenAI尚未确认这些价格,但此前曾提及博士级AI的能力。
什么是“博士级AI”?
“博士级AI”指的是能够执行需要博士级专业知识的任务的模型。这些任务包括进行高级研究、无需人工干预编写和调试复杂代码、分析大型数据集以生成综合报告等。OpenAI声称,这些模型能够解决通常需要多年专业学术训练的问题。
基准测试表现
OpenAI基于特定基准测试的表现来支持其“博士级”AI的声称。例如,OpenAI的o1系列模型在科学、编码和数学测试中表现良好,结果与人类博士生在挑战性任务中的表现相似。其Deep Research工具能够生成带引用的研究论文,在“人类最后考试”中得分为26.6%。
最新模型进展
OpenAI在12月宣布了o3和o3-mini模型,这些模型基于去年早些时候推出的o1系列。o3模型使用了“私有思维链”技术,模拟人类研究人员思考复杂问题的过程。OpenAI表示,投入的推理时间越多,得到的答案越好。o3在ARC-AGI视觉推理基准测试中达到了87.5%的分数,接近人类表现的85%阈值。
基准测试与实际应用
博士级AI模型的潜在应用包括分析医学研究数据、支持气候建模和处理研究工作的常规方面。The Information报道的高价格表明,OpenAI认为这些系统能为企业提供巨大价值。软银作为OpenAI的投资者,已承诺今年在OpenAI的代理产品上投入30亿美元。
财务压力与市场反应
OpenAI面临财务压力,去年亏损约50亿美元。尽管ChatGPT Plus和Claude Pro等服务的价格相对较低,但OpenAI的新定价策略引发了市场对其性能与价格匹配性的质疑。
局限性与挑战
尽管在基准测试中表现出色,这些模拟推理模型仍存在“虚构”问题,即生成听起来合理但事实错误的信息。对于高风险的科研应用,这是一个关键问题。此外,有人指出,雇佣真正的博士生可能比使用这些AI模型更便宜。
总结
“博士级AI”目前仍主要是一个营销术语。这些模型在处理和综合信息方面表现出色,但在创造性思维、学术怀疑和原创研究方面仍存在疑问。尽管如此,这些模型不会疲劳,也不需要健康保险,并且随着时间的推移,其能力和成本可能会继续改进。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。