AI 代理技术的发展现状与挑战
AI 行业正致力于将“代理”(AI-driven software agents)变为现实。这些代理能够代表用户执行多步骤任务。多家科技公司,包括谷歌,最近强调了代理功能的重要性。2025 年,OpenAI CEO Sam Altman 预测 AI 代理将“加入劳动力市场”。
OpenAI 的新工具与 API
OpenAI 正在努力实现这一目标,并于近期发布了新的“Responses API”,旨在帮助开发者创建能够独立执行任务的 AI 代理。该 API 将逐步取代现有的“Assistants API”,后者计划在 2026 年上半年退役。
Responses API 的主要功能
- 文件搜索:用户可以通过文件搜索工具快速扫描公司数据库,OpenAI 承诺不会使用这些文件训练模型。
- 网站导航:类似于 OpenAI 的 Operator 代理功能,开发者可以使用其底层的 Computer-Using Agent (CUA) 模型,自动化数据录入等任务。
然而,OpenAI 承认 CUA 模型在操作系统上的自动化任务中尚不可靠,可能会出错。公司表示,新 API 是一个早期版本,未来将持续改进。
支持的模型与搜索能力
开发者可以通过 Responses API 访问支持 ChatGPT Search 的模型,包括 GPT-4o search 和 GPT-4o mini search。这些模型能够浏览网页回答问题,并在响应中引用来源。OpenAI 表示,增加的网页搜索能力显著提高了模型的事实准确性。
在 OpenAI 的 SimpleQA 基准测试中,GPT-4o search 和 GPT-4o mini search 分别取得了 90% 和 88% 的分数,远高于不支持搜索的 GPT-4.5 模型(63%)。
尽管如此,该技术仍有显著局限性。CUA 模型在网站导航方面存在问题,而改进的搜索能力也未能完全解决 AI 的虚构问题,GPT-4o search 仍有 10% 的事实错误率。
开源工具与未来发展
除了 Responses API,OpenAI 还发布了开源的 Agents SDK,为开发者提供免费工具,用于将模型与内部系统集成、实施安全措施并监控代理活动。这一工具包是 OpenAI 早期发布的 Swarm 框架的延续,后者用于协调多个代理。
行业挑战与现状
AI 代理领域仍处于早期阶段,未来可能会快速改进。然而,目前该领域仍存在不切实际的宣传。例如,中国初创公司 Butterfly Effect 的 Manus AI 代理平台未能兑现其许多承诺,凸显了该新兴技术类别中宣传与实际功能之间的差距。
总结
OpenAI 通过 Responses API 和 Agents SDK 推动了 AI 代理技术的发展,尽管在自动化任务和事实准确性方面仍存在挑战。行业整体处于快速发展阶段,但需警惕过度宣传与实际功能之间的差距。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。