主要观点:一项由 ClickHouse 进行的研究发现,大型语言模型(LLMs)目前尚不能替代站点可靠性工程师(SREs)来查找事件的根本原因等任务,但 AI 技术在朝着这一方向显著进步。
关键信息:
- 研究测试了五个领先模型(Claude Sonnet 4、OpenAI GPT-3、OpenAI GPT-4.1、Gemini 2.5 Pro 和 GPT-5)在真实观测数据上的表现,结果表明 LLM 作为辅助工具很有前景,但不能完全取代人类工程师。
- 不同模型在各种场景下的表现参差不齐,有的能识别一些问题,有的需要人类指导才能找到根本原因,且成本和效率差异很大。
- 测试方法存在局限性,使用的是相对简单的数据集。
- 研究结论认为当前最佳方法是将人类专业知识与 AI 辅助相结合,让工程师掌控过程。
重要细节: - 研究团队用不同数据集测试模型,如包含 OpenTelemetry 演示应用程序不同异常的四个数据集。
- 例如在支付失败与特定用户忠诚度水平相关的场景中,Claude Sonnet 4 和 OpenAI GPT-3 能在初始提示后识别问题,但复杂问题需人类干预。
- Gemini 2.5 Pro 在某些方面表现出色但在缓存相关问题上挣扎且会产生幻觉。
- OpenAI GPT-5 在测试中表现与现有模型相似。
- 另一项由 Tomasz Szandała进行的研究评估了 GPT-4o、Gemini-1.5 和 Mistral-small 在基础设施事件根因分析中的能力,零-shot 设置下 LLM 准确率为 44 - 58%,人类 SRE 为 62%,通过提示工程可提高到 60 - 74%,但人类仍更好。ClickHouse 研究表明 GPT-5 也需人类指导,提示工程是 LLM 性能的关键因素。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。