AIOps 到智能 AIOps：利用人在环中的大型语言模型构建值得信赖的共生工作流

这是一篇为 DZone 的 2025 趋势报告撰写并发表的文章，主要内容如下：

Editor’s Note：介绍文章来源及标题Intelligent Observability: Building a Foundation for Reliability at Scale。
Prerequisites of Agentic AIOps：
- Defining Agentic AIOps：Agentic AIOps 重塑 AI 与数字运营的关系，其核心是具备感知、推理、行动和学习四个关键属性的软件实体，能主动承担定义的任务，如诊断微服务故障并提出解决方案。
- Understanding the Human-in-the-Loop Approach：HITL 是 AI 自治的关键安全锁，将职责分工，代理处理常规任务，人类授权风险，确保责任和防止 AI 幻觉等问题。
- The Observability Trifecta：LLM 代理需依赖日志、跟踪和指标构成的可观测三元组进行复杂推理，以提供完整的事件信息。
Technical Stack Overview：实施 agentic AIOps 需整合多个组件，包括基础 LLM、代理框架、可观测性/数据、安全和门控、执行/自动化、HITL 接口等，各组件在系统中发挥不同作用。
System Architecture and Innovations：
- High-Level Design：系统架构分为摄入层、代理核心、HITL 看门狗、执行层和反馈循环五个关键模块，各模块协同工作，实现数据处理和智能执行。
- Multi-Agent Collaboration：采用多代理协作，通过内部自动审查提高推荐准确性，消除推理链中的单点故障。
- Hybrid RAG and GraphRAG：结合传统 RAG 和 GraphRAG，利用知识图提高根因分析的速度和准确性。
- Zero-Trust Gating：执行层遵循零信任原则，通过 Policy as Code 进行动态策略检查，确保动作的安全性。
Step-by-Step Implementation Guide：提供使用常见开源原则和工具构建代理工作流的分步指南，包括设置开发环境、构建数据摄入管道、实现分类代理、开发上下文总结器、创建运行手册提议者、集成 HITL 门控和整合整个工作流等步骤。
Conclusion: The Future Is Agentic Observability：强调这一转变不仅是 AIOps 的升级，更是数字工程和运营的重新定义，通过嵌入 HITL 原则创建安全、可信、负责的系统，从反应式修复转向智能自我管理，自治且受监督的运营代理时代已到来。