数据库自治平台 KAP 监控告警架构及实例演示

KAP 是 KaiwuDB 的自治服务工具，在 KAP 中监控主要是帮助用户全面掌握 KaiwuDB 集群的整体运行情况，实时监测集群相关性能，并支持定制化的模板展示各种指标数据。

在告警管理中系统可以根据配置的规则、订阅、通知等信息进行告警，帮助用户及早发现问题、解决问题，从而提高被监控集群持续服务的能力，有效保障数据库服务的稳定性、安全及可靠性。

KAP 的监控告警实现了多集群监控指标及日志的采集、存储，支持平台监控展示和告警监测和推送。具体流程如下图所示：

（1）metric 指标采集
metrics 由 metric name 和 label name 组成。
{=,…}，存储相关指标名称如下表所示：

（2）指标类型：

（3）metric 指标存储
metric 指标占用磁盘大小估算方式：磁盘大小 = metric 保留时间 每秒获取样本数 样本大小。

可以通过修改配置参数调整指标保留时间,在保留时间和样本大小不变的情况下，如果想减少本地磁盘的容量需求，可以减少时间序列的数量。因此一个 metric 的 label 数量也不应该过多，单个 metric 的 label 数量尽量保持在 10 个以内。

（4）监控指标可视化
监控哪些内容，不同的集群，不同的业务需求都不相同，且展示可能会随着时间推移发生变化，这就需要根据业务与集群的要求去定制，使监控更加灵活、扩展性更强。

告警规则管理可支持设置指标触发规则、告警范围、告警等级、告警详情等信息，系统根据定制的规则检测指标值，满足触发条件后生成告警事件；
告警通道，是告警事件发送的通道，使告警事件、告警日志、错误日志推送至配置好的服务器；
告警订阅实现用户根据需要推送告警规则。支持用户自定义告警信息发送方式，即通过哪些通道推送哪些分组内告警事件信息。如不配置订阅则只能在告警事件中查看告警信息；
告警事件中用户可以查看历史产生的告警事件，点击时间可查看对应告警事件的详情。了解发生告警的节点、产生时间、恢复时间、最后一次告警时间、告警概述、告警详情，以及告警通知信息。