Cluster Manager for Apache Doris(简称 Doris Manager)是 SelectDB 推出的管理运维 Apache Doris 集群的工具。用户可以轻松通过该工具部署和接管集群,实时查看集群的运行状态和详情,快捷地对集群进行扩缩容、升级及重启操作。同时,该工具还支持监控告警、参数配置、日志查看、任务审计、集群巡检等功能,让集群管理变得更加简单高效。目前, Doris Manager 已被上千家企业用户广泛认可并深度应用。经过持续不断的优化与打磨,我们终于迎来了 Doris Manager 24.0 这一重要版本的正式发布。
重大更新
- 管控升级为 Agent 模式,Agent 和 Server 之间直接使用 HTTP 协议通信,保证安全性。
- 新增任务审计,支持查看每个任务的详细信息,包括操作时间、操作人、操作内容等信息。
- 监控模块新增主机维度的机器指标监控,通过node_exporter采集主机指标。
- 部署及扩容支持新增计算节点,计算节点仅负责数据计算,不负责数据存储。集群巡检支持定期巡检,同时支持按需配置巡检周期并发送通知。
- 按照业内最 佳实践,内置集群及主机维度的告警模版,可按需快速配置告警规则。
管控从 SSH 升级为 Agent 模式
Manager 23.x 系列是基于 SSH 互信的方式,实现向每一台管控机器上发送远程操作命令的功能。然而,对于高安全要求的客户,因其无法提供机器的登录密码或在内部环境使用 SSH 互信,这种方式并不适用。
基于上述原因,Doris Manager 24.0 版本管控升级为 Agent 模式,Agent 和 Server 之间直接使用 HTTP 协议通信,并结合 SSL 加密数据,保证安全性。 服务的整体架构如下图所示:
Doris Manager Web Server
Doris Manager Web 服务是 Manager 网页服务器的服务端,同时也是整个 Doris Manager 实现自动运维管理 Apache Doris、SelectDB Doris 集群的核心模块。主要的功能包括:
- 管控 Doris 集群,包括部署、托管、扩容、缩容、升级、配置修改、重启等管控操作;
- 提供网页端访问的服务 API;存储 Doris Manager 所有业务功能的元数据;
- 提供 Doris 集群运维监控告警组件功能;提供自然人访问 Doris Manager 的用户认证系统,同时实现了基于 Doris 集群功能管理的权限系统;
- 通过 Agent 统一管理系统中的 Doris 集群节点,并下发管控指令到 Agent。
Doris Manager Agent
通过 Doris Manager 管控的 Doris 集群,需要在每个 Doris 集群节点上安装一个常驻的 Agent 进程,Agent 默认的端口是 8972, 跟 Doris Manager Web 服务所在的机器必须网络联通。Agent 主要的功能包括:
- 接收 Doris Manager Web 服务侧下发的管控命令,执行并返回执行结果;
- 收集 Doris Cluster 节点主机的监控指标,并主动汇报给 Doris Manager Web 服务侧的监控组件存储;
- 定时向 Doris Manager Web 服务汇报 Doris Cluster 节点上主机和 Doris 进程的心跳信息。
Doris Manager 的功能与场景
经过近一年的社区深入打磨和对 Doris 用户需求的精准理解,我们为 Doris Manager 带来了一系列重要的优化升级和全新功能。这些改进不仅强化了集群部署与接管、集群重启和扩缩容、集群升级等核心功能,还新增了任务审计、日志管理等实用功能,旨在为用户提供更流畅、更高效的数据管理体验。
集群部署和接管:简化了操作流程,提供了更加友好的用户界面和更加智能的自动化配置选项。无论是物理机还是虚拟机,均可以通过 Doris Manager 快速部署新的 Doris 集群,或者轻松接管已有的集群,可以同时管理多个集群,实现无缝集成和统一管理。同时,为了满足更多用户的需求,Kubernetes 和公有云的部署支持也正在积极开发中。
集群重启和扩缩容:增强了操作的灵活性和可靠性。支持多种重启模式,包括全量重启和滚动重启,以满足不同场景下的需求。同时,我们也提供了更加便捷的扩缩容操作,用户可以根据业务需求动态调整集群规模,确保资源的高效利用。
集群升级:轻松进行集群版本升级,享受便捷、安全的升级体验。我们提供了全量停服升级和在线滚动升级两种方式,以满足不同业务场景的需求。在升级前,Doris Manager 会对集群进行细致的环境检查,确保升级前的准备工作充分、无误。升级过程中,可以随时通过升级任务的日志查看升级的具体流程,从而实时掌握升级进度和状态,确保升级过程的安全可靠。完成升级后,您可以根据系统情况选择保留新版本或回滚到旧版本,从而彻底消除升级集群的后顾之忧。
参数配置:可以根据业务需求和集群状态,通过修改配置文件对 FE 或 BE 参数做单个节点或多个节点的调整,从而优化集群表现,以获得最 佳的性能和资源利用效率。
节点详情:全面了解您的集群节点实时运行状态和详情,包括节点的状态、指标和机器信息。这将帮助您更好地掌握集群的运行情况,及时做出响应。
监控告警:我们为您预设了一系列的监控指标,并支持定制告警通知。同时集群初始化时 Doris Manager 按照最 佳实践内置了默认告警模版,在新建告警策略的时候可以选择模版中的指标进行快捷配置。通过告警阈值和通知的设置,以便在第一时间获取集群运行信息,提前预警和应对问题。
日志查看: Doris Manager 提供了强大的日志查看功能。您可以轻松查看和查询 FE 和 BE 各节点的日志,这对于离线排查集群问题非常便利。
任务审计: 记录了每个任务的详细信息,包括任务类型、ID、模块、状态、发起者、执行进度、开始时间及结束时间。通过审计功能,管理者能够追溯任务的执行过程,可以清晰地了解任务的执行情况和历史记录,从而进行有效的监管和追溯。
巡检功能:我们为您提供详细的巡检检查功能,支持手动或定期一键检查机器状况、集群运行状态,及时发现并定位性能瓶颈,保证集群的稳定运行。
其他功能:我们还提供了一系列其他功能,包括方便的用户管理、自动拉起、停止接管集群等,为您提供了全面、细致的管理工具。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。