现如今,随着日益增速的业务环境,运维在企业中的角色越来越重要。如何在错综复杂的IT系统架构中降低现场故障处理时间、提高运维效率,是每个IT运维工程师都必不可少的技能。
为解决上述运维人员困境,2021年12月30日,云智慧AIOps社区邀请云智慧开发运维工程师Larry Zhang在线分享了开源运维管理平台OMP的功能特性、使用场景等关键内容,更是通过实践操作详细地介绍了如何通过OMP实现运维智能化。
简介
OMP是云智慧自主设计研发,集轻量级、聚合型、智能运维为一体的综合运维管理平台,具备纳管、部署、监控、巡检、自愈、备份、恢复等功能。通过减轻交付难度,提升运维自动化、智能化,进而提升运维整体效率,保障业务运行的连续性和安全性。
功能特性介绍
- 主机纳管
OMP支持页面添加和批量添加两种方式纳管主机。添加过程中OMP会验证主机SSH连接信息,验证通过后即可创建主机。此外,主机创建完成后OMP会自动安装 Agent端,安装完成后也会自动对主机进行监控。点击监控按钮可以查看主机监控面板,通过主机详情页面也可以查看主机详细信息及历史记录。
- 服务发布
OMP支持页面上传和后端扫描两种方式发布服务包。使用者可以根据实际情况选择适合的方式发布服务包,OMP会对服务包进行验证,验证通过后,即可成功发布。 服务包发布成功后,会在应用商店中展示所发布的服务列表,使用者可以点击查看进入到服务详情页面,查看服务详细信息。
- 服务管理
在应用商店点击安装,选择服务版本后,进入安装流程。涉及到依赖信息的服务,OMP会自动将依赖服务显示出来,保障服务安装完后的可用性。 此外,使用者可根据选择的服务数量,进行服务分布和服务配置修改。安装过程中,OMP会优先安装依赖服务,点击“查看详细安装信息”后 可查看安装脚本输出内容。安装完成后OMP会自动对服务监控,在服务列表中可以对服务进行停止、启动、重启、卸载等操作。
- 监控告警
异常清单中会展示正在处于告警状态指标数据,帮助使用者了解当前异常主机、服务。通过点击监控按钮,可以查看该服务的监控面板。告警记录可以帮助使用者查看历史告警信息,通过点击监控按钮,可以查看该服务的监控面板。此外,监控设置中使用者可以根据实际情况,配置监控组件的地址信息,也可以开启邮件推送,选择告警信息接受邮件。
- 状态巡检
OMP中巡检共分为3个维度,分别是 深度分析、主机巡检、组件巡检,在巡检记录中选择所需的巡检内容即可。巡检执行完成后,可以在线查看,或者导出巡检报告,也可以通过邮件推送报告到指定邮箱。
- 默认指标
使用者可以在指标中心统一设置默认的告警指标,告警指标会对巡检、监控同时生效,当主机或服务资源使用超过阈值时,触发告警。
- 系统设置
当纳管主机或服务需要升级或维护时,可以开启维护模式。维护模式下,OMP会抑制所有告警通知。通过邮件设置,可以设置发件邮箱信息。
使用场景分析
- 多云环境集成
- 快速部署环境
- 主机批量管理
- 自动监控告警
- 资产信息记录
实践答疑解惑
- OMP中巡检的目的是什么?
巡检的目的主要是对主机和服务时间做状态快照,以此可以查看该时间段主机和服务的状态。
- 巡检和监控的区别是什么?
巡检的颗粒度更细一些,主要是对内核等信息进行监控;而监控只会对主机CPU等级别信息的一个监控。
- OMP中监控是用什么技术实现的?
目前是通过prometheus操作实现。
- OMP能采集到设备上的日志吗?
目前OMP采集的是服务日志,可在安装包中指明服务日志路径进行日志采集。
- OMP所有组件都开源了吗?
是的,目前OMP所有的组件均已开源。欢迎大家登陆Github或Gitee点赞支持~
OMP GitHub 地址: https://github.com/CloudWise-...
OMP 国内镜像地址: https://gitee.com/CloudWise/OMP
讲师介绍:Larry Zhang (张磊) ,云智慧服务工程部-服务效能二部运维开发工程师,致力于云智慧开源项目运维管理平台(OMP)的产品研发,支撑内部交付体系快速部署监控产品,拥有丰富的运维管理平台和PaaS平台设计开发经验。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。