引言
随着 AI 和云原生技术的发展,系统越来越复杂,调用层级越来越多。国内外对可观测和 AIOps 运维方向的探索源源不断,涌现出了很多优秀的工具,但也有不少工具存在低质、重复、难用、兼容性差等特点。为了让运维行业呈现百花齐放、让优秀的工具脱颖而出,龙蜥社区系统运维联盟其中一项重要的工作放入就是通过对特定的业务系统进行故障注入,将不同的运维工具放在一起进行评估和评测,通过打分和排行榜的机制,来一次同场竞技!
SOMA 简介
龙蜥社区系统运维联盟(System Operation & Maintenance Alliance,简称 SOMA)是由龙蜥社区联合平台厂商、运维厂商、高校及科研院所、事业单位和广大行业用户等发起并成立,以推动系统运维技术进步、促进产学研合作为目的的组织。运维联盟通过建立一套故障注入平台和运维产品力评测系统,为平台厂商、运维厂商和广大客户建立起沟通的桥梁和纽带,让用户对运维产品拼图有全局认识。
SOMA 开源地址:https://gitee.com/anolis/soma
系统划分
运维联盟所做的运维工具评测,主要包含四个系统:案例注入、被测系统、评测系统、报告和评分系统。通过注入不同类型的案例到被测系统(被测系统采用标准的微服务系统),借助标准化接口把故障预期给评测系统,评测系统到测试点(如运维工具透出的标准接口,或者第三方的标准观测系统)采集现场指标(性能开销指标等)进行评测。综合各类型(功能、性能等)评测结果,生成对应产品的评测分数及测试报告。后面将会对这些评分结果进行排行,发布产业报告,进行一些商业化动作。
支持计划
平台评测全景支持计划如下,本次发布的版本,仅支持工具性能评测及客户体验测评。
SOMA评测系统平台介绍
功能详细介绍
注册与登录
点击登录 SOMA 评测系统平台首页,如果没有账号/想使用自建账户,可以点击注册,选择通过验证码注册账号,注册成功以后即可实现登录操作。目前,邮箱以及手机号码登录尚未接入平台,期待后续接入。
SOMA 评测系统平台链接:https://soma.openanolis.cn/exercise
注册后账号默认为普通账号,且用户名即成为后续展示工具来源的用户名,如有其他需要请联系管理员。
下面带大家以管理员视角来介绍整个平台使用。
控制台当您登陆,进入系统后可以看到:
- 运维工具综合排行榜。
- 运维工具主/客观评分排名。
- 运维工具主/客观评分变化趋势。
- 目前压力系统的响应时间/每秒访问次数/响应分位数。
运维工具管理
在开始使用前,首先需要找到运维工具管理,点击添加工具添加您的运维工具。
在弹出页输入您的运维工具名称,以及一键安装/卸载/启动/停止脚本,后续评测需要将会通过这个脚本来完成打分功能。
- 运维工具名称会和实际运行在后台的进程名做模糊匹配,所以请注意填入的运维工具名需要包含在后台进程名中。
- 现一键安装/卸载/启动/停止脚本填写后,请联系管理员进行审核。管理员完成审核添加完成后,会启用对该工具评分的功能。
- 添加完成以后可以看到您添加的运维工具,而管理员可以查看到所有运维工具。
打分模型管理
如果您在独立部署该平台,并且是管理员,可以在左侧选项栏看到打分模型管理,点击打分模型管理,按照说明操作各个按钮即可完成自动化数据收集/模型训练工作。
您在自己的机器上采集到的数据维度与我们机器上的配置若有不同,这时需要按照开发手册来修改相应位置的代码从而满足您的需求。
运维工具
评分点击左侧运维工具评分,评分方式分为主观评分和客观评分。
1)主观评分
进入主观评分页面后,点击添加评分,在下拉框中选择您的运维工具即可进行评分操作,您只能看到自己的运维工具以及打分信息,管理员可以看到所有人的运维工具以及打分信息,具体可从 5 个纬度进行评分:
- 易用性(满分 20 分)
- 功能性 (满分 20 分)
- 定制化 (满分 20 分)
- 支持程度 (满分 20 分)
- 附加评分(满分 20 分)
2)客观评分
同样的方式,您也可以完成客观评分工作,客观评分由平台自动采集过去 30s 内的各项资源占用平均值并自动完成评分,用户无法自己手动打分,具体可从 5 个纬度进行评分:
CPUScore:衡量运维工具开启后,对系统调度子系统的影响,满分 20 分,得分越高,影响越小。
MemScore:衡量运维工具开启后,对系统内存资源的影响,满分 20 分,得分越高,影响越小。
DiskScore:衡量运维工具开启后,对系统磁盘占用的影响,满分 20 分,得分越高,影响越小。
DiskIOScore:衡量运维工具开启后,对系统 IO 子系统的影响,满分 20 分,得分越高,影响越小。
NetScore:衡量运维工具开启后,对系统网络子系统的影响,满分 20 分,得分越高,影响越小。
结果分析结果分析分为主观评分结果分析与客观评分结果分析。
1)主观评分结果分析在主观结果分析中,您可以查看每个工具的所有结果分析情况,点击对应工具右侧的操作列下的图标,即可显示分析报告:
以 SysAk 工具为例,首先您将看到用户主观综合评价得分,这是根据历史评分情况进行计算后得到的综合评分:
接下来是历史主观评分分值情况:
以及查看各评分项的历史得分比重情况:
您还可以查看与其他运维工具的得分成绩比较情况:
2)客观评分结果分析
客观评分结果分析内容与主观评分内容相似,这里就不额外展开。
实时性能数据点击实时性能数据您可以查看系统/运维工具的各项实时性能数据。
压力测试
此部分为基于train-ticket 购票系统(复旦大学 SELab 开源业务模拟系统)和 Chaos Mesh 实现的故障注入系统(由联盟成员云观秋毫团队开发)已经在龙蜥社区开源(链接见下),当前提供了网络、存储、K8s 类的故障案例,希望大家一起来贡献案例。点击压力测试,您可以按照手动按照既定的 case 注入故障/压力,并且实时查看故障状态,但请务必在压力测试后关闭压测。
故障注入系统链接:https://gitee.com/anolis/soma/tree/master/chaos
定时任务管理
用于自动化完成定期自动化评分/定期报告自动生成等功能,使用此功能需要您手动编写定时任务 handler,具体方式请咨询您的管理员。
历史结果查看
包含了每次客观评分时的真实环境数据,您可以点击查看具体数据。
智能助手
SOMA 智能助手是 SOMA 平台的聊天机器人,目前可以根据提问的问题场景,推荐知识库中的相应运维工具。
当前,智能助手支持提交的文档类型有 doc/docx/pdf 的文档和 xlsx/xls 的 excel 问答表格。为了增强 LLM 的上下文,实现更精准有效的推荐,也希望越来越多对此有兴趣的个人和企业,一起贡献相关的知识库。
在 2024 系统运维联盟年终会议上,各位委员针对 SOMA 评测系统的发布给出了建设性意见,详情点击链接查看。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。