头图

图片
随着企业数字化转型快速发展、业务规模的扩大,分布式系统的组件之间交互变得更加复杂,涉及的网络调用、数据一致性、异步处理等问题大大增加。这种复杂性使得业务系统故障造成的经济损失不断攀升。混沌工程通过故障主动注入及风险点分析,能够帮助发现这些复杂系统稳定性的潜在问题,提升业务系统的稳定性和服务质量。同创永益的IStorM Chaos混沌工程平台是一套完整的混沌工程体系化实践工具平台,提供成熟的专家实验场景、应用体检套餐和丰富的故障注入手段,通过对业务系统进行平台、中间件、数据库、应用等各类层次的故障注入演练,帮助企业发现更多未知的影响业务稳定性的隐患与问题,快速、有效的提升业务和系统稳定性。
图片
IStorM Chaos 混沌工程管理平台具备以下主要功能:
分布式应用管理 – 应用视角的混沌工程演练通过混沌演练提升分布式应用的稳定性。将分布式应用接入到平台后,可通过平台安装故障注入介质,下发故障,推荐测试场景,完成混沌实验,从应用维度分析稳定性。
实验观测 – 实验全程的观测能力可扩展指标库,可以通过界面直接对接Promethus、Zabbix、Influxdb中的监控指标;平台支持配置应用可视化的实验指标观测面板,以及展示可视化的实验流程进度、实验结果分析、实验缺陷统计。
流量注入管理 – 发现业务链路风险点通过配置应用业务链路和业务指标,可清晰明了地看到服务调用链路以及其相应调用状态、调用时延等指标,快速定位链路异常点,发现服务性能瓶颈点,了解其服务上下游调用关系,从全局的视野观察和保障服务运营。
常规实验 – 灵活的执行方式和过程控制基于流程引擎的场景编排,支持并行、串行的组合,支持实验计划的手动执行、周期执行、随机自动执行以及自动执行体检套餐的流程定义,实验过程灵活可控,可随时终止演练。
混沌体检 – 自动化的应用稳定性缺陷排查基于混沌教练的精心设计体检套餐,通过极简的配置,对已上线或即将上线的业务进行快速体检,验证系统和业务的稳定性,快速提升业务的数字韧性,保障连续性满足业务需求。
情景实验 – 支持特定场景的混沌演练提供多种有针对性的情景化实验,包括风险探索实验、强弱依赖实验、故障复现实验,与应急平台或灾备平台结合的应急实验、容灾切换实验及红蓝攻防实验。
具体升级内容
新增功能
新增项目管理功能,支持项目级别的数据权限隔离;支持配置项目成员在混沌实验中的职责权限,项目管理员和成员的权限可灵活配置
新增应用管理功能,以应用维度进行实验和分析应用稳定性,支持应用拓扑展示、流量配置、稳态配置、介质管理、防护配置、稳定性分析展示、可导出应用维度的稳定性报告,全面分析影响业务系统稳定性的风险点
新增缺陷管理功能,对常规实验、体检实验、情景实验中检测出的缺陷详情、修复进度进行跟踪管理
介质管理新增介质升降级、介质上传、介质在线、离线状态检测功能
新增混沌体检实验,总结混沌演练场景经验形成有针对性的体检套餐,支持针对中间件或数据库推荐相应的专家场景;可对业务系统进行一键自动化体检,支持体检过程中各个实验场景的演练可视化,实验结束后可生成该业务系统的体检报告
新增风险探索实验,可预设应用关联故障的风险等级和发生频率,实验启动后自动对业务系统进行风险探索实验,并将缺陷上报到故障库
新增生产故障复现实验,利用生成故障发生时的指标与故障复现实验的指标进行数据拟合分析,给出数据拟合度,协助推断并确认出已发生的具体故障
新增通用类原子故障的生效判断脚本和恢复判断脚本。可在实验执行和恢复过程中观测到故障注入后是否生效、故障恢复后是否清除
新增红蓝对抗情景实验,可从混沌平台对业务系统进行故障注入并触发应急实验,联动应急平台,进行应急流程处理后清除故障,恢复业务

k8s集群Agent新增支持以非常驻进程运行,按需启动Agent。适合节点数较多的集群,有效降低资源占用
主机类介质新增流程处理接口,便于对接第三方自动化运维平台下发和执行Agent
增加对OpenShift 4.7集群环境的适配
功能升级
增强实验观测能力,应用拓扑功能可自动感知Kubernetes上部署的应用服务并绘制拓扑图;观测面板功能内嵌Grafana,支持对Grafana面板组件管理
优化实验执行流程,可支持在同一个实验场景中配置Kubernetes故障和主机故障混编执行。增强场景的适配能力,对同时部署在云上和云下的业务系统可配置一个实验场景进行混沌演练
增强实验前后应用的稳态状态判断,直观地判断业务系统定义的稳态指标在故障注入前和恢复后是否达到稳态
故障执行框架重构,使用linux cgroup/namespace等底层技术优化故障注入逻辑,支持故障执行状态全程可视化(实验前、实验中、实验结束、实验过程故障注入和恢复事件等)
增加容器运行时自适应,可在安装时自动匹配集群的容器运行时
增加主机介质心跳机制,可检测主机介质离线、在线状态。手动安装或者第三方自动化运维平台安装的介质,状态也可在平台正常展示
常规实验执行页面、预览页面增加实验进度条和实验信息,更直观展示实验执行进度
在常规实验执行页面、结果页面增加实验执行状态和故障执行步骤以时间流方式展示,丰富页面展现形式
常规实验执行页面,新增实验节点与指标变化联动,指标图中展示节点的开始时间、结束时间,可方便观测故障注入时间节点的指标变化区间
新增时间偏移、指定进程限制线程数、指定进程夯住、文件系统 INODE超限、文件替换等故障
优化主机类故障执行流程,减少主机类故障执行流程卡顿
分布式任务调度支持PowerJob


同创永益简介

北京同创永益科技发展有限公司成立于2009年,是国家高新技术企业、工信部专精特新“小巨人”企业、信创工委会技术活动单位、中国信通院混沌工程实验室副理事长单位。公司深耕企业用户数字韧性服务,业务覆盖灾难恢复、业务连续性、IT应急管理、容量管理、混沌工程等产品和解决方案,拥有自主知识产权和全栈服务能力,致力于帮助客户建设数字化系统的全领域韧性体系。


同创永益
15 声望4 粉丝

同创永益,面向未来的组织韧性服务提供商