头图

图片
AI人工智能等技术的飞速发展,数据量与算力需求呈爆炸式增长,但算力分配方式往往存在供需不均衡、资源利用不均、响应速度慢、成本高昂等问题,难以满足现代业务场景对算力资源的动态、精准需求。IStorm CPSP算力调度平台旨在实现异构资源的统一管理和调度,以高效地分配和管理异构算力资源。通过智能化、自动化的手段,实现算力资源的优化配置与高效利用, 帮助企业解决资源浪费、任务执行延迟和计算成本过高的问题,为企业提供算力管理、算力调度编排和资源优化的能力。
图片
产品发布说明IStormCPSP(ComputePowerSchedulingPlatform) 算力调度平台V1.1的功能升级,主要集中在算力管理、插件管理和作业训练等方面。这些改进显著提升了平台的操作简便性和用户体验,使用户能够更加轻松高效地利用平台资源。新增资源感知功能算力资源感知:为用户提供全面的算力资源感知功能,通过直观的可视化界面实时展示集群的资源状况及其利用情况。该功能涵盖了资源概览、作业统计、节点查看及资源拓扑图展示等多个方面,帮助用户全面了解集群状态。资源拓扑:直观展现作业、数据集、镜像、节点(Node)及容器(Pod)等各项资源的关联布局,帮助用户提升管理效率节点资源监控:提供集群节点资源利用率的详细监控,覆盖GPU、CPU和内存等关键指标,并展示节点负载情况及正在运行的作业信息,确保用户能够及时掌握节点的实际运行状态。节点配置查询:支持查询集群节点的配置详情,包括设备型号、节点IP地址、制造商等信息,并能获取节点的状态以及其上运行的所有作业的详细情况,为故障排查和性能优化提供依据。
图片

图片
作业训练优化
参数配置优化:简化了参数设置流程,使用户能够更快速、准确地完成配置,降低了操作门槛。

支持作业并行处理:增强了对并行任务的支持,可以有效地分配和利用计算资源,显著提高了作业的运行效率和处理速度。
算力管理优化
调度策略优化:改进了调度算法,支持调度插件的自动安装,进一步提升了资源分配的效率和准确性。

算力集群管理:新增了算力集群的发布与取消功能,方便用户对集群进行维护和管理,确保集群始终处于最佳运行状态。

自定义插件支持:允许为算力集群安装和配置自定义插件,以满足特定场景下的个性化需求,增强了平台的灵活性和适应性
产品价值

资源高效利用:通过灵活配置调度算法和策略,平台能够精确匹配算力资源,避免资源闲置,从而有效地控制成本,提高投资回报率。

灵活的资源调度与管理:通过资源池化和动态感知技术,平台能够实现异构资源的统一管理和调度,进而优化资源使用效率,减少浪费。

提升算力韧性:平台支持GPU、TPU、DPU等多元异构算力的统一调度管理,能够更好地应对多样化的AI应用场景,提高系统的适应性和韧性。

降低运营成本:可视化大屏、成本洞察、实时资源感知、算力调度以及算力交易等精细化运营管理手段后,能够显著提升运营效率,优化资源分配,降低成本,增强系统的灵活性和可扩展性,为企业的数字化转型和智能化升级提供有力的支持。

安全性和合规性:平台设计有租户间的资源隔离机制,确保数据传输加密,并提供日志审计功能,保障了数据的安全及操作的合规性。

提升智能运维能力:平台具备智能运维特性,能够自动感知算力资源的状态变化,并据此调整调度策略,减少人工干预的需求。


同创永益简介

北京同创永益科技发展有限公司成立于2009年,是国家高新技术企业、工信部专精特新“小巨人”企业、信创工委会技术活动单位、中国信通院混沌工程实验室副理事长单位。公司深耕企业用户数字韧性服务,业务覆盖灾难恢复、业务连续性、IT应急管理、容量管理、混沌工程等产品和解决方案,拥有自主知识产权和全栈服务能力,致力于帮助客户建设数字化系统的全领域韧性体系。


同创永益
15 声望4 粉丝

同创永益,面向未来的组织韧性服务提供商