HPC 集群可以快速完成复杂计算,支撑模型仿真、数据分析等应用的高效运行,提高业务的创新速度,缩短产品上市时间。

在很长的一段时间内,企业为了最大化提升市场竞争力,在传统的 HPC 集群上保持着不菲的资金投入,包括扩大集群规模、采购最新设备等方式。

当前,如何在保障业务创新速度的同时,优化 HPC 集群的使用和运营方式以便减少资金投入,成为企业关注的重点。

1 全栈 HPC 解决方案

百度智能云的云高性能计算平台 CHPC(Cloud HPC)为企业提供了一套覆盖「混合云 – 资源 – 管理 – 应用」全栈 HPC 解决方案,提升业务计算速度,优化集群使用效率,降低资源使用成本。

1.1 混合云 HPC 集群

在传统的 IT 投资思路下,企业通过自建 HPC 集群满足业务需求,这导致了巨大的设备采购、维护和更新成本。

百度智能云的 CHPC 提供了混合云 HPC 集群能力,可以帮助企业统一纳管本地和多云 HPC 集群。

企业可以将最关键的任务提交至使用最新一代硬件资源的云上 HPC 集群中,使得这些应用处于最佳运行状态。同时,将涉密的任务部署在本地 HPC 集群中,确保商业秘密的安全。

同时,CHPC 提供了云上云下资源的实时监控和报表统计能力,为优化整体资源配置和提升运行效率提供数据支持,保证资源利用最大化。

图片

1.2    最新一代计算资源

目前, CHPC 可提供搭载最新 AMD 第四代 EPYC 处理器 Genoa 的全新计算实例,单实例最大支持 192 物理核心;同时,提供搭载 Intel 第五代 Xeon EMR 系列处理器的计算实例,主频不低于 3.2GHz。此外,CHPC 还可提供最大 3TB 内存的大内存型实例规格,帮助求解计算中的隐式算法提高计算性能。

1.3 动态调度与弹性伸缩

在混合云 HPC 集群和最新一代硬件的基础上,CHPC 还提供了任务动态调度和资源弹性伸缩能力,确保了集群的资源能够被充分利用,提交的任务可以被第一时间运行,降低企业投入资源成本的同时,提升任务运行速度。

1.3.1    任务动态调度

在实际生产过程中,通常会将 HPC 集群资源分为多个队列,将不同任务分别调度到不同队列上运行。在集群中的各个任务运行一段时间后,容易出现队列和任务的匹配不是最优的情况,产生资源浪费的问题。

CHPC 能够全面监控计算节点的资源使用状态,将处于排队中的任务动态调度到空闲的队列上,这样就能够很好的解决资源浪费的问题。

比如,某队列因高优先级任务使得资源一直被占据,导致其他被提交至该队列的任务长时间处于等待状态。同时,另一队列已经完成了之前提交的任务,正处于资源闲置状态。CHPC 将会动态调度这些排队的任务到空闲资源上,确保每一份资源都被充分利用,加速业务整体计算速度。

1.3.2 资源弹性伸缩

在实际生产过程中,集群中承载的任务数量以及所需的资源,会随着项目的发展不断变化。如果在项目初始阶段就提前购买满足业务高峰期的资源,直到项目结束再全部释放,或者通过运维工程师手动的进行资源和任务的适配,都会产生不必要的资源浪费,增加项目成本。

CHPC 提供了基于负载变化的资源弹性伸缩能力,使得资源可以按需调用和实时计费。

比如,在任务提交和结束后, CHPC 自动扩展和释放资源并进行计费,确保了用户项目的总体费用最低。运维工程师无需再守在屏幕面前为作业需求进行资源的扩容和缩容。

1.4 应用性能优化

通过最新一代的硬件资源,结合任务动态调度和资源弹性伸缩等管理能力,打造强大的 HPC 集群基座的同时,还需要对上层的应用进行优化,充分发挥基座的能力,使得整个任务运行效果达到最优。

CHPC 借助 Btune 对业务侧常用的开源应用进行了性能调优,确保运行在集群中的任务不存在性能瓶颈,能够充分利用底层硬件资源能力。

2    案例

2.1    生命科学

生命科学行业的企业 A 采购部署了本地 HPC 资源。虽能满足日常科研工作,但在对外交付的项目中经常出现大量的短期算力需求,本地 HPC 的资源规模难以确保项目如期交付。

企业 A 借助百度智能云的 CHPC 构建了覆盖本地集群的混合云 HPC 方案,确保资源需求的高峰期自动扩展云上资源,并借助经过 Btune 性能调优过的开源应用程序,加速高通量基因测序和深度分析等任务,加快科研成果产出。

同时,在任务运行完成后,企业 A 将存储在对象存储 BOS 中的业务结果数据一键同步至百度网盘分发给下游客户,不仅为企业 A 节省了对象存储的流量费用,还提升了下游客户的业务体验。

图片

2.2    工业制造

汽车行业的新势力企业 C 基于本地 IDC 建立了包括百度智能云、第三方云的混合云 HPC 方案,为任务匹配最佳的计算资源,让车企 C 的旗舰车型能够更快地完成从概念验证到产品上市过程。

为了管理庞大的 HPC 集群,企业 C 的管理员基于混合云提供的全局资源管理和任务动态调度的能力,结合云上云下资源的实时监控和报表统计功能,实现了资源效能的最大化。

同时,系统管理员需要使用复杂的命令对 HPC 集群进行操作。为了进一步提升管理效率,百度智能云将集群管理的命令操作统一到 CHPC 控制台,支持可视化操作,提升管理员的资源管理效率。

图片

百度智能云的高性能计算平台 CHPC 为传统的企业级 HPC 带来了新的玩法,提供混合多云集群、公有云的弹性资源、集成行业特点的工具和应用、性能优化等。目前,CHPC 已成功落地于工业制造、生命科学和教育等多个行业,帮助企业降低成本,快速应对市场需求,提升竞争力。

—————— END——————

推荐阅读

Embedding空间中的时序异常检测

读友好的缓存淘汰算法

如何定量分析 Llama 3,大模型系统工程师视角的 Transformer 架构

微服务架构革新:百度Jarvis2.0与云原生技术的力量

技术路线速通!用飞桨让京剧人物照片动起来


百度Geek说
246 声望51 粉丝