主要观点:GPU 市场波动大,Modal 构建“资源求解器”系统来应对,以满足客户对可预测价格和快速扩展计算的需求。
关键信息:
- 资源求解器是线性规划求解器,能在给定线性约束下快速可靠地最大化目标,可处理多种云服务器类型的当前需求、价格等信息,以确定启动和关闭的实例类型及数量。
- 解决资源分配问题面临诸多约束,如用户对 CPU、RAM 及不同类型 GPU 的需求,任务运行区域限制,用户需求波动大,云价格随时变化等,单纯处理会很复杂。
- 借助单纯形算法(simplex algorithm)来建模和解决这些问题,利用 GLOP 求解器(来自 OR-Tools 库),并通过一些预处理和调整来优化求解过程,确保快速且成本最优的扩展。
- 求解器系统有双重使命,既要快速扩展又要成本最优,可能会有求解时间过长等问题,通过一些技巧来解决,如提前修剪实例类型等,确保后续扩展请求可行。
重要细节: - 几个月前能以 20%的优惠价格获得数百个 H200 GPU 而不是 H100s。
- 为满足用户需求需维持一定缓冲,即额外的空闲 GPU 以应对突发需求。
- 求解器系统的各个部分及工作流程,如 GLOP 与外部服务的交互、背景工作池的作用等。
- 感谢 Jonathon Belotti 的反馈,Modal 正在招聘以构建可靠高性能系统。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。