为了娱乐和盈利的线性规划

主要观点:GPU 市场波动大,Modal 构建“资源求解器”系统来应对,以满足客户对可预测价格和快速扩展计算的需求。
关键信息

  • 资源求解器是线性规划求解器,能在给定线性约束下快速可靠地最大化目标,可处理多种云服务器类型的当前需求、价格等信息,以确定启动和关闭的实例类型及数量。
  • 解决资源分配问题面临诸多约束,如用户对 CPU、RAM 及不同类型 GPU 的需求,任务运行区域限制,用户需求波动大,云价格随时变化等,单纯处理会很复杂。
  • 借助单纯形算法(simplex algorithm)来建模和解决这些问题,利用 GLOP 求解器(来自 OR-Tools 库),并通过一些预处理和调整来优化求解过程,确保快速且成本最优的扩展。
  • 求解器系统有双重使命,既要快速扩展又要成本最优,可能会有求解时间过长等问题,通过一些技巧来解决,如提前修剪实例类型等,确保后续扩展请求可行。
    重要细节
  • 几个月前能以 20%的优惠价格获得数百个 H200 GPU 而不是 H100s。
  • 为满足用户需求需维持一定缓冲,即额外的空闲 GPU 以应对突发需求。
  • 求解器系统的各个部分及工作流程,如 GLOP 与外部服务的交互、背景工作池的作用等。
  • 感谢 Jonathon Belotti 的反馈,Modal 正在招聘以构建可靠高性能系统。
阅读 12
0 条评论