使用渐进式模型剪枝在混合云 - 雾拓扑结构中部署大语言模型

主要观点:大型语言模型(LLMs)已成为多种场景的骨干,但在计算资源受限的混合云-雾架构环境中部署面临挑战,渐进式模型剪枝可在不影响精度的情况下减少模型大小和计算成本。
关键信息

  • 混合云-雾拓扑结构包括云层(集中式数据中心,含大量高性能计算服务器用于训练和推理)和雾层(分散式微数据中心,靠近边缘,执行低延迟任务但资源受限)。
  • 现有LLMs需高资源,雾层无法承载全模型,需压缩技术,模型剪枝可减少权重和神经元,渐进式剪枝可增量进行并生成不同参数大小的模型变体。
  • 部署策略包括在云训练和分析模型以生成不同稀疏度的剪枝变体,根据雾节点硬件匹配剪枝模型,采用分层回退机制确保准确性和响应性,同时要跟踪准确率、延迟、吞吐量和内存等指标。
    重要细节
  • 云层可处理大数据集、训练和回退逻辑,雾层进行数据过滤等预处理。
  • 结构化剪枝保留规则结构,适合现有硬件;非结构化剪枝去除单个权重,压缩比高但难实现加速;层-wise剪枝可精细控制模型复杂度。
  • 部署过程中,先在云训练并生成剪枝变体,再根据雾节点硬件匹配,最后采用分层回退机制,以优化延迟和资源使用。
  • 评估指标包括模型准确率下降不超 2%、各层延迟小于特定值、节点吞吐量高及模型内存不超总设备内存 80%。
阅读 111
0 条评论