使用渐进式模型剪枝在混合云 - 雾拓扑结构中部署大语言模型

发布于 7 月 2 日

主要观点：大型语言模型（LLMs）已成为多种场景的骨干，但在计算资源受限的混合云-雾架构环境中部署面临挑战，渐进式模型剪枝可在不影响精度的情况下减少模型大小和计算成本。
关键信息：

混合云-雾拓扑结构包括云层（集中式数据中心，含大量高性能计算服务器用于训练和推理）和雾层（分散式微数据中心，靠近边缘，执行低延迟任务但资源受限）。
现有LLMs需高资源，雾层无法承载全模型，需压缩技术，模型剪枝可减少权重和神经元，渐进式剪枝可增量进行并生成不同参数大小的模型变体。
部署策略包括在云训练和分析模型以生成不同稀疏度的剪枝变体，根据雾节点硬件匹配剪枝模型，采用分层回退机制确保准确性和响应性，同时要跟踪准确率、延迟、吞吐量和内存等指标。
重要细节：
云层可处理大数据集、训练和回退逻辑，雾层进行数据过滤等预处理。
结构化剪枝保留规则结构，适合现有硬件；非结构化剪枝去除单个权重，压缩比高但难实现加速；层-wise剪枝可精细控制模型复杂度。
部署过程中，先在云训练并生成剪枝变体，再根据雾节点硬件匹配，最后采用分层回退机制，以优化延迟和资源使用。
评估指标包括模型准确率下降不超 2%、各层延迟小于特定值、节点吞吐量高及模型内存不超总设备内存 80%。

阅读 258