主要观点:介绍了一种可能的用于 LLM 推理的新算法,可实时调整推理时的计算数量,在不同努力程度下性能不同,如 50%努力时与苹果芯片上的常规矩阵乘法速度相同,25%努力时速度快两倍且保留大部分质量,还可选择跳过加载最不重要的权重,目前已为 Mistral 实现,对其他模型无需重新训练只需转换格式和预计算,实现仅为 FP16 目前乘法快但整体推理在非关键部分仍需改进,Mixtral 和 Q8 正在开发中,有动态调整模型加载内存量的选项,实际速度受实现开销限制,需 Swift/Metal 工程师帮助解决,讨论了质量评估、模型性能测量及基本 QA 测试等,还提供了深入算法的相关链接及关于作者、下载运行等其他信息。
关键信息:可实时调整计算量、不同努力程度下性能表现、可跳过权重加载、适用于多种模型、实现细节及待改进之处、相关测试及资源链接等。
重要细节:介绍了不同努力程度下的速度对比、内存加载选项、实际速度受开销影响、质量评估方法、模型性能测量方式、基本 QA 测试内容及所需改进等,还提供了深入算法的多个具体页面链接。
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。