努力引擎 - SegmentFault 思否

努力引擎

发布于 7 月 27 日

主要观点：介绍了一种可能的用于 LLM 推理的新算法，可实时调整推理时的计算数量，在不同努力程度下性能不同，如 50%努力时与苹果芯片上的常规矩阵乘法速度相同，25%努力时速度快两倍且保留大部分质量，还可选择跳过加载最不重要的权重，目前已为 Mistral 实现，对其他模型无需重新训练只需转换格式和预计算，实现仅为 FP16 目前乘法快但整体推理在非关键部分仍需改进，Mixtral 和 Q8 正在开发中，有动态调整模型加载内存量的选项，实际速度受实现开销限制，需 Swift/Metal 工程师帮助解决，讨论了质量评估、模型性能测量及基本 QA 测试等，还提供了深入算法的相关链接及关于作者、下载运行等其他信息。
关键信息：可实时调整计算量、不同努力程度下性能表现、可跳过权重加载、适用于多种模型、实现细节及待改进之处、相关测试及资源链接等。
重要细节：介绍了不同努力程度下的速度对比、内存加载选项、实际速度受开销影响、质量评估方法、模型性能测量方式、基本 QA 测试内容及所需改进等，还提供了深入算法的多个具体页面链接。

阅读 24