GGUF 最初是为 llama.cpp 项目开发的。GGUF 是一种二进制格式,旨在实现快速的模型加载和保存,并易于阅读。模型通常使用 PyTorch 或其他框架开发,
然后转换为 GGUF 格式以与 GGML 一起使用。随着时间的推移,GGUF 已成为开源社区中共享 AI 模型最流行的格式之一。它得到了许多知名推理运行时的支持,
包括 llama.cpp、ollama 和 vLLM。目前
,GGUF 主要用于语言模型。
虽然也可以将其用于其他类型的模型,例如通过 stable-diffusion.cpp 实现的扩散模型,但这并不像在语言模型中的应用那样普遍。GGUF 文件包含以下部分:
一个以键值对组织的元数据部分。该部分包含有关模型的信息,例如其架构、版本和超参数。一个张量元数据部分。该部分包括模型中张量的详细信息,例如它们的形状、数据类型和名称。
最后,一个包含张量数据本身的部分。
(GGUF v3)](https://img-s2.andfun.cn/devrel/posts/2025/03/f48905b65c9ef.png)GGUF 格式和 GGML 库还提供了灵活的量化方案,能够在保持良好精度的同时实现高效的模型存储。一些最常见的量化方案包括:Q4_K_M:大多数张量被量化为 4 位,部分张量被量化为 6 位。这是最常用的量化方案。IQ4_XS:几乎所有张量都被量化为 4 位,但借助重要性矩阵。该矩阵用于校准每个张量的量化,可能在保持存储效率的同时提高精度。IQ2_M


奔放的炒粉
1 声望1 粉丝