1. 下载大模型

登录Hugging Face, 搜索 qwen ,下载其中带有后缀 GGUF 的大模型。

我们下载 q4 的版本,q4 表示量化位4-bit 的模型文件

image.png

image.png

2. 准备 Modelfile

modelfile 是 ollama 描述模型的文件,创建一个名为 Modelfile 的文件。

FROM ./qwen2-7b-instruct-q4_0.gguf

TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""

PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"

也可以从本地的 ollama 模型中导出 Modelfile :

ollama list
ollama show --modelfile qwen2

3. 导入离线大模型

将 Modelfile 和 gguf 文件一起拷贝到离线环境中,然后执行 ollama 命令导入:

ollama create qwen-7b-q4 -f Modelfile

行愚
13 声望2 粉丝