1. 下载大模型
登录Hugging Face, 搜索 qwen
,下载其中带有后缀 GGUF
的大模型。
我们下载 q4 的版本,q4 表示量化位4-bit 的模型文件
2. 准备 Modelfile
modelfile 是 ollama 描述模型的文件,创建一个名为 Modelfile 的文件。
FROM ./qwen2-7b-instruct-q4_0.gguf
TEMPLATE """{{ if .System }}<|im_start|>system
{{ .System }}<|im_end|>{{ end }}<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
PARAMETER stop "<|im_start|>"
PARAMETER stop "<|im_end|>"
也可以从本地的 ollama 模型中导出 Modelfile :
ollama list
ollama show --modelfile qwen2
3. 导入离线大模型
将 Modelfile 和 gguf 文件一起拷贝到离线环境中,然后执行 ollama 命令导入:
ollama create qwen-7b-q4 -f Modelfile
**粗体** _斜体_ [链接](http://example.com) `代码` - 列表 > 引用
。你还可以使用@
来通知其他用户。