LLM 大模型学习必知必会系列(十三):基于SWIFT的VLLM推理加速与部署实战
2024-05-31
阅读 18 分钟
704LLM 大模型学习必知必会系列(十三):基于SWIFT的VLLM推理加速与部署实战1.环境准备GPU设备: A10, 3090, V100, A100均可. {代码...} 2.推理加速vllm不支持bnb量化的模型. vllm支持的模型可以查看支持的模型.2.1 qwen-7b-chat {代码...} 2.2 流式输出 {代码...} 2.3 chatglm3 {代码...} 2.4 使用CLI {代码...} 2.5 微调后...