本地部署QwQ-32B
3月6日,阿里巴巴推出并开放源代码的全新推理模型通义千问QwQ-32B,据阿里官方发布信息显示,其在数学运算、编程开发与多领域应用的综合表现接近DeepSeek-R1水平,同时通过技术优化显著降低运行门槛,可实现普通显卡设备的本地化运行。
32B的模型RAM至少要32G,可以配置虚拟内存。
搜索qwq-32b-gguf,或者访问huggingface.co(可能要开机场),下载gguf模型。
打开官网查看显卡显卡计算力及是否支持FP16和INT8。Support Matrix — NVIDIA TensorRT Documentation
或者参考博文NVIDIA英伟达所有GPU显卡算力及其支持的精度模式_英伟达显卡cuda算力。
基本上下载QwQ-32B-Preview-Q6_K_L.gguf就可以了。
下载慢的可以用链接下载。
Ollama 加载GGUF模型文件
使用 Ollama 加载指定的模型文件运行也非常容易。
1、创建模型配置文件
创建一个包含以下内容的模型配置文件,比如: 这个文件名qwq.mf,文件内容如下:
FROM ./QwQ-32B-Preview-Q6_K_L.gguf
这里的FROM参数用于指定需要加载的具体模型文件。
2、构建对应的Ollama模型
我们使用以下命令构建 Ollama 模型:ollama create qwq32 -f ./qwq.mf
其中 qwq32 是我们准备在Ollama中使用该模型的别名。
3、使用这个模型
现在我们就可以使用了,我们可以发挥自己的想象:
4060TI 8G。用哪个版本?
试试32b-q4_K_M