本地部署QwQ-32B

3月6日,阿里巴巴推出并开放源代码的全新推理模型通义千问QwQ-32B,据阿里官方发布信息显示,其在数学运算、编程开发与多领域应用的综合表现接近DeepSeek-R1水平,同时通过技术优化显著降低运行门槛,可实现普通显卡设备的本地化运行。


32B的模型RAM至少要32G,可以配置虚拟内存。


搜索qwq-32b-gguf,或者访问huggingface.co(可能要开机场),下载gguf模型。


打开官网查看显卡显卡计算力及是否支持FP16和INT8。Support Matrix — NVIDIA TensorRT Documentation


或者参考博文NVIDIA英伟达所有GPU显卡算力及其支持的精度模式_英伟达显卡cuda算力


基本上下载QwQ-32B-Preview-Q6_K_L.gguf就可以了。


下载慢的可以用链接下载。


Ollama 加载GGUF模型文件

使用 Ollama 加载指定的模型文件运行也非常容易。


1、创建模型配置文件

创建一个包含以下内容的模型配置文件,比如: 这个文件名qwq.mf,文件内容如下:


FROM ./QwQ-32B-Preview-Q6_K_L.gguf


这里的FROM参数用于指定需要加载的具体模型文件。


2、构建对应的Ollama模型

我们使用以下命令构建 Ollama 模型:ollama create qwq32 -f ./qwq.mf


其中 qwq32 是我们准备在Ollama中使用该模型的别名。


3、使用这个模型

现在我们就可以使用了,我们可以发挥自己的想象:




标签: QwQ-32B, 阿里

已有 2 条评论 »

  1. 阿奔 阿奔

    4060TI 8G。用哪个版本?

添加新评论 »