本地部署QwQ-32B

作者： Jam 发布时间： March 6, 2025 分类：技术 2 Comments

3月6日，阿里巴巴推出并开放源代码的全新推理模型通义千问QwQ-32B，据阿里官方发布信息显示，其在数学运算、编程开发与多领域应用的综合表现接近DeepSeek-R1水平，同时通过技术优化显著降低运行门槛，可实现普通显卡设备的本地化运行。

32B的模型RAM至少要32G，可以配置虚拟内存。

搜索qwq-32b-gguf，或者访问huggingface.co（可能要开机场），下载gguf模型。

打开官网查看显卡显卡计算力及是否支持FP16和INT8。Support Matrix — NVIDIA TensorRT Documentation

基本上下载QwQ-32B-Preview-Q6_K_L.gguf就可以了。

下载慢的可以用链接下载。

Ollama 加载GGUF模型文件

使用 Ollama 加载指定的模型文件运行也非常容易。

1、创建模型配置文件

创建一个包含以下内容的模型配置文件，比如: 这个文件名qwq.mf，文件内容如下：

FROM ./QwQ-32B-Preview-Q6_K_L.gguf

这里的FROM参数用于指定需要加载的具体模型文件。

2、构建对应的Ollama模型

我们使用以下命令构建 Ollama 模型：ollama create qwq32 -f ./qwq.mf

其中 qwq32 是我们准备在Ollama中使用该模型的别名。

3、使用这个模型

现在我们就可以使用了，我们可以发挥自己的想象：

Jam's Blog II