您的位置：首页 > > 教程攻略 > ai教程 >Windows11下Ollama部署Qwen2.5大模型的实战指南

Windows11下Ollama部署Qwen2.5大模型的实战指南

来源:互联网 更新时间:2026-06-09 07:24

0、前言

这篇文章主要记录在 Windows 11 本地环境下，利用 Ollama 部署 Qwen2.5 大模型，并实现 API 调用的完整过程。

不需要显卡也能跑

，而且能确保

隐私安全

——毕竟数据全在自己手里。

通过这个安装和部署过程，你将会了解并掌握以下内容：

Ollama 到底是干什么的、怎么装怎么用；
Modelfile 的配置和作用；
ModelScope 怎么帮我们搞定模型文件；
Notebook 在云端体验大模型；
上面这些工具怎么组合在一起，实现本地大模型部署，以及部署成功后如何通过 API 访问。

好了，直接进入正题。

1、环境与准备

Win11
：Windows 11 专业版25H2
CPU
：Intel(R) Core(TM) i7-8750H CPU @ 2.20GHz (2.21 GHz)
内存
：16.0 GB
显卡
：GTX1050Ti（说实话有点鸡肋，整个实践过程中基本没用到）
Ollama
： 0.17.7
大模型
：
- qwen2.5-3b-instruct-q4_k_m
- qwen2.5-7b-instruct-q4_k_m

前置依赖检查

PowerShell (Win11 自带，不用额外装)
Git (可选，用于下载)
Python (仅用于 ModelScope CLI，如果只用浏览器下载可以不装)

2、核心概念速览

2.1、模型文件名 qwen2.5-3b-instruct-q4_k_m.gguf 的含义？

文件名通常长这样：qwen2.5-3b-instruct-q4_k_m.gguf。拆开看其实挺有意思。

instruct 表示这是经过指令微调的版本，适合对话；如果是 base 版本，则适合做续写或二次微调，直接聊天效果很差。

1）q + 数字：每个参数用多少 bit 存储。

数字越小 = 文件越小 = 速度越快 = 稍微变笨一点。
数字越大 = 文件越大 = 速度越慢 = 越聪明。
黄金标准
：目前业界公认
4-bit ( q4 )
是性价比最高的，智商损失几乎可以忽略，但体积减半。

2）k：代表使用了 K-quants 量化技术（一种更先进的压缩算法，比老式的 q4_0 聪明不少）。

3）m / s / l：代表 Small (小), Medium (中), Large (大)。

q4_k_s：更小一点，但稍微笨一点点。
q4_k_m：
标准版
，平衡最好，
首选推荐
。
q4_k_l：更大一点，更聪明一点点（显存占用也高）。

2.2、Modelfile 的基本结构及含义

FROM 
SYSTEM 
PARAMETER  
TEMPLATE

Windows11下Ollama部署Qwen2.5大模型的实战指南

0、前言

不需要显卡也能跑

隐私安全

1、环境与准备

Win11

CPU

内存

显卡

Ollama

大模型

前置依赖检查

2、核心概念速览

2.1、模型文件名 qwen2.5-3b-instruct-q4_k_m.gguf 的含义？

黄金标准

4-bit ( q4 )

标准版

首选推荐

2.2、Modelfile 的基本结构及含义

2.3、Notebook 是什么

2.4、运行大模型的通俗理解

把运行大模型想象成“搬家”

家具的打包压缩程度

运输工具的选择

这次要搬多少东西（记忆量）

3、实战部署：安装与运行

3.1、安装 Ollama

3.2、方式一：一键拉取（官方推荐），Ollama 界面/命令行拉取

3.3、方式二：自定义导入 (进阶)，下载 gguf 文件自行配置

默认会自动检测并使用GPU

4、通过API访问大模型

4.1、启动服务

4.2、Powershell 中测试接口

4.3、后台方式运行技巧

5、常用命令速查表

6、附录与参考资料

ModelScope Pip 安装详解

热门资讯

热门手游

相关攻略

热门专题

4-bit ( `q4` )