来源:互联网 更新时间:2026-06-09 07:24
这篇文章主要记录在 Windows 11 本地环境下,利用 Ollama 部署 Qwen2.5 大模型,并实现 API 调用的完整过程。
通过这个安装和部署过程,你将会了解并掌握以下内容:
Ollama 到底是干什么的、怎么装怎么用;Modelfile 的配置和作用;ModelScope 怎么帮我们搞定模型文件;Notebook 在云端体验大模型;好了,直接进入正题。
PowerShell (Win11 自带,不用额外装)Git (可选,用于下载)Python (仅用于 ModelScope CLI,如果只用浏览器下载可以不装)文件名通常长这样:qwen2.5-3b-instruct-q4_k_m.gguf。拆开看其实挺有意思。
instruct 表示这是经过指令微调的版本,适合对话;如果是 base 版本,则适合做续写或二次微调,直接聊天效果很差。
1)q + 数字:每个参数用多少 bit 存储。
q4 )2)k:代表使用了 K-quants 量化技术(一种更先进的压缩算法,比老式的 q4_0 聪明不少)。
3)m / s / l:代表 Small (小), Medium (中), Large (大)。
q4_k_s:更小一点,但稍微笨一点点。q4_k_m:q4_k_l:更大一点,更聪明一点点(显存占用也高)。FROMSYSTEM PARAMETER TEMPLATE ADAPTER PROJECTOR MESSAGE LICENSE
含义解释:
FROM: 指定基础模型(必选)。 SYSTEM : 设置系统提示词(定义角色人设)。 PARAMETER : 设置推理参数(如温度、上下文长度)。 TEMPLATE : 定义对话模板格式。 ADAPTER : 加载 LoRA 适配器文件(用于微调模型)。 PROJECTOR : 加载多模态投影器(用于让模型看懂图片)。 MESSAGE : 预设对话示例(Few-shot prompting)。 LICENSE : 声明模型的许可证信息。
日常最常用的配置其实就那么几行:
FROM llama3 # 1. 选基座 SYSTEM "你是个诗人" # 2. 定人设 PARAMETER temperature 0.8 # 3. 调参数
虽然这篇文章主要讲本地部署,但如果你本地资源不够(比如显存吃紧),可以用 ModelScope Notebook 在云端免费体验大模型,完全不用操心硬件。
ModelScope Notebook 是一款云端机器学习开发 IDE 工具,提供交互式编程环境,内置了限时免费的算力额度,可以直接在浏览器里跑模型,对新手很友好。
Ollama 是一个开源的、专为本地运行大型语言模型(LLM)设计的工具平台,可以理解为“大模型的 Docker”。

官网下载后安装,装完在终端验证一下:
# 查看版本号 ollama -v ollama version is 0.17.7
通过 Ollama 拉取模型,连 Modelfile 都不用自己写,方便省事。
# 下载并运行模型 ollama run qwen2.5:3b


1)从 ModelScope 下载 gguf 文件

通过 modelscope 直接在浏览器下载模型。这里用 Qwen2.5-3B-Instruct-GGUF 来演示(实际部署用的也是它)。

进入模型文件页,找到类似 qwen2.5-3b-instruct-q4_k_m.gguf 的文件,下载即可。
2)编写 Modelfile 文件
Modelfile 是 Ollama 用来实现大模型推理的自定义参数文件,类似于 Dockerfile。如果只是简单对话,Ollama 官方库里的默认模板通常已经适配好了 Qwen 系列,手动指定 TEMPLATE 只在需要特殊对话格式或微调时才必要。具体可以见文末【4.3、Modelfile 的基本结构及含义】
新建文件,命名为 Modelfile,内容如下:
FROM "G:AIModelfilesqwen2.5-3bqwen2.5-3b-instruct-q4_k_m.gguf"
TEMPLATE """{{- if .Messages }}
{{- range $i, $_ := .Messages }}
{{- $last := eq (len (slice $.Messages $i)) 1 }}
{{- if eq .Role "user" }}<|im_start|>user
{{ .Content }}<|im_end|>
{{ else if eq .Role "assistant" }}<|im_start|>assistant
{{ .Content }}<|im_end|>
{{ else if eq .Role "system" }}<|im_start|>system
{{ .Content }}<|im_end|>
{{ end }}
{{- if $last }}<|im_start|>assistant
{{ end }}
{{- end }}
{{- else }}
{{- if .System }}<|im_start|>system
{{ .System }}<|im_end|>
{{ end }}{{ if .Prompt }}<|im_start|>user
{{ .Prompt }}<|im_end|>
{{ end }}<|im_start|>assistant
{{ end }}"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
LICENSE """https://huggingface.co/Qwen/Qwen2.5-3B-Instruct/blob/main/LICENSE"""
最简单的版本(自问自答几乎没法用,只有 FROM 一行):
FROM "F:Downloadsqwen2.5-3b-instruct-q4_k_m.gguf"
3)创建模型
打开 Powershell,进入 Modelfile 所在的路径,执行以下命令:
# 把 GGUF 文件打包成 Ollama 模型 ollama create qwen2.5:3b -f Modelfile # 或者用绝对路径 ollama create qwen2.5:3b -f G:AIModelfilesqwen2.5-3bModelfile

4)运行模型
Ollama
ollama run qwen2.5:3b

查看大模型运行状态:
SIZE: 占用内存大小PROCESSOR: 100% CPU 表示模型完全在 CPU 上运行,没有用到显卡加速(因为我的 GTX1050Ti 显存只有4GB,带不动)CONTEXT:上下文窗口大小,即当前会话保留的“记忆”长度(Token 数量)。这个数字越大,占用的内存也越大。UNTIL (自动卸载倒计时):如果接下来没有人使用这个模型,Ollama 会在 2 分钟后自动把它从内存中卸载,释放资源。
5)示例:Qwen2.5-7B 的配置
文件名:qwen2.5-7b-instruct-q4_k_m.gguf
FROM ./qwen2.5-7b-instruct-q4_k_m.gguf
TEMPLATE """{{- if .System }}
<|im_start|>system
{{ .System }}<|im_end|>
{{- end }}
<|im_start|>user
{{ .Prompt }}<|im_end|>
<|im_start|>assistant
"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
SYSTEM "你是一个有帮助的AI助手。"
# 运行命令查看端口 ollama serve # 返回信息:Error: listen tcp 127.0.0.1:11434: bind: Only one usage of each socket address (protocol/network address/port) is normally permitted.
默认情况下,Ollama 只接受本机连接,拒绝局域网 IP(比如 192.168.x.x)。如果想让局域网其他设备也能访问,需要配置一下环境变量。Windows 环境下按照下图操作即可。

# Windows Powershell
curl http://192.168.2.111:11434/api/generate -d "{"model": "qwen2.5:3b", "prompt": "hello"}"
curl http://192.168.31.87:11434/api/tags
Start-Process ollama -ArgumentList "run","qwen2.5:3b" -WindowStyle Hidden
这样模型就会在后台默默运行,不会弹出烦人的窗口。
Ollama 相关命令,记牢这些就够了:
# 查看帮助 ollama -h # 查看本地已下载的模型 ollama list # 下载并运行模型(交互模式) ollama run qwen2.5:3b # 单次问答(非交互) ollama run qwen2.5:3b "你好,请介绍一下你自己" # 删除模型 ollama rm <模型名> # 启动后台服务 ollama serve # 查看模型详情 ollama show <模型名> # 查看正在运行的模型 ollama ps # 停止指定模型 ollama stop qwen2.5:3b
# 安装python(先确认已有) python -V Python 3.11.9 # 安装魔搭库 pip install modelscope # 下载完整模型库(以Qwen2.5-3B-Instruct-GGUF为例) modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF # 下载单个文件到指定本地文件夹(以下载README.md到当前路径下“dir”目录为例) modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF README.md --local_dir ./dir
以上就是Windows11下Ollama部署Qwen2.5大模型的实战指南的全部内容,如果对你有帮助,欢迎在实际操作中遇到问题多交流探讨。
下饭影视APP下载安装指南
灵宝派对手游下载安装地址推荐
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
下载浏览器app下载安装选择推荐
《Off Campus》第二季官宣:这对CP还在,但不再是主角
4D采矿者官网在哪下载 最新官方下载安装地址
免费影视剧APP推荐
儿子穿新中式现身大会堂 马斯克罕见用中文回应:他正在学习普通话
Elysium Above 履云录官网在哪下载 最新官方下载安装地址
名单曝光!库克、马斯克等将随团到访中国 黄仁勋不在其中
抖音最火沙雕男生网名(精选100个)
短剧《情绪超市》剧情介绍
短视频软件推荐
免费看电影的软件推荐
苹果macOS 27将优化界面设计并测试AI驱动的Safari标签页自动分组功能
网络热词聊污是什么意思
网石18禁MMO《RAVEN2:渡鸦》大型更新推出全新职业“军阀”
KuCoin基本面分析
洛克王国世界S2赛季狂欢怪谈介绍
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc