来源:互联网 更新时间:2026-06-08 07:14
通过这次部署,你会清楚:
- Ollama 是干什么的,怎么装怎么用;
- Modelfile 长什么样,怎么配置;
- ModelScope 扮演什么角色;
- Notebook 在什么场景下派上用场;
- 这些工具怎么组合,部署成功后怎么通过API调用。
PowerShell(Win11自带的就够)
- Git(可选,用来下载东西)
- Python(只有在用ModelScope CLI时才需要,如果只用浏览器下载,可以不装)
qwen2.5-3b-instruct-q4_k_m.gguf 到底在说什么?qwen2.5-3b-instruct-q4_k_m.gguf。
instruct 表示这个模型经过了指令微调,适合对话场景;如果是 base 版本,那更适合做续写或者二次微调,直接拿来对话效果不太好。
1)q + 数字:代表每个参数用了多少 bit 来存储。
- 数字越小 = 文件越小 = 速度越快 = 自然会笨一点点;
- 数字越大 = 文件越大 = 速度越慢 = 理论上更聪明;
- 业界共识:4-bit(q4)是性价比最高的选择,智商损失微乎其微,体积却能直接砍半。
2)k:用了 K-quants 量化技术,比老式的 q4_0 更聪明,压缩效率更高。
3)m/s/l:分别代表 Small(小)、Medium(中)、Large(大)。
- q4_k_s:更小一点,稍微笨一点点;
- q4_k_m:标准版,平衡最好,首选;
- q4_k_l:更大一点,稍微聪明一点点,但对显存的要求也上去了。
FROM
SYSTEM
PARAMETER
TEMPLATE
ADAPTER
PROJECTOR
MESSAGE
LICENSE
逐条解释一下:
- FROM :指定基础模型,这个是必选项。
- SYSTEM :设置系统提示词,相当于给模型设定一个人设。
- PARAMETER :设置推理参数,比如温度、上下文长度。
- TEMPLATE :定义对话模板格式,告诉模型怎么理解你发的消息。
- ADAPTER :加载 LoRA 适配器文件,用于微调过的模型。
- PROJECTOR :加载多模态投影器,让模型能看懂图片。
- MESSAGE :预设对话示例,可以做 Few-shot prompting。
- LICENSE :声明模型的许可证信息。
实际用的时候,通常只需要这三行就够:
FROM llama3
SYSTEM "你是个诗人"
PARAMETER temperature 0.8
ollama -v
ollama version is 0.17.7
ollama run qwen2.5:3b
下载、加载、运行一条龙,适合快速体验。
qwen2.5-3b-instruct-q4_k_m.gguf 的文件即可。
Modelfile,内容如下(注意路径要写你电脑上的实际位置):
FROM "G:AIModelfilesqwen2.5-3bqwen2.5-3b-instruct-q4_k_m.gguf"
TEMPLATE """{{- if .Messages }}{{- range $i, $_ := .Messages }}{{- $last := eq (len (slice $.Messages $i)) 1 }}{{- if eq .Role "user" }}<|im_start|>user{{ .Content }}<|im_end|>{{ else if eq .Role "assistant" }}<|im_start|>assistant{{ .Content }}<|im_end|>{{ else if eq .Role "system" }}<|im_start|>system{{ .Content }}<|im_end|>{{ end }}{{- if $last }}<|im_start|>assistant{{ end }}{{- end }}{{- else }}{{- if .System }}<|im_start|>system{{ .System }}<|im_end|>{{ end }}{{ if .Prompt }}<|im_start|>user{{ .Prompt }}<|im_end|>{{ end }}<|im_start|>assistant{{ end }}"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
PARAMETER repeat_penalty 1.05
LICENSE """https://huggingface.co/Qwen/Qwen2.5-3B-Instruct/blob/main/LICENSE"""
如果只是想快速测试,最简单的版本只需要一行:
FROM "F:Downloadsqwen2.5-3b-instruct-q4_k_m.gguf"
不过这种极简配置,自问自答几乎没法用,所以还是建议配完整一些。
ollama create qwen2.5:3b -f Modelfile
或者用绝对路径:
ollama create qwen2.5:3b -f G:AIModelfilesqwen2.5-3bModelfile
ollama run qwen2.5:3b
运行后可以查看大模型的状态参数:
- SIZE:占用内存大小;
- PROCESSOR:如果显示 100% CPU,说明模型完全跑在中央处理器上,没有启用显卡加速(我的显卡只有4GB显存,确实带不动);
- CONTEXT:当前会话保留的“记忆”长度(Token 数量),数字越大占用的内存也越多;
- UNTIL:自动卸载倒计时,如果没人使用,Ollama 会在2分钟后自动把模型从内存中卸掉,释放资源。
FROM ./qwen2.5-7b-instruct-q4_k_m.gguf
TEMPLATE """{{- if .System }}<|im_start|>system{{ .System }}<|im_end|>{{- end }}<|im_start|>user{{ .Prompt }}<|im_end|><|im_start|>assistant"""
PARAMETER stop <|im_end|>
PARAMETER stop <|im_start|>
PARAMETER temperature 0.7
PARAMETER top_p 0.8
PARAMETER top_k 20
SYSTEM "你是一个有帮助的AI助手。"
ollama serve
默认 Ollama 只允许本机连接,如果需要局域网内的其他设备访问,需要做一些配置。Windows 环境下,按提示修改环境变量或防火墙设置即可。
curl http://192.168.2.111:11434/api/generate -d "{"model": "qwen2.5:3b", "prompt": "hello"}"
curl http://192.168.31.87:11434/api/tags
注意替换成你自己的局域网 IP。
Start-Process ollama -ArgumentList "run","qwen2.5:3b" -WindowStyle Hidden
这样就安静地跑在后台,不碍眼。
# 查看帮助
ollama -h
# 查看本地已下载的模型
ollama list
# 下载并运行模型
ollama run qwen2.5:3b
# 单次问答
ollama run qwen2.5:3b "你好,请介绍一下你自己"
# 删除模型
ollama rm <模型名>
# 启动后台服务
ollama serve
# 查看模型详情
ollama show <模型名>
# 查看正在运行的模型
ollama ps
# 停止模型
ollama stop qwen2.5:3b
# 安装 Python
python -V
Python 3.11.9
# 安装魔搭
pip install modelscope
# 下载完整模型库
modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF
# 下载单个文件到指定本地文件夹(以下载 README.md 到当前路径下的 dir 目录为例)
modelscope download --model Qwen/Qwen2.5-3B-Instruct-GGUF README.md --local_dir ./dir 《Off Campus》第二季官宣:这对CP还在,但不再是主角
币安Binance虚拟货币交易平台 币安官方APP安卓苹果下载入口
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
帅气继父网名女生可爱英文(精选100个)
折后价近千元 澳洲一店主将真老鼠缝到内裤上当时尚单品卖
帅到极致的网名女生霸气(精选100个)
如何在夸克浏览器中开启网页视频的倍速播放功能?
蒙古上单是什么梗
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
作家助手如何上传自制封面 作家助手如何设置小说的封面
archiveofourown 实战指南:常见用法整理
韦一敏是什么梗
韩漫小少爷网名大全女生(精选100个)
网络热词聊污是什么意思
抖音最火沙雕男生网名(精选100个)
有寓意的易经网名男生(精选100个)
欧易OKX官方网站直达入口 2026欧易官方App安卓版v7.1.0下载安装
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
小众游戏抖音网名男生(精选100个)
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc