来源:互联网 更新时间:2026-06-11 13:05
说到AI绘画,
这个项目脱胎于论文 High-Resolution Image Synthesis with Latent Diffusion Models,训练数据来自海量公开图文数据集。和传统的扩散模型相比,它最大的改进就是把图像运算搬到了隐空间里,算力消耗大幅降低。自开源以来,衍生出的插件、UI客户端、二次开发项目数不胜数,如今已经成为AI绘画领域的
Stable Diffusion 的核心逻辑其实不复杂,分两大步:
关键的区别在于,它不是直接在像素级别上做运算——那太吃算力了。Stable Diffusion 通过
项目源码里包含了完整的训练代码、推理代码、预训练模型权重、示例脚本,开发者可以二次开发、微调模型、拓展功能;普通用户也有纯可视化的方案,兼顾了
Stable Diffusion 原生集成了多项图像生成和编辑能力,加上开源生态的加持,功能列表相当亮眼:
Stable Diffusion 的架构很清晰,三个核心模块串联完成图文转图像的任务:
| 运行场景 | 最低显存 | 推荐显存 | 系统环境 | 补充说明 |
|---|---|---|---|---|
| 基础推理(512×512) | 4GB(启用显存优化) | 8GB+ | Windows/Linux | 仅文生图、图生图基础功能 |
| 正常全功能使用 | 8GB | 10GB~12GB | Windows/Linux | 支持 Inpainting、多插件 |
| 模型训练/微调 | 12GB | 16GB+ | Linux 优先 | 训练 LoRA、全模型微调 |
项目仓库代码用 Python 写,依赖 PyTorch、Transformers、Diffusers 等主流 AI 库,核心目录分工很明确:
stable-diffusion/ ├── configs/ # 模型配置文件、参数配置 ├── models/ # UNet、VAE、CLIP 等核心网络代码 ├── scripts/ # 推理、训练、图生图、修复等执行脚本 ├── utils/ # 工具函数、数据处理、显存优化 └── main.py # 项目主入口文件

Stable Diffusion 开源、灵活、成本低,覆盖了
Stable Diffusion 的使用方式分两种:
.ckpt/.safetensors 格式)git clone https://github.com/CompVis/stable-diffusion.git cd stable-diffusion
pip install -r requirements.txt
python scripts/txt2img.py --prompt "a beautiful landscape"
执行完,生成的图像会自动保存到项目输出文件夹里。
原生命令行对普通用户不太友好,好在市面上有很多基于该项目衍生的可视化 UI。以
来看看它在市面上到底处于什么位置。选取当下最主流的三款文生图模型——Stable Diffusion、Midjourney、DALL·E 3,从开源性、部署方式、画质、使用成本、定制能力几个维度做个全面对比。
| 对比维度 | Stable Diffusion | Midjourney | DALL·E 3 |
|---|---|---|---|
开源属性 | 完全开源,代码、权重公开 | 闭源,不公开代码和权重 | 闭源,仅开放 API 调用 |
部署方式 | 本地部署、服务器部署、云端部署 | 仅在线使用(Discord/官网) | 在线调用、API 对接 |
硬件要求 | 消费级显卡就能本地跑 | 不需要本地显卡,纯云端运算 | 不需要本地显卡 |
使用成本 | 一次性部署,本地用免费 | 按月订阅付费 | 按调用次数计费/整合进订阅服务 |
自定义能力 | 极强,支持模型微调、LoRA、插件拓展、二次开发 | 弱,只能调提示词,不能自定义模型 | 较弱,只能调基础参数和提示词 |
画面风格 | 风格多样,全靠模型和插件,写实、二次元、艺术风全覆盖 | 艺术质感强,氛围感和光影表现顶尖 | 语义理解精准,贴合文字描述,写实风表现优秀 |
适用人群 | 开发者、设计师、深度创作用户、团队部署 | 普通创作者、艺术爱好者 | 普通用户、办公配图、轻量创作 |
A:可以开启显存优化模式,比如启用 xformers 加速、低显存模式、CPU 内存分流等配置;同时适当降低生成图像的分辨率和迭代步数,低配显卡也能正常运行基础功能。
A:原因主要有三个:一是 CFG 引导强度数值太低,文本约束力不够;二是提示词描述太模糊、语义混乱,模型没法精准理解;三是用的模型权重偏向特定风格,和描述内容不匹配。可以试试换权重或者优化提示词。
A:官方权重遵循 CreativeML OpenRAIL M 协议,在遵守协议规范、做好内容安全管控的前提下,支持个人和企业商业使用。二次训练的衍生模型需要同步遵循对应的开源协议。
A:纯创作、没代码基础的新手,优先选 AUTOMATIC1111 这类可视化 WebUI;如果想学模型原理、做二次开发、训练模型,那就从原生代码入手。
A:两者都是模型权重格式。.ckpt 是传统格式,存在安全风险;.safetensors 是安全格式,杜绝恶意代码嵌入。现在主流社区都推荐用 .safetensors 格式。
A:扩散模型生成过程自带随机噪声因子。在不固定随机种子(Seed)的情况下,每次初始噪声不同,最终图像自然也就不同。固定种子后,用相同参数就可以复现完全一样的图像。
Stable Diffusion 作为开源潜在扩散模型的标杆项目,靠隐空间运算这个核心技术突破,打破了高端 AI 绘画模型对超高算力的依赖和闭源收费的行业现状。普通用户和中小团队都能低成本拥有专业级的图像生成能力。项目代码模块化、拓展性强,本身就是一个优秀的文生图工具,更带动了一个庞大的上下游生态——可视化客户端、专属模型、插件、微调工具……各种衍生产品层出不穷。它同时照顾了普通创作者的使用需求和技术人员的开发需求,应用场景从艺术设计、内容生产到行业赋能、技术学习都有覆盖。直到今天,它依然是 AI 视觉生成领域最核心、使用最广泛的底层框架之一。
《Off Campus》第二季官宣:这对CP还在,但不再是主角
和平精英如何做到压枪稳-和平精英怎样才能压枪稳
客单价碾压宝马奥迪!极氪5月交付新车34377辆:连续4个月双增长
HBO 奇幻剧《龙之家族》第三季定档 6 月 22 日,最终预告片曝光喉道海战
DOTA2 TI时隔七年重返上海!门票6月10日开抢,国服享受优先购买!
网络热词聊污是什么意思
帅气继父网名女生可爱英文(精选100个)
抖音最火沙雕男生网名(精选100个)
蒙古上单是什么梗
韦一敏是什么梗
帅到极致的网名女生霸气(精选100个)
免费看电影的软件推荐
金铲铲之战s17六暗星卡莎阵容玩法构筑指南
SpaceX狂揽AI人才,马斯克亲自面试且不看简历背景
作家助手如何上传自制封面 作家助手如何设置小说的封面
阿里发布Qwen3.7-Max大模型,全球第五、国产第一
有寓意的易经网名男生(精选100个)
韩漫小少爷网名大全女生(精选100个)
因空难被判“过失杀人罪” 空客、法航均被顶格处罚22.5万欧元
美国市场:股票相对债券的风险溢价正在消失
手机号码测吉凶
本站所有软件,都由网友上传,如有侵犯你的版权,请发邮件haolingcc@hotmail.com 联系删除。 版权所有 Copyright@2012-2013 haoling.cc