一、基础概念
1. 什么是 Stable Diffusion?
- 一种基于深度学习的 文本到图像生成模型,能够根据文字描述(Prompt)生成对应图像。
- 开源免费,支持本地部署或在线使用,对硬件要求中等(建议NVIDIA显卡,显存≥4GB)。
2. 核心原理
- 扩散模型(Diffusion Model):通过逐步添加噪声破坏图像,再反向去噪生成新图像。
- 潜在空间(Latent Space):在高维压缩空间中生成图像,降低计算成本。
二、环境配置
1. 本地部署(推荐)
步骤1:安装依赖
- Python 3.10+:确保环境变量已配置。
- Git:用于克隆代码仓库。
- CUDA 驱动(NVIDIA显卡必需):建议版本 ≥11.3。
步骤2:安装 Stable Diffusion WebU
推荐使用 AUTOMATIC1111 的 WebUI(可视化界面友好):
步骤3:下载模型
- 主流模型:
Stable Diffusion 1.5,SDXL,PONY,SDIL等。 - 下载地址:
- Hugging Face
- Civitai(社区模型)
- 将模型文件(
.ckpt或.safetensors)放入models/Stable-diffusion目录。
三、基础使用
1. 生成第一张图像
- 启动 WebUI:运行
webui.sh或webui-user.bat,浏览器打开http://localhost:7860。 - 输入提示词(Prompt):
- 正向提示词:描述想要的内容,例如
a cute cat, realistic, 4k, detailed fur。 - 反向提示词(Negative Prompt):排除不想要的元素,例如
blurry, low quality。
- 调整参数:
- 采样器(Sampler):推荐
Euler a或DPM++ 2M Karras(速度快且质量高)。 - 迭代步数(Steps):20~30步(步数越高细节越多,但耗时增加)。
- 图像尺寸:512×512 或 768×768(显存不足时需降低分辨率)。
- 点击 Generate 生成图像。
2. 常用参数解析
| 参数 | 说明 |
|---|---|
| CFG Scale | 控制生成结果与提示词的贴合度(7~12效果较佳) |
| Seed | 随机种子,固定种子可复现相同结果 |
| Batch Count | 一次性生成多张图像 |
四、进阶技巧
1. 提升图像质量
- 使用高质量模型:如
Realistic Vision、DreamShaper。 - 添加风格关键词:例如
cinematic lighting, unreal engine 5, trending on artstation。 - LoRA/LyCORIS 模型:微调特定风格或角色(需下载后放入
models/Lora目录)。
2. 图像修复与扩展
- Inpainting:涂抹局部区域重新生成。
- Outpainting:扩展画布边缘(需安装插件如
sd-webui-infinite-image-browsing)。
3. 使用 ControlNet
- 精准控制构图:通过边缘检测、深度图或姿势图约束生成结果。
- 安装方法:
- 在 WebUI 的
Extensions标签页安装 ControlNet 插件。 - 下载 ControlNet 预处理器模型至
models/ControlNet。
五、资源推荐
1. 学习资料
- 官方文档:Stable Diffusion GitHub
- 提示词工具:PromptHero(搜索优质提示词)
- 在线生成:Stable Diffusion Online(免安装)
2. 社区支持
- Discord:加入官方或第三方社群(如
Stable Diffusion Official)。 - Reddit:订阅 r/StableDiffusion 获取最新动态。
六、常见问题
Q1:显存不足怎么办?
- 降低图像分辨率或使用
--medvram参数启动 WebUI。 - 启用
xformers加速(安装命令:pip install xformers)。
Q2:生成的图像不理想?
- 优化提示词(参考 Danbooru Tags 细化描述)。
- 调整 CFG Scale 或更换采样器。
留下评论