利用Stable Diffusion、JOY Caption Two和LORA提升您的图像生成技艺
解锁由AI驱动的图像生成技术,借助Stable Diffusion、JOY Caption Two和FLUX。探索如何从参考图像逆向工程提示,并创造出令人惊叹的新视觉效果。了解更多信息,立即开始创作吧!
- 显存
- 低显存(≤8GB)
- 阅读时间
- 7 分钟
工作流概览
解锁由AI驱动的图像生成技术,借助Stable Diffusion、JOY Caption Two和FLUX。探索如何从参考图像逆向工程提示,并创造出令人惊叹的新视觉效果。了解更多信息,立即开始创作吧!
内容类型: Workflow
主要用途: Download
所需模型
- Flux
- Lora
- Sd
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:低显存(≤8GB)。
📝 工作流概述(Workflow Overview)
.png)
本工作流的主要作用是 基于参考图进行反推提示词,并使用 Stable Diffusion 生成新图。它结合了 JOY Caption Two 反推提示词 和 FLUX 及 LORA 模型的增强,最终生成高质量的图像,并对比输入图和生成图的效果。
🧠 核心模型(Core Models)
1️⃣ UNet(Stable Diffusion)
作用:图像生成的主要神经网络,负责去噪并生成最终图像。
使用的模型:
基础算法_F.1安装方式:
通过 ComfyUI Manager 安装 SD 相关模型。
或者手动下载
.safetensors文件放入models/checkpoints。
2️⃣ VAE(变分自编码器)
作用:用于提升图像的质量,特别是细节和色彩部分。
使用的模型:
ae.sft安装方式:
通过 ComfyUI Manager 安装 VAE 模型。
或者手动下载
.vae.pt文件放入models/vae。
3️⃣ CLIP(文本编码器)
作用:将文本提示词转换为可用于图像生成的向量。
使用的模型:
t5xxl_fp8_e4m3fn安装方式:
通过 ComfyUI Manager 下载 CLIP 模型。
或者手动下载
.pt文件放入models/clip。
4️⃣ JOY Caption Two(提示词反推)
作用:对输入图像进行描述,反推出适用于生成的新提示词。
使用的模型:
unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit安装方式:
需要额外下载 JOY Caption Two 插件,并安装 Llama 3.1 模型。
5️⃣ LORA(风格增强)
作用:用于增强特定风格,如 中国新年主题 或 花样美蛇。
使用的模型:
J_3D图标素材2_中国新年_V_Flux趣味-F.1- | 花样美蛇_V1
安装方式:
通过 ComfyUI Manager 下载 LORA 模型。
或者手动放入
models/lora文件夹。
📦 关键组件(Nodes)
节点 | 作用 |
|---|---|
| 加载 UNet 模型 |
| 加载 VAE 变分自编码器 |
| 加载 CLIP 语言模型 |
| 加载 LORA 风格模型 |
| 加载参考图 |
| 调整图像尺寸 |
| 加载 JOY Caption Two 反推模型 |
| 对输入图像生成描述文本 |
| 显示反推的提示词 |
| 将提示词转换为向量 |
| 负责采样和生成图像 |
| 将输入图转换为潜空间 |
| 将潜空间转换为最终图像 |
| 保存最终输出的图像 |
| 用于对比输入图和生成图 |
📂 主要分组(Workflow Groups)
1️⃣ JOY Caption Two - 提示词反推
作用:使用 JOY Caption Two 反推出适用于输入图像的描述性提示词。
关键组件:
Joy_caption_two_loadJoy_caption_twoShowText
输入:图像
输出:描述性文本(用于 Stable Diffusion)
2️⃣ 基础模型加载
作用:加载 UNet、VAE、CLIP 基础模型。
关键组件:
UNETLoaderVAELoaderDualCLIPLoader
3️⃣ 参考图输入
作用:加载用户提供的参考图像并调整大小。
关键组件:
LoadImageImageResizeKJ
4️⃣ LORA 模型选择
作用:选择 LORA 进行风格增强。
关键组件:
LoraLoaderModelOnly
5️⃣ 提示词反推结果输入
作用:将 JOY Caption Two 生成的文本输入 CLIP 进行编码,供 Stable Diffusion 生成使用。
关键组件:
CLIPTextEncodeConditioningZeroOut
6️⃣ 图像输出
作用:通过 UNet 和 VAE 生成最终图像并保存。
关键组件:
KSamplerVAEDecodeSaveImage
7️⃣ 图像对比
作用:将原始图像与生成图像进行对比。
关键组件:
Image Comparer (rgthree)
🔢 输入 & 输出
📥 主要输入参数
参考图像(用于反推提示词)
LORA 选择(增强特定风格)
采样参数:
种子值(随机性控制)采样方法(Euler、DPM++等)采样步数(默认 25 步)
文本提示词(通过 JOY Caption Two 生成)
📤 主要输出
最终生成的高质量图像
反推的描述性文本
对比输入图像和生成图像的结果
⚠️ 使用注意事项
计算资源需求
需要 至少 8GB GPU(推荐 12GB 以上)。
JOY Caption Two 可能占用较大显存,建议使用 4-bit 量化模型。
LORA 模型兼容性
不同 LORA 可能会影响生成结果,建议尝试不同组合以获得最佳效果。
提示词优化
反推的提示词可能需要手动调整,以获得更符合预期的结果。
采样参数
采样步数过低可能导致细节缺失,建议 25~50 步。
Euler 采样器较快,DPM++ 可能提供更高质量。
总结
这个 ComfyUI 工作流通过 JOY Caption Two 反推提示词,结合 LORA 风格模型 和 Stable Diffusion 进行高质量图像生成,并提供图像对比功能。适合 图像编辑、风格化设计 以及 AI 生成艺术。