利用Stable Diffusion、JOY Caption Two和LORA提升您的图像生成技艺

CN
ComfyUI.org
2025-03-17 08:59:45

解锁由AI驱动的图像生成技术,借助Stable Diffusion、JOY Caption Two和FLUX。探索如何从参考图像逆向工程提示,并创造出令人惊叹的新视觉效果。了解更多信息,立即开始创作吧!

显存
低显存(≤8GB)
阅读时间
7 分钟
查看所需模型

工作流概览

解锁由AI驱动的图像生成技术,借助Stable Diffusion、JOY Caption Two和FLUX。探索如何从参考图像逆向工程提示,并创造出令人惊叹的新视觉效果。了解更多信息,立即开始创作吧!

内容类型: Workflow

主要用途: Download

所需模型

  • Flux
  • Lora
  • Sd

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:低显存(≤8GB)。

📝 工作流概述(Workflow Overview)

m8cu4417aph1otfmu1l截屏2025-03-11 13.13.23 (1).png

本工作流的主要作用是 基于参考图进行反推提示词,并使用 Stable Diffusion 生成新图。它结合了 JOY Caption Two 反推提示词FLUX 及 LORA 模型的增强,最终生成高质量的图像,并对比输入图和生成图的效果。


🧠 核心模型(Core Models)

1️⃣ UNet(Stable Diffusion)

  • 作用:图像生成的主要神经网络,负责去噪并生成最终图像。

  • 使用的模型基础算法_F.1

  • 安装方式

    • 通过 ComfyUI Manager 安装 SD 相关模型。

    • 或者手动下载 .safetensors 文件放入 models/checkpoints

2️⃣ VAE(变分自编码器)

  • 作用:用于提升图像的质量,特别是细节和色彩部分。

  • 使用的模型ae.sft

  • 安装方式

    • 通过 ComfyUI Manager 安装 VAE 模型。

    • 或者手动下载 .vae.pt 文件放入 models/vae

3️⃣ CLIP(文本编码器)

  • 作用:将文本提示词转换为可用于图像生成的向量。

  • 使用的模型t5xxl_fp8_e4m3fn

  • 安装方式

    • 通过 ComfyUI Manager 下载 CLIP 模型。

    • 或者手动下载 .pt 文件放入 models/clip

4️⃣ JOY Caption Two(提示词反推)

  • 作用:对输入图像进行描述,反推出适用于生成的新提示词。

  • 使用的模型unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit

  • 安装方式

    • 需要额外下载 JOY Caption Two 插件,并安装 Llama 3.1 模型。

5️⃣ LORA(风格增强)

  • 作用:用于增强特定风格,如 中国新年主题花样美蛇

  • 使用的模型

    • J_3D图标素材2_中国新年_V_Flux

    • 趣味-F.1- | 花样美蛇_V1

  • 安装方式

    • 通过 ComfyUI Manager 下载 LORA 模型。

    • 或者手动放入 models/lora 文件夹。


📦 关键组件(Nodes)

节点

作用

UNETLoader

加载 UNet 模型

VAELoader

加载 VAE 变分自编码器

DualCLIPLoader

加载 CLIP 语言模型

LoraLoaderModelOnly

加载 LORA 风格模型

LoadImage

加载参考图

ImageResizeKJ

调整图像尺寸

Joy_caption_two_load

加载 JOY Caption Two 反推模型

Joy_caption_two

对输入图像生成描述文本

ShowText

显示反推的提示词

CLIPTextEncode

将提示词转换为向量

KSampler

负责采样和生成图像

VAEEncode

将输入图转换为潜空间

VAEDecode

将潜空间转换为最终图像

SaveImage

保存最终输出的图像

Image Comparer (rgthree)

用于对比输入图和生成图


📂 主要分组(Workflow Groups)

1️⃣ JOY Caption Two - 提示词反推

  • 作用:使用 JOY Caption Two 反推出适用于输入图像的描述性提示词。

  • 关键组件

    • Joy_caption_two_load

    • Joy_caption_two

    • ShowText

  • 输入:图像

  • 输出:描述性文本(用于 Stable Diffusion)

2️⃣ 基础模型加载

  • 作用:加载 UNet、VAE、CLIP 基础模型。

  • 关键组件

    • UNETLoader

    • VAELoader

    • DualCLIPLoader

3️⃣ 参考图输入

  • 作用:加载用户提供的参考图像并调整大小。

  • 关键组件

    • LoadImage

    • ImageResizeKJ

4️⃣ LORA 模型选择

  • 作用:选择 LORA 进行风格增强。

  • 关键组件

    • LoraLoaderModelOnly

5️⃣ 提示词反推结果输入

  • 作用:将 JOY Caption Two 生成的文本输入 CLIP 进行编码,供 Stable Diffusion 生成使用。

  • 关键组件

    • CLIPTextEncode

    • ConditioningZeroOut

6️⃣ 图像输出

  • 作用:通过 UNet 和 VAE 生成最终图像并保存。

  • 关键组件

    • KSampler

    • VAEDecode

    • SaveImage

7️⃣ 图像对比

  • 作用:将原始图像与生成图像进行对比。

  • 关键组件

    • Image Comparer (rgthree)


🔢 输入 & 输出

📥 主要输入参数

  • 参考图像(用于反推提示词)

  • LORA 选择(增强特定风格)

  • 采样参数

    • 种子值(随机性控制)

    • 采样方法(Euler、DPM++等)

    • 采样步数(默认 25 步)

  • 文本提示词(通过 JOY Caption Two 生成)

📤 主要输出

  • 最终生成的高质量图像

  • 反推的描述性文本

  • 对比输入图像和生成图像的结果


⚠️ 使用注意事项

  1. 计算资源需求

    • 需要 至少 8GB GPU(推荐 12GB 以上)。

    • JOY Caption Two 可能占用较大显存,建议使用 4-bit 量化模型

  2. LORA 模型兼容性

    • 不同 LORA 可能会影响生成结果,建议尝试不同组合以获得最佳效果。

  3. 提示词优化

    • 反推的提示词可能需要手动调整,以获得更符合预期的结果。

  4. 采样参数

    • 采样步数过低可能导致细节缺失,建议 25~50 步。

    • Euler 采样器较快,DPM++ 可能提供更高质量。


总结

这个 ComfyUI 工作流通过 JOY Caption Two 反推提示词,结合 LORA 风格模型Stable Diffusion 进行高质量图像生成,并提供图像对比功能。适合 图像编辑、风格化设计 以及 AI 生成艺术

常见问题