探索水彩风格图片创作过程
借助Flux.1,开启艺术图像生成的无限可能!探索如何将普通照片转化为令人惊叹的手绘水彩风格图像,体验深度控制与AI驱动的创意提示。了解更多信息,创作属于你自己的艺术杰作!
- 显存
- 中等显存(12–16GB)
- 阅读时间
- 11 分钟
工作流概览
借助Flux.1,开启艺术图像生成的无限可能!探索如何将普通照片转化为令人惊叹的手绘水彩风格图像,体验深度控制与AI驱动的创意提示。了解更多信息,创作属于你自己的艺术杰作!
内容类型: Workflow
主要用途: Download
所需模型
- Flux
- Controlnet
- Lora
所需节点
- Controlnet
- Upscaler
配置说明
- 打开工作流模板前,请先安装所需模型。
- 推荐硬件:中等显存(12–16GB)。
工作流概述

此工作流的主要作用是利用 Flux.1 模型和深度控制技术,从输入图像生成高质量的艺术风格图像(手绘水彩风),并通过 Joy2 反推提示词(Captioning)增强生成过程的描述性。工作流的具体目的是:
图像处理与生成:基于输入图像(20230304185125_b966e.jpg)生成 1024x1024 分辨率的艺术风格图像。
深度控制:使用 DepthAnythingV2 模型提取输入图像的深度信息,并通过 ControlNet 引导生成过程。
提示词优化:通过 Joy_caption_two 节点从输入图像反推详细的描述性文本,并结合预定义提示词生成最终图像。 此工作流适用于艺术创作、图像风格化或基于照片生成手绘效果的场景。
核心模型
Flux.1 (基础算法_F.1)
功能:一种高效的文本转图像模型,支持高分辨率生成,适用于生成艺术风格图像。
来源:从 Civitai 或官方仓库下载,放置在 ComfyUI/models/checkpoints/,文件名为类似 基础算法_F.1_fp8_e4m3fn.safetensors。
DepthAnythingV2 (depth_anything_v2_vitl_fp32.safetensors)
功能:提取图像的深度信息,用于 ControlNet 控制生成过程,增强图像的空间结构。
来源:通过 DownloadAndLoadDepthAnythingV2Model 节点自动下载,文件存储在 ComfyUI/models/。
Lora 模型 (姑苏_F.1-手绘水彩风萌宠_V1.0)
功能:微调 Flux.1 模型,专门生成手绘水彩风格的萌宠图像。
来源:从 Civitai 或自定义 Lora 仓库下载,放置在 ComfyUI/models/loras/。
Upscale 模型 (4x-UltraSharp)
功能:对生成图像进行超分辨率放大,增强细节。
来源:从 ComfyUI 模型库下载,放置在 ComfyUI/models/upscale_models/。
组件说明
以下是工作流中的关键节点及其功能、安装方法和依赖:
Joy_caption_two_load
用途:加载 Joy2 管道,用于图像反推提示词。
功能:输出 JoyTwoPipeline 对象,基于 Llama 3.1 模型处理。
安装:需安装 JoyCaption 插件,通过 ComfyUI Manager 搜索“JoyCaption”或从 GitHub(https://github.com/comfyanonymous/ComfyUI_JoyCaption)下载。
依赖:需要 unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit 模型,下载并放置在 ComfyUI/models/joy_caption/。
Joy_caption_two
用途:从输入图像生成描述性文本。
功能:输出详细的字符串(如描述图像内容),支持 Descriptive 模式,最大长度 150 字符。
安装:与 Joy_caption_two_load 共享插件。
依赖:需 JoyTwoPipeline。
ttN concat
用途:连接多个文本字符串。
功能:将预定义文本(如“Hand-drawn watercolor illustration”)与 Joy2 生成的描述合并。
安装:需安装 ttN Nodes 插件,通过 ComfyUI Manager 搜索“ttN”或从 GitHub(https://github.com/ttN-ComfyUI/ttN_nodes)下载。
ShowText|pysssss
用途:显示和传递文本内容。
功能:展示 Joy2 生成的描述或合并后的文本。
安装:ComfyUI 自带,无需额外安装。
LoadFluxControlNet
用途:加载 Flux 兼容的 ControlNet 模型。
功能:输出 FluxControlNet 对象,用于深度控制。
安装:需安装 XLabs 插件,通过 ComfyUI Manager 搜索“XLabs”或从 GitHub(https://github.com/XLabs-AI/ComfyUI-XLabs)下载。
依赖:需要 XLabs-flux-depth-controlnet_v3 文件,下载并放置在 ComfyUI/models/controlnet/。
ApplyFluxControlNet
用途:应用 ControlNet 深度控制。
功能:结合深度图生成条件,增强图像结构。
安装:与 LoadFluxControlNet 共享插件。
依赖:需要深度图输入。
DownloadAndLoadDepthAnythingV2Model
用途:下载并加载 DepthAnythingV2 模型。
功能:自动获取深度模型供后续使用。
安装:需安装 DepthAnything 插件,通过 ComfyUI Manager 搜索“DepthAnything”或从 GitHub(https://github.com/comfyanonymous/ComfyUI_DepthAnything)下载。
DepthAnything_V2
用途:生成输入图像的深度图。
功能:输出深度图像,供 ControlNet 使用。
安装:与 DownloadAndLoadDepthAnythingV2Model 共享插件。
依赖:需要 depth_anything_v2_vitl_fp32.safetensors。
ImageResize+
用途:调整输入图像大小。
功能:将图像调整为 1024x1024,保持比例。
安装:ComfyUI 自带。
DualCLIPLoader
用途:加载 CLIP 模型。
功能:输出 CLIP 对象,用于文本编码。
安装:ComfyUI 自带。
依赖:需要 clip_l 和 t5xxl_fp16 文件,放置在 ComfyUI/models/clip/。
UNETLoader
用途:加载 Flux.1 UNET 模型。
功能:输出模型对象,驱动生成过程。
安装:ComfyUI 自带。
依赖:需要 基础算法_F.1_fp8_e4m3fn 文件。
LoraLoader
用途:加载 Lora 模型。
功能:微调模型,生成手绘水彩风格。
安装:ComfyUI 自带。
依赖:需要 姑苏_F.1-手绘水彩风萌宠_V1.0 文件。
EmptyLatentImage
用途:创建初始潜在图像。
功能:为生成过程提供 1024x1024 潜在空间。
安装:ComfyUI 自带。
XlabsSampler
用途:执行采样生成。
功能:结合模型、条件和 ControlNet 生成潜在图像。
安装:需 XLabs 插件。
VAEDecode
用途:解码潜在图像为像素图像。
功能:输出生成图像。
安装:ComfyUI 自带。
依赖:需要 ae.sft VAE 文件。
UpscaleModelLoader
用途:加载超分辨率模型。
功能:输出放大模型对象。
安装:ComfyUI 自带。
ImageUpscaleWithModel
用途:放大生成图像。
功能:将 1024x1024 图像放大为更高分辨率。
安装:ComfyUI 自带。
SaveImage
用途:保存生成图像。
功能:输出文件至指定路径。
安装:ComfyUI 自带。
Image Comparer (rgthree)
用途:比较原始和生成图像。
功能:提供滑动对比模式,显示输入与输出差异。
安装:需安装 rgthree 插件,通过 ComfyUI Manager 搜索“rgthree”或从 GitHub(https://github.com/rgthree/rgthree-comfy)下载。
工作流结构
Joy2反推提示词组
作用:从输入图像生成描述性文本,优化提示词。
输入参数:输入图像(20230304185125_b966e.jpg)、模式(Descriptive)、长度(150)。
输出结果:详细描述文本(如关于熊猫的段落)。
深度控制组
作用:提取深度信息并应用 ControlNet 控制。
输入参数:输入图像、深度模型(depth_anything_v2_vitl_fp32.safetensors)、ControlNet 权重(0.8)。
输出结果:深度图和 ControlNet 条件。
生图区组
作用:执行图像生成和后处理。
输入参数:潜在图像(1024x1024)、正向提示词(合并文本)、负向提示词(“Worst quality, blurry, wrong, ugly”)、Lora 权重(1.2)、指导比例(3.5)、采样步数(20)。
输出结果:生成图像(初始 1024x1024,后放大)。
输入与输出
预期输入参数:
图像:20230304185125_b966e.jpg(初始分辨率 979x923)。
分辨率:1024x1024。
种子值:722511220491392(可随机化)。
提示词:动态生成(含“Hand-drawn watercolor illustration”)。
负向提示词:“Worst quality, blurry, wrong, ugly”。
Lora 权重:1.2。
指导比例:3.5。
采样步数:20。
最终输出:
高质量艺术风格图像(PNG 格式,放大后分辨率高于 1024x1024)。
对比文件(通过 Image Comparer 保存)。
注意事项
资源需求:Flux.1 和 Lora 生成需 12GB+ VRAM,建议使用 NVIDIA GPU。
模型文件:确保 基础算法_F.1_fp8_e4m3fn、ae.sft 和 Lora 文件路径正确,否则报错。
插件安装:需安装 JoyCaption、XLabs、DepthAnything 和 rgthree 插件,否则节点不可用。
性能优化:减少采样步数(20→10)或分辨率(1024→512)以加快生成。
兼容性:ComfyUI 版本需 0.3.18 或更高,插件需与 Flux.1 兼容。
输入图像:确保 20230304185125_b966e.jpg 存在于指定路径。
示例说明
假设输入图像是一只熊猫的照片,工作流将:
反推描述:“This photograph captures a large, adorable panda...”。
合并提示:“Hand-drawn watercolor illustration, This photograph...”。
生成手绘水彩风格熊猫图像,放大后保存为 ComfyUI.png。