探索水彩风格图片创作过程

CN
ComfyUI.org
2025-03-12 08:01:43

借助Flux.1,开启艺术图像生成的无限可能!探索如何将普通照片转化为令人惊叹的手绘水彩风格图像,体验深度控制与AI驱动的创意提示。了解更多信息,创作属于你自己的艺术杰作!

关键节点
Controlnet
Upscaler
显存
中等显存(12–16GB)
阅读时间
11 分钟
查看所需模型

工作流概览

借助Flux.1,开启艺术图像生成的无限可能!探索如何将普通照片转化为令人惊叹的手绘水彩风格图像,体验深度控制与AI驱动的创意提示。了解更多信息,创作属于你自己的艺术杰作!

内容类型: Workflow

主要用途: Download

所需模型

  • Flux
  • Controlnet
  • Lora

所需节点

  • Controlnet
  • Upscaler

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:中等显存(12–16GB)。

工作流概述

m85mullau8bghb2p5yr6534481b0119501b6c0e7b7668f752ebfe1ae134b74970b15dd33be8bb7405c4.png

此工作流的主要作用是利用 Flux.1 模型和深度控制技术,从输入图像生成高质量的艺术风格图像(手绘水彩风),并通过 Joy2 反推提示词(Captioning)增强生成过程的描述性。工作流的具体目的是:

  • 图像处理与生成:基于输入图像(20230304185125_b966e.jpg)生成 1024x1024 分辨率的艺术风格图像。

  • 深度控制:使用 DepthAnythingV2 模型提取输入图像的深度信息,并通过 ControlNet 引导生成过程。

  • 提示词优化:通过 Joy_caption_two 节点从输入图像反推详细的描述性文本,并结合预定义提示词生成最终图像。 此工作流适用于艺术创作、图像风格化或基于照片生成手绘效果的场景。

核心模型

  1. Flux.1 (基础算法_F.1)

    • 功能:一种高效的文本转图像模型,支持高分辨率生成,适用于生成艺术风格图像。

    • 来源:从 Civitai 或官方仓库下载,放置在 ComfyUI/models/checkpoints/,文件名为类似 基础算法_F.1_fp8_e4m3fn.safetensors。

  2. DepthAnythingV2 (depth_anything_v2_vitl_fp32.safetensors)

    • 功能:提取图像的深度信息,用于 ControlNet 控制生成过程,增强图像的空间结构。

    • 来源:通过 DownloadAndLoadDepthAnythingV2Model 节点自动下载,文件存储在 ComfyUI/models/。

  3. Lora 模型 (姑苏_F.1-手绘水彩风萌宠_V1.0)

    • 功能:微调 Flux.1 模型,专门生成手绘水彩风格的萌宠图像。

    • 来源:从 Civitai 或自定义 Lora 仓库下载,放置在 ComfyUI/models/loras/。

  4. Upscale 模型 (4x-UltraSharp)

    • 功能:对生成图像进行超分辨率放大,增强细节。

    • 来源:从 ComfyUI 模型库下载,放置在 ComfyUI/models/upscale_models/。

组件说明

以下是工作流中的关键节点及其功能、安装方法和依赖:

  1. Joy_caption_two_load

    • 用途:加载 Joy2 管道,用于图像反推提示词。

    • 功能:输出 JoyTwoPipeline 对象,基于 Llama 3.1 模型处理。

    • 安装:需安装 JoyCaption 插件,通过 ComfyUI Manager 搜索“JoyCaption”或从 GitHub(https://github.com/comfyanonymous/ComfyUI_JoyCaption)下载。

    • 依赖:需要 unsloth/Meta-Llama-3.1-8B-Instruct-bnb-4bit 模型,下载并放置在 ComfyUI/models/joy_caption/。

  2. Joy_caption_two

    • 用途:从输入图像生成描述性文本。

    • 功能:输出详细的字符串(如描述图像内容),支持 Descriptive 模式,最大长度 150 字符。

    • 安装:与 Joy_caption_two_load 共享插件。

    • 依赖:需 JoyTwoPipeline。

  3. ttN concat

    • 用途:连接多个文本字符串。

    • 功能:将预定义文本(如“Hand-drawn watercolor illustration”)与 Joy2 生成的描述合并。

    • 安装:需安装 ttN Nodes 插件,通过 ComfyUI Manager 搜索“ttN”或从 GitHub(https://github.com/ttN-ComfyUI/ttN_nodes)下载。

  4. ShowText|pysssss

    • 用途:显示和传递文本内容。

    • 功能:展示 Joy2 生成的描述或合并后的文本。

    • 安装:ComfyUI 自带,无需额外安装。

  5. LoadFluxControlNet

    • 用途:加载 Flux 兼容的 ControlNet 模型。

    • 功能:输出 FluxControlNet 对象,用于深度控制。

    • 安装:需安装 XLabs 插件,通过 ComfyUI Manager 搜索“XLabs”或从 GitHub(https://github.com/XLabs-AI/ComfyUI-XLabs)下载。

    • 依赖:需要 XLabs-flux-depth-controlnet_v3 文件,下载并放置在 ComfyUI/models/controlnet/。

  6. ApplyFluxControlNet

    • 用途:应用 ControlNet 深度控制。

    • 功能:结合深度图生成条件,增强图像结构。

    • 安装:与 LoadFluxControlNet 共享插件。

    • 依赖:需要深度图输入。

  7. DownloadAndLoadDepthAnythingV2Model

  8. DepthAnything_V2

    • 用途:生成输入图像的深度图。

    • 功能:输出深度图像,供 ControlNet 使用。

    • 安装:与 DownloadAndLoadDepthAnythingV2Model 共享插件。

    • 依赖:需要 depth_anything_v2_vitl_fp32.safetensors。

  9. ImageResize+

    • 用途:调整输入图像大小。

    • 功能:将图像调整为 1024x1024,保持比例。

    • 安装:ComfyUI 自带。

  10. DualCLIPLoader

    • 用途:加载 CLIP 模型。

    • 功能:输出 CLIP 对象,用于文本编码。

    • 安装:ComfyUI 自带。

    • 依赖:需要 clip_l 和 t5xxl_fp16 文件,放置在 ComfyUI/models/clip/。

  11. UNETLoader

    • 用途:加载 Flux.1 UNET 模型。

    • 功能:输出模型对象,驱动生成过程。

    • 安装:ComfyUI 自带。

    • 依赖:需要 基础算法_F.1_fp8_e4m3fn 文件。

  12. LoraLoader

    • 用途:加载 Lora 模型。

    • 功能:微调模型,生成手绘水彩风格。

    • 安装:ComfyUI 自带。

    • 依赖:需要 姑苏_F.1-手绘水彩风萌宠_V1.0 文件。

  13. EmptyLatentImage

    • 用途:创建初始潜在图像。

    • 功能:为生成过程提供 1024x1024 潜在空间。

    • 安装:ComfyUI 自带。

  14. XlabsSampler

    • 用途:执行采样生成。

    • 功能:结合模型、条件和 ControlNet 生成潜在图像。

    • 安装:需 XLabs 插件。

  15. VAEDecode

    • 用途:解码潜在图像为像素图像。

    • 功能:输出生成图像。

    • 安装:ComfyUI 自带。

    • 依赖:需要 ae.sft VAE 文件。

  16. UpscaleModelLoader

    • 用途:加载超分辨率模型。

    • 功能:输出放大模型对象。

    • 安装:ComfyUI 自带。

  17. ImageUpscaleWithModel

    • 用途:放大生成图像。

    • 功能:将 1024x1024 图像放大为更高分辨率。

    • 安装:ComfyUI 自带。

  18. SaveImage

    • 用途:保存生成图像。

    • 功能:输出文件至指定路径。

    • 安装:ComfyUI 自带。

  19. Image Comparer (rgthree)

    • 用途:比较原始和生成图像。

    • 功能:提供滑动对比模式,显示输入与输出差异。

    • 安装:需安装 rgthree 插件,通过 ComfyUI Manager 搜索“rgthree”或从 GitHub(https://github.com/rgthree/rgthree-comfy)下载。

工作流结构

  1. Joy2反推提示词组

    • 作用:从输入图像生成描述性文本,优化提示词。

    • 输入参数:输入图像(20230304185125_b966e.jpg)、模式(Descriptive)、长度(150)。

    • 输出结果:详细描述文本(如关于熊猫的段落)。

  2. 深度控制组

    • 作用:提取深度信息并应用 ControlNet 控制。

    • 输入参数:输入图像、深度模型(depth_anything_v2_vitl_fp32.safetensors)、ControlNet 权重(0.8)。

    • 输出结果:深度图和 ControlNet 条件。

  3. 生图区组

    • 作用:执行图像生成和后处理。

    • 输入参数:潜在图像(1024x1024)、正向提示词(合并文本)、负向提示词(“Worst quality, blurry, wrong, ugly”)、Lora 权重(1.2)、指导比例(3.5)、采样步数(20)。

    • 输出结果:生成图像(初始 1024x1024,后放大)。

输入与输出

  • 预期输入参数

    • 图像:20230304185125_b966e.jpg(初始分辨率 979x923)。

    • 分辨率:1024x1024。

    • 种子值:722511220491392(可随机化)。

    • 提示词:动态生成(含“Hand-drawn watercolor illustration”)。

    • 负向提示词:“Worst quality, blurry, wrong, ugly”。

    • Lora 权重:1.2。

    • 指导比例:3.5。

    • 采样步数:20。

  • 最终输出

    • 高质量艺术风格图像(PNG 格式,放大后分辨率高于 1024x1024)。

    • 对比文件(通过 Image Comparer 保存)。

注意事项

  1. 资源需求:Flux.1 和 Lora 生成需 12GB+ VRAM,建议使用 NVIDIA GPU。

  2. 模型文件:确保 基础算法_F.1_fp8_e4m3fn、ae.sft 和 Lora 文件路径正确,否则报错。

  3. 插件安装:需安装 JoyCaption、XLabs、DepthAnything 和 rgthree 插件,否则节点不可用。

  4. 性能优化:减少采样步数(20→10)或分辨率(1024→512)以加快生成。

  5. 兼容性:ComfyUI 版本需 0.3.18 或更高,插件需与 Flux.1 兼容。

  6. 输入图像:确保 20230304185125_b966e.jpg 存在于指定路径。

示例说明

假设输入图像是一只熊猫的照片,工作流将:

  • 反推描述:“This photograph captures a large, adorable panda...”。

  • 合并提示:“Hand-drawn watercolor illustration, This photograph...”。

  • 生成手绘水彩风格熊猫图像,放大后保存为 ComfyUI.png。

常见问题