“释放艺术潜力:深入探索 Flux.1 和 Florence-2 工作流程”

CN
ComfyUI.org
2025-03-13 08:08:43

使用 Flux.1 和 Florence-2 生成惊艳的油画风格图像。学习如何利用 AI 进行艺术创作,并探索图像转文本描述的强大功能。现在就深入了解这个工作流程吧!

显存
中等显存(12–16GB)
阅读时间
6 分钟
查看所需模型

工作流概览

使用 Flux.1 和 Florence-2 生成惊艳的油画风格图像。学习如何利用 AI 进行艺术创作,并探索图像转文本描述的强大功能。现在就深入了解这个工作流程吧!

内容类型: Workflow

主要用途: Download

所需模型

  • Flux
  • Lora
  • Sd

配置说明

  • 打开工作流模板前,请先安装所需模型。
  • 推荐硬件:中等显存(12–16GB)。

工作流概述

m872iqutrzr95hlfnfjeec772db0e6d429789b10cdc06bfe209e4f92896ca9470e5fc0e8fce760e21ac.png

此工作流的主要目的是利用 Flux.1(一种基于 Stable Diffusion 的改进模型)生成具有油画风格的高质量图像,同时结合 Florence-2 模型进行图像反推(Image-to-Text Captioning),生成描述性提示词,最终生成符合特定艺术风格的图像。工作流分为两个主要阶段:

  1. 图像反推阶段:从输入图像(A2.png)生成详细的文本描述。

  2. 图像生成阶段:基于生成的文本提示,使用 Flux.1 和多个 LoRA 模型生成油画风格图像。

核心模型

  1. Flux.1

    • 功能:基于扩散模型的高级图像生成模型,支持高分辨率和复杂细节生成。

    • 来源:需从官方渠道(如 Hugging Face)下载,例如 flux1-dev.sft。

  2. VAE(变分自编码器)

    • 功能:解码 Latent 表示为最终图像,提升生成质量。

    • 来源:此工作流使用 ae.sft,需手动下载并放入 models/vae 文件夹。

  3. Florence-2

    • 功能:图像到文本的模型,用于生成详细的图像描述(Caption)。

    • 来源:通过节点 DownloadAndLoadFlorence2Model 从 microsoft/Florence-2-large 下载。

组件说明

  1. UNETLoader(ID: 10):

    • 用途:加载 Flux.1 的 UNet 模型(基础算法_F.1)。

    • 安装:ComfyUI 默认组件,需手动提供模型文件。

  2. DualCLIPLoader(ID: 11):

    • 用途:加载 Flux 专用的 CLIP 模型(t5xxl_fp8_e4m3fn 和 clip_l)。

    • 安装:需安装 Flux 相关插件,可能通过 ComfyUI Manager 或 GitHub。

  3. CLIPTextEncodeFlux(ID: 74):

    • 用途:将文本提示编码为 Flux 模型可用的条件向量。

    • 安装:Flux 专用节点,需安装 Flux 支持插件。

  4. KSampler(ID: 22):

    • 用途:执行采样过程,生成 Latent 表示。

    • 安装:ComfyUI 核心组件,默认可用。

  5. VAEDecode(ID: 20):

    • 用途:将 Latent 表示解码为图像。

    • 安装:默认组件。

  6. LoraLoaderModelOnly(ID: 31, 76, 77, 78):

    • 用途:加载多个 LoRA 模型,增强 Flux 的油画风格。

    • 安装:默认组件,LoRA 文件需从 Civitai 或 Hugging Face 下载,例如 油画厚涂风格 Oil Painting_FLUX_FLUX_F.1。

  7. DownloadAndLoadFlorence2Model(ID: 81):

    • 用途:下载并加载 Florence-2 模型。

    • 安装:需安装 Florence-2 支持插件(如 ComfyUI-Florence2)。

  8. Florence2Run(ID: 80):

    • 用途:运行 Florence-2,生成图像描述。

    • 安装:同上。

  9. StringFunction|pysssss(ID: 73):

    • 用途:处理 Florence-2 生成的文本,附加额外描述。

    • 安装:需安装 pysssss 自定义节点(从 GitHub 获取)。

工作流结构

  1. 反推组(Group: 反推)

    • 作用:从输入图像生成描述性提示。

    • 节点:LoadImage → DownloadAndLoadFlorence2Model → Florence2Run → StringFunction|pysssss。

    • 输入:图像 A2.png。

    • 输出:文本描述(如“A romantic oil painting...”)。

  2. 模型加载组

    • 作用:加载 Flux.1 模型及其增强 LoRA。

    • 节点:UNETLoader → 多个 LoraLoaderModelOnly。

    • 输入:模型文件路径及 LoRA 文件。

    • 输出:增强后的模型。

  3. 文本编码组

    • 作用:将文本提示编码为条件。

    • 节点:DualCLIPLoader → CLIPTextEncodeFlux(正向提示)、CLIPTextEncode(负向提示)。

    • 输入:正向提示(从反推组获取)、负向提示(NSFW)。

    • 输出:条件向量。

  4. 图像生成组

    • 作用:生成最终图像。

    • 节点:EmptyLatentImage → KSampler → VAEDecode → PreviewImage。

    • 输入:分辨率(904x1600)、采样参数。

    • 输出:油画风格图像。

输入与输出

  • 输入参数

    • 图像:A2.png(需放置于 input 文件夹)。

    • 分辨率:904x1600(由 EmptyLatentImage 设置)。

    • 种子值:随机化(KSampler 设置)。

    • 提示词:由 Florence-2 自动生成并增强。

  • 输出结果

    • PNG 格式的油画风格图像,尺寸为 904x1600。

注意事项

  1. 模型文件:确保 Flux.1 (基础算法_F.1)、VAE (ae.sft) 和 LoRA 文件正确放置于 models 文件夹。

  2. 插件安装:需安装 Flux 支持插件和 Florence-2 插件,未安装可能导致节点缺失。

  3. 性能需求:Flux.1 和 Florence-2 需较高 GPU 性能(建议 12GB+ VRAM)。

  4. 错误排查:若提示“模型未找到”,检查文件路径;若节点报错,确认插件版本兼容性。

常见问题